Saturday, April 19, 2025

इकोलॉजिस्ट वन्यजीव छवियों को पुनः प्राप्त करने में कंप्यूटर विज़न मॉडल के अंधे धब्बे पाते हैं – Gadgets Solutions

-

इकोलॉजिस्ट वन्यजीव छवियों को पुनः प्राप्त करने में कंप्यूटर विज़न मॉडल के अंधे धब्बे पाते हैं
 – Gadgets Solutions

उत्तरी अमेरिका की लगभग 11,000 पेड़ प्रजातियों में से प्रत्येक की एक तस्वीर लेने का प्रयास करें, और आपके पास प्रकृति छवि डेटासेट के भीतर लाखों तस्वीरों का एक मात्र अंश होगा। स्नैपशॉट के ये बड़े पैमाने पर संग्रह – तितलियों से लेकर हंपबैक व्हेल तक – पारिस्थितिकीविदों के लिए एक महान शोध उपकरण हैं क्योंकि वे जीवों के अद्वितीय व्यवहार, दुर्लभ परिस्थितियों, प्रवासन पैटर्न और प्रदूषण और जलवायु परिवर्तन के अन्य रूपों के लिए प्रतिक्रियाओं का प्रमाण प्रदान करते हैं।

जबकि व्यापक, प्रकृति छवि डेटासेट अभी तक उतने उपयोगी नहीं हैं जितना वे हो सकते हैं। इन डेटाबेस को खोजने और आपकी परिकल्पना के लिए सबसे अधिक प्रासंगिक छवियों को पुनः प्राप्त करने के लिए समय लेने वाला है। आप एक स्वचालित अनुसंधान सहायक के साथ बेहतर होंगे – या शायद कृत्रिम बुद्धिमत्ता प्रणाली जिसे मल्टीमॉडल विजन लैंग्वेज मॉडल (वीएलएम) कहा जाता है। वे पाठ और छवियों दोनों पर प्रशिक्षित हैं, जिससे उनके लिए एक फोटो की पृष्ठभूमि में विशिष्ट पेड़ों की तरह बारीक विवरणों को इंगित करना आसान हो जाता है।

लेकिन सिर्फ वीएलएम छवि पुनर्प्राप्ति के साथ प्रकृति शोधकर्ताओं की सहायता कर सकते हैं? MIT के कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (CSAIL), यूनिवर्सिटी कॉलेज लंदन, INATURALIST और अन्य जगहों की एक टीम ने यह पता लगाने के लिए एक प्रदर्शन परीक्षण तैयार किया। प्रत्येक वीएलएम का कार्य: टीम के “पूछताछ” डेटासेट के भीतर सबसे अधिक प्रासंगिक परिणामों का पता लगाएं और पुनर्गठित करें, 5 मिलियन वन्यजीव चित्रों और 250 खोजों से बना पारिस्थितिकीविदों और अन्य जैव विविधता विशेषज्ञों से 250 खोज संकेत।

उस विशेष मेंढक की तलाश में

इन मूल्यांकन में, शोधकर्ताओं ने पाया कि बड़े, अधिक उन्नत वीएलएम, जो कहीं अधिक डेटा पर प्रशिक्षित होते हैं, कभी -कभी शोधकर्ताओं को उन परिणामों को प्राप्त कर सकते हैं जो वे देखना चाहते हैं। मॉडल ने दृश्य सामग्री के बारे में सीधे प्रश्नों पर यथोचित प्रदर्शन किया, जैसे कि एक चट्टान पर मलबे की पहचान करना, लेकिन विशेषज्ञ ज्ञान की आवश्यकता वाले प्रश्नों के साथ महत्वपूर्ण रूप से संघर्ष किया, जैसे विशिष्ट जैविक स्थितियों या व्यवहारों की पहचान करना। उदाहरण के लिए, वीएलएम ने समुद्र तट पर जेलीफ़िश के उदाहरणों को आसानी से उजागर किया, लेकिन “हरे मेंढक में एक्सेंथिज़्म” जैसे अधिक तकनीकी संकेतों के साथ संघर्ष किया, एक ऐसी स्थिति जो उनकी त्वचा को पीला बनाने की उनकी क्षमता को सीमित करती है।

उनके निष्कर्षों से संकेत मिलता है कि मॉडल को कठिन प्रश्नों को संसाधित करने के लिए बहुत अधिक डोमेन-विशिष्ट प्रशिक्षण डेटा की आवश्यकता होती है। MIT PHD के छात्र एडवर्ड वेंड्रो, एक CSAIL संबद्ध, जो एक नए पेपर में डेटासेट पर काम करते हैं, का मानना ​​है कि अधिक जानकारीपूर्ण डेटा के साथ परिचित होने से, VLM एक दिन महान शोध सहायक हो सकते हैं। “हम पुनर्प्राप्ति प्रणालियों का निर्माण करना चाहते हैं जो सटीक परिणाम पाते हैं कि वैज्ञानिक जैव विविधता की निगरानी करते समय और जलवायु परिवर्तन का विश्लेषण करते समय चाहते हैं,” वेन्ड्रो कहते हैं। “मल्टीमॉडल मॉडल अभी तक अधिक जटिल वैज्ञानिक भाषा को नहीं समझते हैं, लेकिन हम मानते हैं कि पूछताछ करने के लिए पूछताछ एक महत्वपूर्ण बेंचमार्क होगा कि वे वैज्ञानिक शब्दावली को समझने में कैसे सुधार करते हैं और अंततः शोधकर्ताओं को स्वचालित रूप से सटीक छवियों को खोजने में मदद करने में मदद करते हैं।”

टीम के प्रयोगों ने स्पष्ट किया कि बड़े मॉडल उनके विस्तृत प्रशिक्षण डेटा के कारण सरल और अधिक जटिल खोजों दोनों के लिए अधिक प्रभावी थे। उन्होंने पहली बार परीक्षण करने के लिए पूछताछ डेटासेट का उपयोग किया यदि वीएलएमएस 5 मिलियन छवियों के एक पूल को शीर्ष 100 सबसे अधिक प्रासंगिक परिणामों (जिसे “रैंकिंग” के रूप में भी जाना जाता है) के लिए संकीर्ण कर सकता है। सीधे खोज क्वेरी के लिए जैसे “मानव निर्मित संरचनाओं और मलबे के साथ एक चट्टान”, “सिग्लिप” जैसे अपेक्षाकृत बड़े मॉडल मिलान छवियों को मिले, जबकि छोटे आकार के क्लिप मॉडल संघर्ष करते थे। वेंड्रो के अनुसार, बड़े वीएलएम “केवल उपयोगी होने लगे हैं” कठिन क्वेरीज़ रैंकिंग में।

वेंड्रो और उनके सहयोगियों ने यह भी मूल्यांकन किया कि मल्टीमॉडल मॉडल उन 100 परिणामों को फिर से रैंक कर सकते हैं, जो पुनर्गठित कर सकते हैं कि कौन सी छवियां एक खोज के लिए सबसे अधिक प्रासंगिक थीं। इन परीक्षणों में, यहां तक ​​कि GPT-4O की तरह अधिक क्यूरेटेड डेटा पर प्रशिक्षित विशाल LLM भी संघर्ष करते हैं: इसका सटीक स्कोर केवल 59.6 प्रतिशत था, किसी भी मॉडल द्वारा प्राप्त उच्चतम स्कोर।

शोधकर्ताओं ने इस महीने की शुरुआत में इन परिणामों को न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स (NEURIPs) पर सम्मेलन में प्रस्तुत किया।

पूछताछ के लिए पूछताछ

पूछताछ डेटासेट में पारिस्थितिकीविदों, जीवविज्ञानी, ओशनोग्राफर्स और अन्य विशेषज्ञों के साथ चर्चा के आधार पर खोज क्वेरी शामिल हैं, जिनमें वे छवियों के प्रकारों के बारे में हैं, जिनमें वे जानवरों की अद्वितीय भौतिक स्थितियों और व्यवहारों को शामिल करते हैं। एनोटेटर्स की एक टीम ने तब 180 घंटे बिताए, इन प्रॉम्प्ट के साथ इनटुरलिस्ट डेटासेट की खोज में, 33,000 मैचों को लेबल करने के लिए लगभग 200,000 परिणामों के माध्यम से सावधानीपूर्वक कंघी करने वाले जो संकेतों को फिट करते हैं।

उदाहरण के लिए, एनोटेटर्स ने “एक हर्मिट केकड़े का उपयोग प्लास्टिक कचरे के रूप में अपने शेल के रूप में” और “एक कैलिफोर्निया कोंडोर को हरे ’26’ के साथ टैग की गई, जो बड़ी छवि डेटासेट के सबसेट की पहचान करने के लिए इन विशिष्ट, दुर्लभ घटनाओं को दर्शाती है।

फिर, शोधकर्ताओं ने एक ही खोज क्वेरी का उपयोग यह देखने के लिए किया कि वीएलएम कितना अच्छी तरह से अनैतिकतावादी छवियों को पुनः प्राप्त कर सकते हैं। एनोटेटर्स के लेबल से पता चला जब मॉडल वैज्ञानिकों के कीवर्ड को समझने के लिए संघर्ष करते थे, क्योंकि उनके परिणामों में खोज के लिए अप्रासंगिक के रूप में पहले टैग की गई छवियां शामिल थीं। उदाहरण के लिए, “रेडवुड ट्री विद फायर स्कार्स” के लिए वीएलएमएस के परिणामों में कभी -कभी बिना किसी चिह्न के पेड़ों की छवियां शामिल होती हैं।

एमआईटी में होमर ए। बर्नेल कैरियर डेवलपमेंट असिस्टेंट प्रोफेसर, सारा बीरी, सीएसएएल प्रिंसिपल इन्वेस्टिगेटर, और वर्क के सह-वरिष्ठ लेखक सारा बीरी कहते हैं, “यह डेटा की एक सावधानीपूर्वक क्यूरेशन है, जिसमें पारिस्थितिकी और पर्यावरण विज्ञान में अनुसंधान क्षेत्रों में वैज्ञानिक पूछताछ के वास्तविक उदाहरणों को कैप्चर करने पर ध्यान केंद्रित किया गया है।” “इन संभावित प्रभावशाली वैज्ञानिक सेटिंग्स में वीएलएम की वर्तमान क्षमताओं की हमारी समझ का विस्तार करने के लिए यह महत्वपूर्ण साबित हुआ है। इसने वर्तमान शोध में अंतराल को भी रेखांकित किया है जिसे हम अब संबोधित करने के लिए काम कर सकते हैं, विशेष रूप से जटिल रचनात्मक प्रश्नों, तकनीकी शब्दावली, और ठीक-ठीक, सूक्ष्म अंतर के लिए जो हमारे सहयोगियों के लिए रुचि के हितों की रुचि रखते हैं।”

“हमारे निष्कर्षों का अर्थ है कि कुछ विज़न मॉडल पहले से ही सटीक हैं जो वन्यजीव वैज्ञानिकों को कुछ छवियों को पुनः प्राप्त करने में सहायता के लिए पर्याप्त हैं, लेकिन कई कार्य अभी भी सबसे बड़े, सबसे अच्छे प्रदर्शन करने वाले मॉडल के लिए भी मुश्किल हैं,” वेन्ड्रो कहते हैं। “हालांकि पूछताछ पारिस्थितिकी और जैव विविधता की निगरानी पर केंद्रित है, लेकिन इसके प्रश्नों की विस्तृत विविधता का मतलब है कि वीएलएम जो पूछताछ पर अच्छा प्रदर्शन करते हैं, वे अन्य अवलोकन-गहन क्षेत्रों में बड़ी छवि संग्रह का विश्लेषण करने में उत्कृष्टता प्राप्त करने की संभावना रखते हैं।”

पूछताछ करने वाले दिमाग देखना चाहते हैं

अपनी परियोजना को और आगे बढ़ाते हुए, शोधकर्ता वैज्ञानिकों और अन्य जिज्ञासु दिमागों को बेहतर मदद करने के लिए एक क्वेरी सिस्टम विकसित करने के लिए अनैतिकतावादी के साथ काम कर रहे हैं, जो वे वास्तव में देखना चाहते हैं। उनका काम करने वाला डेमो उपयोगकर्ताओं को प्रजातियों द्वारा खोजों को फ़िल्टर करने की अनुमति देता है, जिससे प्रासंगिक परिणामों की त्वरित खोज को सक्षम किया जाता है, जैसे कि बिल्लियों के विविध नेत्र रंग। वेन्ड्रो और सह-नेतृत्व लेखक ओमिरोस पैंटाजिस, जिन्होंने हाल ही में यूनिवर्सिटी कॉलेज लंदन से पीएचडी प्राप्त की, का लक्ष्य भी बेहतर परिणाम प्रदान करने के लिए वर्तमान मॉडल को बढ़ाकर पुन: रैंकिंग प्रणाली में सुधार करना है।

पिट्सबर्ग विश्वविद्यालय के एसोसिएट प्रोफेसर जस्टिन किट्ज ने द्वितीयक डेटा को उजागर करने के लिए पूछताछ की क्षमता पर प्रकाश डाला। “जैव विविधता डेटासेट तेजी से किसी भी व्यक्तिगत वैज्ञानिक के लिए समीक्षा करने के लिए बहुत बड़े हो रहे हैं,” किट्ज़ेस कहते हैं, जो अनुसंधान में शामिल नहीं थे। “यह पेपर एक कठिन और अनसुलझी समस्या पर ध्यान आकर्षित करता है, जो यह है कि इस तरह के डेटा के माध्यम से प्रभावी ढंग से खोज करने के लिए कि व्यक्तिगत विशेषताओं, व्यवहार और प्रजातियों के इंटरैक्शन के बारे में पूछने के लिए केवल ‘जो यहां है’ से परे जाने वाले प्रश्नों के साथ कैसे खोजें। जैव विविधता छवि डेटा में इन अधिक जटिल घटनाओं को कुशलता और सटीक रूप से उजागर करने में सक्षम होना

वेंड्रो, पैंटाजिस, और बीरी ने इनटुरलिस्ट सॉफ्टवेयर इंजीनियर अलेक्जेंडर शेपर्ड, यूनिवर्सिटी कॉलेज लंदन के प्रोफेसर गेब्रियल ब्रोस्टो और केट जोन्स, एडिनबर्ग एसोसिएट प्रोफेसर के विश्वविद्यालय के साथ पेपर लिखा और एमहर्स्ट असिस्टेंट प्रोफेसर वैन हॉर्न में मैसाचुसेट्स के सह-सीनियर ओसिन मैक एओदा, और यूनिवर्सिटी ऑफ मैसाचुसेट्स, जिन्होंने सह-सहनशीलता के रूप में सेवा की। उनके काम का समर्थन किया गया था, एडिनबर्ग विश्वविद्यालय में जेनेरिक एआई प्रयोगशाला, यूएस नेशनल साइंस फाउंडेशन/नेचुरल साइंसेज एंड इंजीनियरिंग रिसर्च काउंसिल ऑफ कनाडा ग्लोबल सेंटर ऑन एआई और बायोडायवर्सिटी चेंज, रॉयल सोसाइटी रिसर्च ग्रांट, और वर्ल्ड वाइल्डलाइफ फंड द्वारा वित्त पोषित बायोम हेल्थ प्रोजेक्ट द्वारा।

। डेटासेट (टी) इनटुरलिस्ट (टी) एडवर्ड वेंड्रो (टी) सारा बीरी

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »