आर्टिफिशियल इंटेलिजेंस में हाल की प्रगति ने काफी सुधार किया है कि कैसे मशीनें दृश्य सामग्री को भाषा के साथ जोड़ना सीखती हैं। कंट्रास्टिव लर्निंग मॉडल इस परिवर्तन में महत्वपूर्ण रहे हैं, विशेष रूप से एक साझा एम्बेडिंग स्पेस के माध्यम से छवियों और पाठ को संरेखित करने वाले। ये मॉडल शून्य-शॉट वर्गीकरण, छवि-पाठ पुनर्प्राप्ति और मल्टीमॉडल तर्क के लिए केंद्रीय हैं। हालांकि, जबकि इन उपकरणों ने तौर-तरीकों के बीच उच्च-स्तरीय अवधारणाओं को संरेखित करने में सीमाओं को धक्का दिया है, फिर भी वे अधिक बारीक, स्थानिक रूप से सटीक और विस्तृत दृश्य जानकारी को संसाधित करने में चुनौतियों का सामना करते हैं।
प्रमुख अनसुलझे चुनौतियों में से एक उच्च-रिज़ॉल्यूशन दृश्य मान्यता के साथ शब्दार्थ समझ को संतुलित करने में निहित है। अधिकांश मौजूदा विपरीत मॉडल स्थानिक निष्ठा पर व्यापक शब्दार्थ संरेखण को प्राथमिकता देते हैं, जिससे वे उन कार्यों में अंडरपरफॉर्म करते हैं, जिन्हें ऑब्जेक्ट काउंट, गहराई, ठीक-ठीक दानेदार बनावट, या सटीक ऑब्जेक्ट स्थानों की समझ की आवश्यकता होती है। ये सीमाएं इस बात से उत्पन्न होती हैं कि कैसे मॉडल को प्रशिक्षित किया जाता है-अक्सर बड़े पैमाने पर, शिथिल लेबल किए गए डेटासेट पर और अनुकूलन रणनीतियों पर जो विस्तृत दृश्य विश्लेषण पर मिलान वैश्विक सुविधा का पक्ष लेते हैं। स्थानिक-जागरूक अभ्यावेदन की अनुपस्थिति अधिक दानेदार दृष्टि कार्यों में प्रदर्शन को बाधित करती है।
उपलब्ध मॉडल जैसे कि क्लिप, संरेखण और सिग्लिप ने कई वर्गीकरण और पुनर्प्राप्ति बेंचमार्क पर मजबूत प्रदर्शन हासिल किया है। ये मॉडल एक विपरीत तरीके से छवि-पाठ जोड़े से मिलान करने के लिए बड़े डेटासेट का लाभ उठाते हैं, जो एम्बेडिंग स्पेस में एक साथ समान रूप से समान उदाहरणों को लाते हैं। हालांकि, यह ध्यान अक्सर विशेष कार्यों के लिए विस्तृत प्रतिनिधित्व को अनदेखा करता है। उदाहरण के लिए, केवल छवि-पाठ जोड़े के साथ प्रशिक्षित मॉडल सफलतापूर्वक वर्णन कर सकते हैं कि क्या मौजूद है, लेकिन अलग-अलग वस्तुओं को गिनने या समान वस्तुओं के बीच सूक्ष्म विविधताओं को अलग करने जैसे कार्यों में संघर्ष। डिनो या एमएई जैसे विज़न-केंद्रित मॉडल मजबूत फीचर निष्कर्षण प्रदान करते हैं, लेकिन भाषा की व्याख्या की कमी है, जिससे वे मल्टीमॉडल अनुप्रयोगों के लिए कम उपयुक्त हैं।
कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं ने इन सीमाओं को संबोधित करने के लिए ट्यूलिप (टूवर्ड्स टुफाइड लैंग्वेज-इमेज प्रेट्रिंग) नामक एक नया मॉडल पेश किया। एक ओपन-सोर्स के रूप में डिज़ाइन किया गया, मौजूदा क्लिप जैसे मॉडल के लिए प्लग-इन रिप्लेसमेंट, ट्यूलिप उच्च-निष्ठा दृश्य प्रतिनिधित्व के साथ सिमेंटिक संरेखण के एकीकरण को बढ़ाता है। नवाचार कई विपरीत शिक्षण तकनीकों को जनरेटिव डेटा वृद्धि और पुनर्निर्माण-आधारित नियमितीकरण के साथ जोड़ता है। यह उच्च-स्तरीय समझ और ठीक-ठीक विवरणों को संरक्षित करने के लिए डिज़ाइन किया गया है, जो भाषा की समझ और विस्तृत दृश्य विश्लेषण के बीच की खाई को कम करता है।
ट्यूलिप की कार्यप्रणाली तीन विपरीत शिक्षण रणनीतियों को एकीकृत करती है: छवि-छवि, छवि-पाठ, और पाठ-पाठ विपरीत सीखने। यह एकीकृत ढांचा GECO (जेनरेटिव कंट्रास्टिव व्यू ऑगमेंटेशन) नामक एक मॉड्यूल द्वारा संचालित होता है, जो छवियों और पाठ के चुनौतीपूर्ण वृद्धि को बनाने के लिए बड़े जनरेटिव मॉडल का उपयोग करता है। इनमें शब्दार्थी और नकारात्मक विपरीत जोड़े उत्पन्न करते हुए, समान रूप से समान या सूक्ष्म रूप से परिवर्तित विविधताएं शामिल हैं। छवि एनकोडर एक नकाबपोश ऑटोएन्कोडर पुनर्निर्माण हानि के साथ एक विज़न ट्रांसफार्मर आर्किटेक्चर का लाभ उठाता है, जबकि पाठ एनकोडर सामग्री को विरोध करने के लिए भाषा मॉडल का उपयोग करता है। नियमितीकरण उद्देश्य मॉडल को बनावट, लेआउट और रंग के साथ -साथ शब्दार्थ जैसे आवश्यक विवरणों को बनाए रखने के लिए प्रोत्साहित करते हैं।
प्रदर्शन बेंचमार्क प्रदर्शित करते हैं कि ट्यूलिप विभिन्न कार्यों में उल्लेखनीय सुधार प्राप्त करता है। Imagenet-1k शून्य-शॉट वर्गीकरण पर, ट्यूलिप 89.6% सटीकता तक पहुंचता है, कई डेटासेट में 2-3 प्रतिशत अंक से सिग्लिप को बेहतर बनाता है। कुछ-शॉट वर्गीकरण में, यह RXRX1 पर सिग्लिप पर लगभग दोगुना प्रदर्शन करता है, सटीकता 4.6% से बढ़कर 9.8% हो जाती है। MMVP पर, एक दृष्टि-भाषा बेंचमार्क, ट्यूलिप 3 × से अधिक सिग्लिप पर प्रदर्शन में सुधार करता है। यह Winoground बेंचमार्क पर प्रतिस्पर्धा करने वाले मॉडल को भी बेहतर बनाता है, जो समूह-आधारित तर्क कार्यों पर बेहतर-से-यादों के परिणामों को प्राप्त करने वाला पहला सीआईटी मॉडल बन जाता है। ब्लिंक मूल्यांकन स्थानिक तर्क और वस्तु स्थानीयकरण, प्रतिद्वंद्वी या कुछ GPT-4-आधारित प्रणालियों को पार करने जैसे कार्यों को जन्म देता है।
यह शोध एक मौलिक मल्टीमॉडल लर्निंग ट्रेडऑफ के लिए एक सम्मोहक समाधान प्रदान करता है: दृश्य विवरण और अर्थपूर्ण सुसंगतता को प्राप्त करना। अनुसंधान टीम ने दिखाया है कि जनरेटिव वृद्धि और बहु-दृश्य विपरीत तकनीकों को पेश करने में जटिल दृश्य और भाषाई तर्क के लिए मॉडल की क्षमता को काफी बढ़ावा देता है। ट्यूलिप भविष्य के दृष्टि-भाषा प्रणालियों के लिए एक नई दिशा निर्धारित करता है जो एक एकीकृत मॉडल में व्यापक और ठीक-ठीक समझ को संभालते हैं।
चेक आउट पेपर, प्रोजेक्ट पेज और GitHub पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।