Monday, April 21, 2025

यूसी बर्कले का यह एआई पेपर ट्यूलिप का परिचय देता है: उच्च-निष्ठा दृष्टि और भाषा की समझ के लिए एक एकीकृत कंट्रास्टिव लर्निंग मॉडल – Gadgets Solutions

-

आर्टिफिशियल इंटेलिजेंस में हाल की प्रगति ने काफी सुधार किया है कि कैसे मशीनें दृश्य सामग्री को भाषा के साथ जोड़ना सीखती हैं। कंट्रास्टिव लर्निंग मॉडल इस परिवर्तन में महत्वपूर्ण रहे हैं, विशेष रूप से एक साझा एम्बेडिंग स्पेस के माध्यम से छवियों और पाठ को संरेखित करने वाले। ये मॉडल शून्य-शॉट वर्गीकरण, छवि-पाठ पुनर्प्राप्ति और मल्टीमॉडल तर्क के लिए केंद्रीय हैं। हालांकि, जबकि इन उपकरणों ने तौर-तरीकों के बीच उच्च-स्तरीय अवधारणाओं को संरेखित करने में सीमाओं को धक्का दिया है, फिर भी वे अधिक बारीक, स्थानिक रूप से सटीक और विस्तृत दृश्य जानकारी को संसाधित करने में चुनौतियों का सामना करते हैं।

प्रमुख अनसुलझे चुनौतियों में से एक उच्च-रिज़ॉल्यूशन दृश्य मान्यता के साथ शब्दार्थ समझ को संतुलित करने में निहित है। अधिकांश मौजूदा विपरीत मॉडल स्थानिक निष्ठा पर व्यापक शब्दार्थ संरेखण को प्राथमिकता देते हैं, जिससे वे उन कार्यों में अंडरपरफॉर्म करते हैं, जिन्हें ऑब्जेक्ट काउंट, गहराई, ठीक-ठीक दानेदार बनावट, या सटीक ऑब्जेक्ट स्थानों की समझ की आवश्यकता होती है। ये सीमाएं इस बात से उत्पन्न होती हैं कि कैसे मॉडल को प्रशिक्षित किया जाता है-अक्सर बड़े पैमाने पर, शिथिल लेबल किए गए डेटासेट पर और अनुकूलन रणनीतियों पर जो विस्तृत दृश्य विश्लेषण पर मिलान वैश्विक सुविधा का पक्ष लेते हैं। स्थानिक-जागरूक अभ्यावेदन की अनुपस्थिति अधिक दानेदार दृष्टि कार्यों में प्रदर्शन को बाधित करती है।

यूसी बर्कले का यह एआई पेपर ट्यूलिप का परिचय देता है: उच्च-निष्ठा दृष्टि और भाषा की समझ के लिए एक एकीकृत कंट्रास्टिव लर्निंग मॉडल
 – Gadgets Solutions

उपलब्ध मॉडल जैसे कि क्लिप, संरेखण और सिग्लिप ने कई वर्गीकरण और पुनर्प्राप्ति बेंचमार्क पर मजबूत प्रदर्शन हासिल किया है। ये मॉडल एक विपरीत तरीके से छवि-पाठ जोड़े से मिलान करने के लिए बड़े डेटासेट का लाभ उठाते हैं, जो एम्बेडिंग स्पेस में एक साथ समान रूप से समान उदाहरणों को लाते हैं। हालांकि, यह ध्यान अक्सर विशेष कार्यों के लिए विस्तृत प्रतिनिधित्व को अनदेखा करता है। उदाहरण के लिए, केवल छवि-पाठ जोड़े के साथ प्रशिक्षित मॉडल सफलतापूर्वक वर्णन कर सकते हैं कि क्या मौजूद है, लेकिन अलग-अलग वस्तुओं को गिनने या समान वस्तुओं के बीच सूक्ष्म विविधताओं को अलग करने जैसे कार्यों में संघर्ष। डिनो या एमएई जैसे विज़न-केंद्रित मॉडल मजबूत फीचर निष्कर्षण प्रदान करते हैं, लेकिन भाषा की व्याख्या की कमी है, जिससे वे मल्टीमॉडल अनुप्रयोगों के लिए कम उपयुक्त हैं।

कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं ने इन सीमाओं को संबोधित करने के लिए ट्यूलिप (टूवर्ड्स टुफाइड लैंग्वेज-इमेज प्रेट्रिंग) नामक एक नया मॉडल पेश किया। एक ओपन-सोर्स के रूप में डिज़ाइन किया गया, मौजूदा क्लिप जैसे मॉडल के लिए प्लग-इन रिप्लेसमेंट, ट्यूलिप उच्च-निष्ठा दृश्य प्रतिनिधित्व के साथ सिमेंटिक संरेखण के एकीकरण को बढ़ाता है। नवाचार कई विपरीत शिक्षण तकनीकों को जनरेटिव डेटा वृद्धि और पुनर्निर्माण-आधारित नियमितीकरण के साथ जोड़ता है। यह उच्च-स्तरीय समझ और ठीक-ठीक विवरणों को संरक्षित करने के लिए डिज़ाइन किया गया है, जो भाषा की समझ और विस्तृत दृश्य विश्लेषण के बीच की खाई को कम करता है।

ट्यूलिप की कार्यप्रणाली तीन विपरीत शिक्षण रणनीतियों को एकीकृत करती है: छवि-छवि, छवि-पाठ, और पाठ-पाठ विपरीत सीखने। यह एकीकृत ढांचा GECO (जेनरेटिव कंट्रास्टिव व्यू ऑगमेंटेशन) नामक एक मॉड्यूल द्वारा संचालित होता है, जो छवियों और पाठ के चुनौतीपूर्ण वृद्धि को बनाने के लिए बड़े जनरेटिव मॉडल का उपयोग करता है। इनमें शब्दार्थी और नकारात्मक विपरीत जोड़े उत्पन्न करते हुए, समान रूप से समान या सूक्ष्म रूप से परिवर्तित विविधताएं शामिल हैं। छवि एनकोडर एक नकाबपोश ऑटोएन्कोडर पुनर्निर्माण हानि के साथ एक विज़न ट्रांसफार्मर आर्किटेक्चर का लाभ उठाता है, जबकि पाठ एनकोडर सामग्री को विरोध करने के लिए भाषा मॉडल का उपयोग करता है। नियमितीकरण उद्देश्य मॉडल को बनावट, लेआउट और रंग के साथ -साथ शब्दार्थ जैसे आवश्यक विवरणों को बनाए रखने के लिए प्रोत्साहित करते हैं।

प्रदर्शन बेंचमार्क प्रदर्शित करते हैं कि ट्यूलिप विभिन्न कार्यों में उल्लेखनीय सुधार प्राप्त करता है। Imagenet-1k शून्य-शॉट वर्गीकरण पर, ट्यूलिप 89.6% सटीकता तक पहुंचता है, कई डेटासेट में 2-3 प्रतिशत अंक से सिग्लिप को बेहतर बनाता है। कुछ-शॉट वर्गीकरण में, यह RXRX1 पर सिग्लिप पर लगभग दोगुना प्रदर्शन करता है, सटीकता 4.6% से बढ़कर 9.8% हो जाती है। MMVP पर, एक दृष्टि-भाषा बेंचमार्क, ट्यूलिप 3 × से अधिक सिग्लिप पर प्रदर्शन में सुधार करता है। यह Winoground बेंचमार्क पर प्रतिस्पर्धा करने वाले मॉडल को भी बेहतर बनाता है, जो समूह-आधारित तर्क कार्यों पर बेहतर-से-यादों के परिणामों को प्राप्त करने वाला पहला सीआईटी मॉडल बन जाता है। ब्लिंक मूल्यांकन स्थानिक तर्क और वस्तु स्थानीयकरण, प्रतिद्वंद्वी या कुछ GPT-4-आधारित प्रणालियों को पार करने जैसे कार्यों को जन्म देता है।

यह शोध एक मौलिक मल्टीमॉडल लर्निंग ट्रेडऑफ के लिए एक सम्मोहक समाधान प्रदान करता है: दृश्य विवरण और अर्थपूर्ण सुसंगतता को प्राप्त करना। अनुसंधान टीम ने दिखाया है कि जनरेटिव वृद्धि और बहु-दृश्य विपरीत तकनीकों को पेश करने में जटिल दृश्य और भाषाई तर्क के लिए मॉडल की क्षमता को काफी बढ़ावा देता है। ट्यूलिप भविष्य के दृष्टि-भाषा प्रणालियों के लिए एक नई दिशा निर्धारित करता है जो एक एकीकृत मॉडल में व्यापक और ठीक-ठीक समझ को संभालते हैं।


चेक आउट पेपर, प्रोजेक्ट पेज और GitHub पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


Bytedance UI-TARS-1.5 रिलीज़ करता है: एक शक्तिशाली दृष्टि-भाषा मॉडल पर निर्मित एक ओपन-सोर्स मल्टीमॉडल AI एजेंट
 – Gadgets Solutions

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »