Monday, April 21, 2025

क्या हमें अभी भी जटिल दृष्टि-भाषा पाइपलाइनों की आवश्यकता है? Bytedance और Whu के शोधकर्ता पिक्सेल-सेल का परिचय देते हैं-पिक्सेल-स्तरीय समझ के लिए एक एकल ट्रांसफार्मर मॉडल – Gadgets Solutions

-

MLLMS हाल ही में ठीक-ठाक, पिक्सेल-स्तरीय दृश्य समझ को संभालने में उन्नत हुआ है, जिससे सटीक क्षेत्र-आधारित संपादन और विभाजन जैसे कार्यों के लिए उनके अनुप्रयोगों का विस्तार हुआ है। उनकी प्रभावशीलता के बावजूद, अधिकांश मौजूदा दृष्टिकोण अलग -अलग घटकों जैसे कि विज़न एनकोडर (जैसे, क्लिप), विभाजन नेटवर्क, और अतिरिक्त फ्यूजन या डिकोडिंग मॉड्यूल जैसे जटिल आर्किटेक्चर पर बहुत अधिक निर्भर करते हैं। मॉड्यूलर सिस्टम पर यह निर्भरता प्रणाली की जटिलता को बढ़ाती है और स्केलेबिलिटी को सीमित करती है, खासकर जब नए कार्यों के अनुकूल होती है। एकीकृत आर्किटेक्चर से प्रेरित है जो संयुक्त रूप से एक एकल ट्रांसफार्मर का उपयोग करके दृश्य और पाठ्य सुविधाओं को सीखते हैं, हाल के प्रयासों ने अधिक सरलीकृत डिजाइनों का पता लगाया है जो बाहरी घटकों से बचते हैं, जबकि अभी भी विस्तृत दृश्य ग्राउंडिंग और भाषा बातचीत की आवश्यकता वाले कार्यों में मजबूत प्रदर्शन को सक्षम करते हैं।

ऐतिहासिक रूप से, विज़न-लैंग्वेज मॉडल विपरीत सीखने के दृष्टिकोण से विकसित हुए हैं, जैसे कि क्लिप और संरेखित, बड़े पैमाने पर मॉडल की ओर प्रगति करते हैं जो ओपन-एंडेड कार्यों को संबोधित करते हैं, जिसमें दृश्य प्रश्न उत्तर और ऑप्टिकल चरित्र मान्यता शामिल हैं। ये मॉडल आम तौर पर दृश्य ट्रांसफॉर्मर में भाषा को इंजेक्ट करके या बड़े भाषा मॉडल में विभाजन नेटवर्क को जोड़कर या तो दृष्टि और भाषा सुविधाओं को फ्यूज करते हैं। हालांकि, इस तरह के तरीकों को अक्सर जटिल इंजीनियरिंग की आवश्यकता होती है और वे व्यक्तिगत सबमॉड्यूल्स के प्रदर्शन पर निर्भर होते हैं। हाल के शोध ने एनकोडर-मुक्त डिजाइनों का पता लगाना शुरू कर दिया है जो एक एकल ट्रांसफार्मर के भीतर छवि और पाठ सीखने को एकजुट करते हैं, जिससे अधिक कुशल प्रशिक्षण और अनुमान सक्षम होता है। इन दृष्टिकोणों को कई विशेष घटकों की आवश्यकता के बिना क्षेत्र-स्तरीय तर्क और बातचीत का समर्थन करने के उद्देश्य से अभिव्यक्ति विभाजन और दृश्य शीघ्र समझ का उल्लेख करने जैसे कार्यों के लिए भी विस्तारित किया गया है।

Bytedance और Whu के शोधकर्ताओं ने Pixel-Sail, एक एकल-ट्रांसफ़ॉर्मर फ्रेमवर्क जो पिक्सेल-वार मल्टीमॉडल कार्यों के लिए डिज़ाइन किया गया है, जो अतिरिक्त दृष्टि एनकोडर पर भरोसा नहीं करता है। यह तीन प्रमुख नवाचारों का परिचय देता है: दृश्य सुविधाओं को परिष्कृत करने के लिए एक सीखने योग्य अपसम्पलिंग मॉड्यूल, एक दृश्य शीघ्र इंजेक्शन रणनीति जो मैप्स टेक्स्ट टोकन में संकेत देती है, और मास्क गुणवत्ता को बढ़ाने के लिए एक विज़न एक्सपर्ट डिस्टिलेशन विधि। Pixel-Sail को विभाजन, VQA और विजुअल प्रॉम्प्ट डेटासेट को संदर्भित करने के मिश्रण पर प्रशिक्षित किया जाता है। यह बड़े मॉडलों, जैसे कि ग्लैम (7 बी) और ओएमजी-एलवा (7 बी), पांच बेंचमार्क पर, नए प्रस्तावित पेरबेंच सहित, एक महत्वपूर्ण रूप से सरल वास्तुकला को बनाए रखते हुए बेहतर प्रदर्शन करता है।

पिक्सेल-सेल, ठीक दाने वाले दृष्टि-भाषा कार्यों के लिए एक सरल लेकिन प्रभावी एकल-ट्रांसफॉर्मर मॉडल, अलग-अलग दृष्टि एनकोडर की आवश्यकता को समाप्त करता है। वे पहले एक सादे एनकोडर मुक्त एमएलएलएम बेसलाइन को डिजाइन करते हैं और विभाजन की गुणवत्ता और दृश्य शीघ्र समझ में इसकी सीमाओं की पहचान करते हैं। इन पर काबू पाने के लिए, पिक्सेल-सेल परिचय देता है: (1) उच्च-रेज फीचर रिकवरी के लिए एक सीखने योग्य अपसैम्पलिंग मॉड्यूल, (2) एक दृश्य शीघ्र इंजेक्शन तकनीक जो विज़न टोकन के साथ प्रारंभिक संलयन को सक्षम करता है, और (3) मास्क 2फॉर्मर और एसएएम 2 जैसे विशेषज्ञ मॉडल का उपयोग करके एक घने सुविधा आसवन रणनीति। वे 1,500 एनोटेट उदाहरणों में ऑब्जेक्ट कैप्शनिंग, विजुअल-प्रॉम्प्ट अंडरस्टैंडिंग, और वीटी रेस सेगमेंटेशन का आकलन करने वाला एक नया बेंचमार्क, एक नया बेंचमार्क भी पेश करते हैं।

प्रयोग संशोधित सोलो और ईवीईवी 2 आर्किटेक्चर का उपयोग करके विभिन्न बेंचमार्क पर पिक्सेल-सेल मॉडल का मूल्यांकन करता है, जो विभाजन और दृश्य शीघ्र कार्यों में इसकी प्रभावशीलता दिखाता है। Pixel-Sail ने अन्य मॉडलों को काफी बेहतर ढंग से किया है, जिसमें विभाजन विशेषज्ञ शामिल हैं, जिसमें Refcoco और Grefcoco जैसे डेटासेट पर उच्च CIOU स्कोर हैं। मॉडल के आकार को 0.5b से 3B तक बढ़ाने से और सुधार होता है। एब्लेशन स्टडीज से पता चलता है कि विज़ुअल प्रॉम्प्ट मैकेनिज्म, डेटा स्केलिंग और डिस्टिलेशन स्ट्रेटजी को शामिल करना प्रदर्शन को बढ़ाता है। विज़ुअलाइज़ेशन विश्लेषण से पता चलता है कि पिक्सेल-सेल की छवि और मुखौटा विशेषताएं सघन और अधिक विविध हैं, जिसके परिणामस्वरूप विभाजन के परिणाम बेहतर होते हैं।

क्या हमें अभी भी जटिल दृष्टि-भाषा पाइपलाइनों की आवश्यकता है? Bytedance और Whu के शोधकर्ता पिक्सेल-सेल का परिचय देते हैं-पिक्सेल-स्तरीय समझ के लिए एक एकल ट्रांसफार्मर मॉडल
 – Gadgets Solutions

अंत में, पिक्सेल-सेल, पिक्सेल-ग्राउंडेड कार्यों के लिए एक सरलीकृत एमएलएलएम, विज़न एनकोडर या विभाजन मॉडल जैसे अतिरिक्त घटकों की आवश्यकता के बिना मजबूत प्रदर्शन प्राप्त करता है। मॉडल में तीन प्रमुख नवाचार शामिल हैं: एक सीखने योग्य अपसम्पलिंग मॉड्यूल, एक दृश्य शीघ्र एन्कोडिंग रणनीति, और संवर्धित सुविधा निष्कर्षण के लिए दृष्टि विशेषज्ञ आसवन। पिक्सेल-सेल का मूल्यांकन चार संदर्भित विभाजन बेंचमार्क और एक नए, चुनौतीपूर्ण बेंचमार्क, पेरबेंच पर किया जाता है, जिसमें ऑब्जेक्ट विवरण, विजुअल प्रॉम्प्ट-आधारित क्यू एंड ए और संदर्भित विभाजन जैसे कार्य शामिल हैं। परिणाम बताते हैं कि पिक्सेल-सेल एक सरल वास्तुकला के साथ मौजूदा मॉडलों की तुलना में या बेहतर प्रदर्शन करता है।


इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »