Saturday, April 19, 2025

Salesforce का यह AI पेपर VLM2VEC और MMEB का परिचय देता है: एक विपरीत रूपरेखा और सार्वभौमिक मल्टीमॉडल एम्बेडिंग के लिए बेंचमार्क – Gadgets Solutions

-

मल्टीमॉडल एम्बेडिंग दृश्य और पाठ्य डेटा को एक एकल अभ्यावेदन स्थान में जोड़ते हैं, जिससे सिस्टम छवियों और भाषा को सार्थक रूप से समझने और संबंधित करने में सक्षम होते हैं। ये एम्बेडिंग विभिन्न कार्यों का समर्थन करते हैं, जिसमें दृश्य प्रश्न उत्तर, पुनर्प्राप्ति, वर्गीकरण और ग्राउंडिंग शामिल हैं। प्रौद्योगिकी एआई मॉडल के लिए विशेष रूप से महत्वपूर्ण है जो दृश्य और भाषाई लेंस के माध्यम से वास्तविक दुनिया की सामग्री की व्याख्या करते हैं, जैसे कि दस्तावेज़ विश्लेषण, डिजिटल सहायक या दृश्य खोज इंजन।

एक दबाव चुनौती विभिन्न कार्यों और तौर -तरीकों को प्रभावी ढंग से सामान्य बनाने के लिए वर्तमान मॉडलों की अक्षमता रही है। अधिकांश मॉडलों को अपरिचित डेटासेट पर लागू होने पर अत्यधिक विशिष्ट कार्यों या अंडरपरफॉर्म के लिए प्रशिक्षित किया जाता है। इसके अलावा, एक व्यापक और एकीकृत बेंचमार्क के बिना, मल्टीमॉडल कार्यों में प्रदर्शन का मूल्यांकन करना असंगत और खंडित हो जाता है। यह यथार्थवादी, क्रॉस-डोमेन अनुप्रयोगों में आवश्यक कार्यों की विविधता को संभालने के लिए मॉडल की क्षमता को सीमित करता है, खासकर जब नए डेटा वितरण पेश किए जाते हैं।

कई उपकरण, जैसे कि क्लिप, ब्लिप और सिग्लिप, दृश्य-पाठीय एम्बेडिंग उत्पन्न करने के लिए प्रस्तावित किए गए हैं। ये मॉडल आमतौर पर छवियों और पाठ के लिए अलग-अलग एनकोडर का उपयोग करते हैं, स्कोर-लेवल फ्यूजन जैसे सरल संचालन के माध्यम से अपने आउटपुट को विलय करते हैं। जबकि ये दृष्टिकोण बेसलाइन उपयोगिता प्रदान करते हैं, वे सीमित क्रॉस-मोडल तर्क और सामान्यीकरण क्षमता से पीड़ित हैं। शून्य-शॉट स्थितियों में उनका प्रदर्शन उथले संलयन रणनीतियों और प्रशिक्षण के दौरान कार्य-विशिष्ट निर्देश हैंडलिंग की कमी के कारण गिरावट आती है।

Salesforce का यह AI पेपर VLM2VEC और MMEB का परिचय देता है: एक विपरीत रूपरेखा और सार्वभौमिक मल्टीमॉडल एम्बेडिंग के लिए बेंचमार्क
 – Gadgets Solutions

Salesforce Research और Waterloo विश्वविद्यालय के शोधकर्ताओं के बीच एक सहयोग में, VLM2VEC नामक एक नया मॉडल MMEB नामक एक व्यापक बेंचमार्क के साथ पेश किया गया था। MMEB में चार प्रमुख कार्यों में 36 डेटासेट शामिल हैं: वर्गीकरण, दृश्य प्रश्न उत्तर, पुनर्प्राप्ति और दृश्य ग्राउंडिंग। यह डेटासेट को प्रशिक्षण के लिए उपयोग किए जाने वाले 20 में विभाजित करता है और मूल्यांकन के लिए 16, आउट-ऑफ-डिस्ट्रिब्यूशन कार्यों सहित। VLM2VEC फ्रेमवर्क को किसी भी दृष्टि-भाषा मॉडल को विपरीत प्रशिक्षण का उपयोग करके एक एम्बेडिंग मॉडल में बदलने के लिए डिज़ाइन किया गया है। यह कार्य निर्देशों का पालन करते समय पाठ और छवियों के किसी भी इनपुट संयोजन को संभालने की अनुमति देता है।

VLM2VEC का निर्माण करने के लिए, अनुसंधान टीम ने PHI-3.5-V और LLAVA-1.6 जैसे बैकबोन मॉडल का उपयोग किया। विधि कार्य-विशिष्ट निर्देश-आधारित प्रश्नों और लक्ष्यों का निर्माण करके शुरू होती है, जो कि एंबेडिंग उत्पन्न करने के लिए एक विज़न-लैंग्वेज मॉडल के माध्यम से संसाधित होती है। कंट्रास्टिव प्रशिक्षण कोसिन समानता के साथ इन्फॉन्स लॉस फ़ंक्शन का उपयोग करके नियोजित किया जाता है, जो कि बेमेल-टारगेट जोड़े के बीच समानता को अधिकतम करके एंबेडिंग को संरेखित करता है, जबकि इसे बेमेल के लिए कम से कम करते हुए। बड़े बैच आकारों का समर्थन करने के लिए, विविध नकारात्मक के साथ प्रशिक्षण के लिए महत्वपूर्ण, शोधकर्ताओं ने ग्रेडकैच का उपयोग किया, जो बैचों को मेमोरी-मैनेजिनेबल सब-बैचों में विभाजित करता है और ग्रेडिएंट्स जमा करता है। यह प्रक्रिया मल्टीमॉडल इनपुट की उच्च स्मृति मांगों के साथ भी कुशल प्रशिक्षण सुनिश्चित करती है। टास्क-विशिष्ट निर्देशों को प्रशिक्षण पाइपलाइन के भीतर एम्बेड किया जाता है ताकि मॉडल को कार्य की प्रकृति के लिए अपने एन्कोडिंग को अनुकूलित करने में मदद मिल सके, जैसे कि ग्राउंडिंग या पुनर्प्राप्ति, आगे इसकी सामान्यीकरण क्षमताओं को बढ़ावा देना।

प्रदर्शन के परिणाम प्रस्तावित विधि के लाभ को प्रदर्शित करते हैं। VLM2VEC के सबसे अच्छे प्रदर्शन वाले संस्करण ने LLAVA-1.6 को अपनी बैकबोन के रूप में इस्तेमाल किया, लोरा ट्यूनिंग को लागू किया, और 1344 × 1344 रिज़ॉल्यूशन पर छवियों को संसाधित किया। इस कॉन्फ़िगरेशन ने सभी 36 MMEB डेटासेट में 62.9% का सटीक@1 स्कोर प्राप्त किया। 16 आउट-ऑफ-डिस्ट्रिब्यूशन डेटासेट पर शून्य-शॉट परीक्षणों में, इसने एक मजबूत 57.1% स्कोर बनाए रखा। ठीक-ट्यूनिंग के बिना सबसे अच्छा प्रदर्शन करने वाले बेसलाइन मॉडल की तुलना में, जिसने 44.7%स्कोर किया, VLM2VEC ने 18.2-बिंदु सुधार दिखाया। 47.2%पर शीर्ष फाइन-ट्यून बेसलाइन की तुलना में, सुधार 15.7 अंक था। सभी कार्य श्रेणियों के पार -वर्गीकरण, VQA, पुनर्प्राप्ति, और ग्राउंडिंग – मॉडल लगातार 50%से ऊपर स्कोर करता है, प्रदर्शन का एक स्तर किसी भी आधार रेखा द्वारा मेल नहीं खाता है। परिणाम यह भी बताते हैं कि लोरा-ट्यून किए गए वेरिएंट ने पूर्ण फाइन-ट्यूनिंग के साथ प्रशिक्षित लोगों को बेहतर बनाया, यह दिखाते हुए कि पैरामीटर-कुशल प्रशिक्षण रणनीतियाँ उच्च सटीकता प्रदान कर सकती हैं।

अनुसंधान स्पष्ट रूप से कार्य-विशिष्ट मल्टीमॉडल एम्बेडिंग टूल की समस्या के समाधान को रेखांकित करता है जिसमें सामान्यीकरण की कमी होती है। एक अच्छी तरह से संरचित प्रशिक्षण ढांचे और एक मजबूत बेंचमार्क को मिलाकर, अध्ययन एक सार्वभौमिक एम्बेडिंग मॉडल को प्रदर्शित करता है जो विभिन्न कार्यों को प्रभावी ढंग से विपरीत प्रशिक्षण और निर्देश-पालन का उपयोग करके संभालता है। यह विकास स्केलेबल, अनुकूलनीय मल्टीमॉडल एआई में एक सार्थक कदम आगे है।


चेक आउट कागज और परियोजना। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »