Salesforce का यह AI पेपर VLM2VEC और MMEB का परिचय देता है: एक विपरीत रूपरेखा और सार्वभौमिक मल्टीमॉडल एम्बेडिंग के लिए बेंचमार्क – Gadgets Solutions

मल्टीमॉडल एम्बेडिंग दृश्य और पाठ्य डेटा को एक एकल अभ्यावेदन स्थान में जोड़ते हैं, जिससे सिस्टम छवियों और भाषा को सार्थक रूप से समझने और संबंधित करने में सक्षम होते हैं। ये एम्बेडिंग विभिन्न कार्यों का समर्थन करते हैं, जिसमें दृश्य प्रश्न उत्तर, पुनर्प्राप्ति, वर्गीकरण और ग्राउंडिंग शामिल हैं। प्रौद्योगिकी एआई मॉडल के लिए विशेष रूप से महत्वपूर्ण है जो दृश्य और भाषाई लेंस के माध्यम से वास्तविक दुनिया की सामग्री की व्याख्या करते हैं, जैसे कि दस्तावेज़ विश्लेषण, डिजिटल सहायक या दृश्य खोज इंजन।

एक दबाव चुनौती विभिन्न कार्यों और तौर -तरीकों को प्रभावी ढंग से सामान्य बनाने के लिए वर्तमान मॉडलों की अक्षमता रही है। अधिकांश मॉडलों को अपरिचित डेटासेट पर लागू होने पर अत्यधिक विशिष्ट कार्यों या अंडरपरफॉर्म के लिए प्रशिक्षित किया जाता है। इसके अलावा, एक व्यापक और एकीकृत बेंचमार्क के बिना, मल्टीमॉडल कार्यों में प्रदर्शन का मूल्यांकन करना असंगत और खंडित हो जाता है। यह यथार्थवादी, क्रॉस-डोमेन अनुप्रयोगों में आवश्यक कार्यों की विविधता को संभालने के लिए मॉडल की क्षमता को सीमित करता है, खासकर जब नए डेटा वितरण पेश किए जाते हैं।

कई उपकरण, जैसे कि क्लिप, ब्लिप और सिग्लिप, दृश्य-पाठीय एम्बेडिंग उत्पन्न करने के लिए प्रस्तावित किए गए हैं। ये मॉडल आमतौर पर छवियों और पाठ के लिए अलग-अलग एनकोडर का उपयोग करते हैं, स्कोर-लेवल फ्यूजन जैसे सरल संचालन के माध्यम से अपने आउटपुट को विलय करते हैं। जबकि ये दृष्टिकोण बेसलाइन उपयोगिता प्रदान करते हैं, वे सीमित क्रॉस-मोडल तर्क और सामान्यीकरण क्षमता से पीड़ित हैं। शून्य-शॉट स्थितियों में उनका प्रदर्शन उथले संलयन रणनीतियों और प्रशिक्षण के दौरान कार्य-विशिष्ट निर्देश हैंडलिंग की कमी के कारण गिरावट आती है।

Salesforce का यह AI पेपर VLM2VEC और MMEB का परिचय देता है: एक विपरीत रूपरेखा और सार्वभौमिक मल्टीमॉडल एम्बेडिंग के लिए बेंचमार्क
– Gadgets Solutions

Salesforce Research और Waterloo विश्वविद्यालय के शोधकर्ताओं के बीच एक सहयोग में, VLM2VEC नामक एक नया मॉडल MMEB नामक एक व्यापक बेंचमार्क के साथ पेश किया गया था। MMEB में चार प्रमुख कार्यों में 36 डेटासेट शामिल हैं: वर्गीकरण, दृश्य प्रश्न उत्तर, पुनर्प्राप्ति और दृश्य ग्राउंडिंग। यह डेटासेट को प्रशिक्षण के लिए उपयोग किए जाने वाले 20 में विभाजित करता है और मूल्यांकन के लिए 16, आउट-ऑफ-डिस्ट्रिब्यूशन कार्यों सहित। VLM2VEC फ्रेमवर्क को किसी भी दृष्टि-भाषा मॉडल को विपरीत प्रशिक्षण का उपयोग करके एक एम्बेडिंग मॉडल में बदलने के लिए डिज़ाइन किया गया है। यह कार्य निर्देशों का पालन करते समय पाठ और छवियों के किसी भी इनपुट संयोजन को संभालने की अनुमति देता है।

VLM2VEC का निर्माण करने के लिए, अनुसंधान टीम ने PHI-3.5-V और LLAVA-1.6 जैसे बैकबोन मॉडल का उपयोग किया। विधि कार्य-विशिष्ट निर्देश-आधारित प्रश्नों और लक्ष्यों का निर्माण करके शुरू होती है, जो कि एंबेडिंग उत्पन्न करने के लिए एक विज़न-लैंग्वेज मॉडल के माध्यम से संसाधित होती है। कंट्रास्टिव प्रशिक्षण कोसिन समानता के साथ इन्फॉन्स लॉस फ़ंक्शन का उपयोग करके नियोजित किया जाता है, जो कि बेमेल-टारगेट जोड़े के बीच समानता को अधिकतम करके एंबेडिंग को संरेखित करता है, जबकि इसे बेमेल के लिए कम से कम करते हुए। बड़े बैच आकारों का समर्थन करने के लिए, विविध नकारात्मक के साथ प्रशिक्षण के लिए महत्वपूर्ण, शोधकर्ताओं ने ग्रेडकैच का उपयोग किया, जो बैचों को मेमोरी-मैनेजिनेबल सब-बैचों में विभाजित करता है और ग्रेडिएंट्स जमा करता है। यह प्रक्रिया मल्टीमॉडल इनपुट की उच्च स्मृति मांगों के साथ भी कुशल प्रशिक्षण सुनिश्चित करती है। टास्क-विशिष्ट निर्देशों को प्रशिक्षण पाइपलाइन के भीतर एम्बेड किया जाता है ताकि मॉडल को कार्य की प्रकृति के लिए अपने एन्कोडिंग को अनुकूलित करने में मदद मिल सके, जैसे कि ग्राउंडिंग या पुनर्प्राप्ति, आगे इसकी सामान्यीकरण क्षमताओं को बढ़ावा देना।

प्रदर्शन के परिणाम प्रस्तावित विधि के लाभ को प्रदर्शित करते हैं। VLM2VEC के सबसे अच्छे प्रदर्शन वाले संस्करण ने LLAVA-1.6 को अपनी बैकबोन के रूप में इस्तेमाल किया, लोरा ट्यूनिंग को लागू किया, और 1344 × 1344 रिज़ॉल्यूशन पर छवियों को संसाधित किया। इस कॉन्फ़िगरेशन ने सभी 36 MMEB डेटासेट में 62.9% का सटीक@1 स्कोर प्राप्त किया। 16 आउट-ऑफ-डिस्ट्रिब्यूशन डेटासेट पर शून्य-शॉट परीक्षणों में, इसने एक मजबूत 57.1% स्कोर बनाए रखा। ठीक-ट्यूनिंग के बिना सबसे अच्छा प्रदर्शन करने वाले बेसलाइन मॉडल की तुलना में, जिसने 44.7%स्कोर किया, VLM2VEC ने 18.2-बिंदु सुधार दिखाया। 47.2%पर शीर्ष फाइन-ट्यून बेसलाइन की तुलना में, सुधार 15.7 अंक था। सभी कार्य श्रेणियों के पार -वर्गीकरण, VQA, पुनर्प्राप्ति, और ग्राउंडिंग – मॉडल लगातार 50%से ऊपर स्कोर करता है, प्रदर्शन का एक स्तर किसी भी आधार रेखा द्वारा मेल नहीं खाता है। परिणाम यह भी बताते हैं कि लोरा-ट्यून किए गए वेरिएंट ने पूर्ण फाइन-ट्यूनिंग के साथ प्रशिक्षित लोगों को बेहतर बनाया, यह दिखाते हुए कि पैरामीटर-कुशल प्रशिक्षण रणनीतियाँ उच्च सटीकता प्रदान कर सकती हैं।

अनुसंधान स्पष्ट रूप से कार्य-विशिष्ट मल्टीमॉडल एम्बेडिंग टूल की समस्या के समाधान को रेखांकित करता है जिसमें सामान्यीकरण की कमी होती है। एक अच्छी तरह से संरचित प्रशिक्षण ढांचे और एक मजबूत बेंचमार्क को मिलाकर, अध्ययन एक सार्वभौमिक एम्बेडिंग मॉडल को प्रदर्शित करता है जो विभिन्न कार्यों को प्रभावी ढंग से विपरीत प्रशिक्षण और निर्देश-पालन का उपयोग करके संभालता है। यह विकास स्केलेबल, अनुकूलनीय मल्टीमॉडल एआई में एक सार्थक कदम आगे है।

चेक आउट कागज और परियोजना। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US