मल्टीमॉडल एम्बेडिंग दृश्य और पाठ्य डेटा को एक एकल अभ्यावेदन स्थान में जोड़ते हैं, जिससे सिस्टम छवियों और भाषा को सार्थक रूप से समझने और संबंधित करने में सक्षम होते हैं। ये एम्बेडिंग विभिन्न कार्यों का समर्थन करते हैं, जिसमें दृश्य प्रश्न उत्तर, पुनर्प्राप्ति, वर्गीकरण और ग्राउंडिंग शामिल हैं। प्रौद्योगिकी एआई मॉडल के लिए विशेष रूप से महत्वपूर्ण है जो दृश्य और भाषाई लेंस के माध्यम से वास्तविक दुनिया की सामग्री की व्याख्या करते हैं, जैसे कि दस्तावेज़ विश्लेषण, डिजिटल सहायक या दृश्य खोज इंजन।
एक दबाव चुनौती विभिन्न कार्यों और तौर -तरीकों को प्रभावी ढंग से सामान्य बनाने के लिए वर्तमान मॉडलों की अक्षमता रही है। अधिकांश मॉडलों को अपरिचित डेटासेट पर लागू होने पर अत्यधिक विशिष्ट कार्यों या अंडरपरफॉर्म के लिए प्रशिक्षित किया जाता है। इसके अलावा, एक व्यापक और एकीकृत बेंचमार्क के बिना, मल्टीमॉडल कार्यों में प्रदर्शन का मूल्यांकन करना असंगत और खंडित हो जाता है। यह यथार्थवादी, क्रॉस-डोमेन अनुप्रयोगों में आवश्यक कार्यों की विविधता को संभालने के लिए मॉडल की क्षमता को सीमित करता है, खासकर जब नए डेटा वितरण पेश किए जाते हैं।
कई उपकरण, जैसे कि क्लिप, ब्लिप और सिग्लिप, दृश्य-पाठीय एम्बेडिंग उत्पन्न करने के लिए प्रस्तावित किए गए हैं। ये मॉडल आमतौर पर छवियों और पाठ के लिए अलग-अलग एनकोडर का उपयोग करते हैं, स्कोर-लेवल फ्यूजन जैसे सरल संचालन के माध्यम से अपने आउटपुट को विलय करते हैं। जबकि ये दृष्टिकोण बेसलाइन उपयोगिता प्रदान करते हैं, वे सीमित क्रॉस-मोडल तर्क और सामान्यीकरण क्षमता से पीड़ित हैं। शून्य-शॉट स्थितियों में उनका प्रदर्शन उथले संलयन रणनीतियों और प्रशिक्षण के दौरान कार्य-विशिष्ट निर्देश हैंडलिंग की कमी के कारण गिरावट आती है।
Salesforce Research और Waterloo विश्वविद्यालय के शोधकर्ताओं के बीच एक सहयोग में, VLM2VEC नामक एक नया मॉडल MMEB नामक एक व्यापक बेंचमार्क के साथ पेश किया गया था। MMEB में चार प्रमुख कार्यों में 36 डेटासेट शामिल हैं: वर्गीकरण, दृश्य प्रश्न उत्तर, पुनर्प्राप्ति और दृश्य ग्राउंडिंग। यह डेटासेट को प्रशिक्षण के लिए उपयोग किए जाने वाले 20 में विभाजित करता है और मूल्यांकन के लिए 16, आउट-ऑफ-डिस्ट्रिब्यूशन कार्यों सहित। VLM2VEC फ्रेमवर्क को किसी भी दृष्टि-भाषा मॉडल को विपरीत प्रशिक्षण का उपयोग करके एक एम्बेडिंग मॉडल में बदलने के लिए डिज़ाइन किया गया है। यह कार्य निर्देशों का पालन करते समय पाठ और छवियों के किसी भी इनपुट संयोजन को संभालने की अनुमति देता है।
VLM2VEC का निर्माण करने के लिए, अनुसंधान टीम ने PHI-3.5-V और LLAVA-1.6 जैसे बैकबोन मॉडल का उपयोग किया। विधि कार्य-विशिष्ट निर्देश-आधारित प्रश्नों और लक्ष्यों का निर्माण करके शुरू होती है, जो कि एंबेडिंग उत्पन्न करने के लिए एक विज़न-लैंग्वेज मॉडल के माध्यम से संसाधित होती है। कंट्रास्टिव प्रशिक्षण कोसिन समानता के साथ इन्फॉन्स लॉस फ़ंक्शन का उपयोग करके नियोजित किया जाता है, जो कि बेमेल-टारगेट जोड़े के बीच समानता को अधिकतम करके एंबेडिंग को संरेखित करता है, जबकि इसे बेमेल के लिए कम से कम करते हुए। बड़े बैच आकारों का समर्थन करने के लिए, विविध नकारात्मक के साथ प्रशिक्षण के लिए महत्वपूर्ण, शोधकर्ताओं ने ग्रेडकैच का उपयोग किया, जो बैचों को मेमोरी-मैनेजिनेबल सब-बैचों में विभाजित करता है और ग्रेडिएंट्स जमा करता है। यह प्रक्रिया मल्टीमॉडल इनपुट की उच्च स्मृति मांगों के साथ भी कुशल प्रशिक्षण सुनिश्चित करती है। टास्क-विशिष्ट निर्देशों को प्रशिक्षण पाइपलाइन के भीतर एम्बेड किया जाता है ताकि मॉडल को कार्य की प्रकृति के लिए अपने एन्कोडिंग को अनुकूलित करने में मदद मिल सके, जैसे कि ग्राउंडिंग या पुनर्प्राप्ति, आगे इसकी सामान्यीकरण क्षमताओं को बढ़ावा देना।
प्रदर्शन के परिणाम प्रस्तावित विधि के लाभ को प्रदर्शित करते हैं। VLM2VEC के सबसे अच्छे प्रदर्शन वाले संस्करण ने LLAVA-1.6 को अपनी बैकबोन के रूप में इस्तेमाल किया, लोरा ट्यूनिंग को लागू किया, और 1344 × 1344 रिज़ॉल्यूशन पर छवियों को संसाधित किया। इस कॉन्फ़िगरेशन ने सभी 36 MMEB डेटासेट में 62.9% का सटीक@1 स्कोर प्राप्त किया। 16 आउट-ऑफ-डिस्ट्रिब्यूशन डेटासेट पर शून्य-शॉट परीक्षणों में, इसने एक मजबूत 57.1% स्कोर बनाए रखा। ठीक-ट्यूनिंग के बिना सबसे अच्छा प्रदर्शन करने वाले बेसलाइन मॉडल की तुलना में, जिसने 44.7%स्कोर किया, VLM2VEC ने 18.2-बिंदु सुधार दिखाया। 47.2%पर शीर्ष फाइन-ट्यून बेसलाइन की तुलना में, सुधार 15.7 अंक था। सभी कार्य श्रेणियों के पार -वर्गीकरण, VQA, पुनर्प्राप्ति, और ग्राउंडिंग – मॉडल लगातार 50%से ऊपर स्कोर करता है, प्रदर्शन का एक स्तर किसी भी आधार रेखा द्वारा मेल नहीं खाता है। परिणाम यह भी बताते हैं कि लोरा-ट्यून किए गए वेरिएंट ने पूर्ण फाइन-ट्यूनिंग के साथ प्रशिक्षित लोगों को बेहतर बनाया, यह दिखाते हुए कि पैरामीटर-कुशल प्रशिक्षण रणनीतियाँ उच्च सटीकता प्रदान कर सकती हैं।
अनुसंधान स्पष्ट रूप से कार्य-विशिष्ट मल्टीमॉडल एम्बेडिंग टूल की समस्या के समाधान को रेखांकित करता है जिसमें सामान्यीकरण की कमी होती है। एक अच्छी तरह से संरचित प्रशिक्षण ढांचे और एक मजबूत बेंचमार्क को मिलाकर, अध्ययन एक सार्वभौमिक एम्बेडिंग मॉडल को प्रदर्शित करता है जो विभिन्न कार्यों को प्रभावी ढंग से विपरीत प्रशिक्षण और निर्देश-पालन का उपयोग करके संभालता है। यह विकास स्केलेबल, अनुकूलनीय मल्टीमॉडल एआई में एक सार्थक कदम आगे है।
चेक आउट कागज और परियोजना। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
