बड़े विजन-भाषा मॉडल (LVLMS) को तैनात करने में मतिभ्रम एक महत्वपूर्ण चुनौती बनी हुई है, क्योंकि ये मॉडल अक्सर दृश्य इनपुट के साथ गलत पाठ उत्पन्न करते हैं। एलएलएम में मतिभ्रम के विपरीत, जो भाषाई विसंगतियों से उत्पन्न होता है, एलवीएलएमएस क्रॉस-मोडल विसंगतियों के साथ संघर्ष करते हैं, जिससे गलत छवि विवरण या गलत स्थानिक संबंधों के लिए अग्रणी होता है। ये मॉडल विज़न एनकोडर का लाभ उठाते हैं, जैसे कि क्लिप, प्रेट्रेंट टेक्स्ट डिकोडर्स के साथ -साथ दृश्य जानकारी को भाषा में मैप करने के लिए। छवि कैप्शनिंग, दृश्य प्रश्न के उत्तर देने और चिकित्सा उपचार योजना जैसे कार्यों में उनके मजबूत प्रदर्शन के बावजूद, LVLMS मतिभ्रम के लिए प्रवण रहता है, जो उनकी वास्तविक दुनिया की प्रयोज्यता को सीमित करता है। यह मुद्दा विभिन्न कारकों से उपजा है, जिसमें प्रीट्रेनिंग में सांख्यिकीय पूर्वाग्रह, भाषा के पुजारी पर अधिक निर्भरता और फीचर सीखने के पूर्वाग्रह शामिल हैं। हालांकि, मौजूदा शोध अक्सर LVLMS की अनूठी वास्तुकला के लिए ध्यान देने में विफल रहता है, दृश्य इनपुट प्रसंस्करण की विशिष्ट भूमिका के बावजूद LLMS में उन लोगों के समान उनके मतिभ्रम तंत्र का इलाज करता है।
LVLMS में मतिभ्रम को कम करने के लिए, शोधकर्ताओं ने प्रशिक्षण-आधारित और प्रशिक्षण-मुक्त दोनों दृष्टिकोणों का पता लगाया है। प्रशिक्षण-आधारित समाधान अतिरिक्त पर्यवेक्षण के माध्यम से जमीनी सत्य के साथ मॉडल संरेखण को बढ़ाने पर ध्यान केंद्रित करते हैं, लेकिन उन्हें व्यापक डेटासेट और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। इसके विपरीत, प्रशिक्षण-मुक्त तरीके, जैसे कि सेल्फ-फीडबैक सुधार और सहायक मॉडल एकीकरण, ने अपनी दक्षता के कारण लोकप्रियता हासिल की है। कुछ दृष्टिकोण विसंगतियों को कम करने के लिए पाठ डिकोडिंग प्रक्रिया को परिष्कृत करते हैं, लेकिन ये अक्सर दृश्य एनकोडर से मतिभ्रम को संबोधित करने में विफल होते हैं। जैसा कि LVLMS विकसित होता है, लक्षित समाधान विकसित करना जो दृश्य और पाठ्य घटकों पर विचार करते हैं, वास्तविक दुनिया के अनुप्रयोगों में उनकी मजबूती और विश्वसनीयता में सुधार के लिए महत्वपूर्ण होगा।
स्टैनफोर्ड विश्वविद्यालय के शोधकर्ता LVLMS में मतिभ्रम के पीछे के तंत्र की जांच करते हैं, दृष्टि एनकोडर की अस्थिरता और पाठ डिकोडर्स पर उनके प्रभाव पर ध्यान केंद्रित करते हैं। वे दृश्य और पाठीय हस्तक्षेप (VTI) का परिचय देते हैं, एक परीक्षण-समय तकनीक जो अव्यक्त अंतरिक्ष अभ्यावेदन को संशोधित करके दृष्टि सुविधाओं को स्थिर करती है। पारंपरिक चौरसाई विधियों के विपरीत, वीटीआई पूर्व-प्रसंस्कृत छवियों से परिवर्तन के निर्देशों को पूर्व-प्रशिक्षण लागत के बिना मतिभ्रम को कम करते हुए, नए प्रश्नों पर लागू करता है। प्रायोगिक परिणाम बताते हैं कि वीटीआई लगातार कई बेंचमार्कों में बेसलाइन के दृष्टिकोण से आगे निकल जाता है, जो मतिभ्रम को कम करने और एलवीएलएम विश्वसनीयता में सुधार करने में दृष्टि सुविधा स्थिरता के महत्व पर जोर देता है।
LVLM में एक विज़न एनकोडर और एक टेक्स्ट डिकोडर शामिल है, जहां अस्थिर दृष्टि विशेषताएं मतिभ्रम को जन्म दे सकती हैं। शोधकर्ताओं की पहचान है कि दृष्टि एम्बेडिंग में गड़बड़ी उत्पन्न पाठ में विसंगतियों का कारण बनती है। इसे संबोधित करने के लिए, वे वीटीआई का प्रस्ताव करते हैं, जो कि पूर्व-कंप्यूटरों ने स्थिर छवि एम्बेडिंग पर प्रमुख घटक विश्लेषण (पीसीए) का उपयोग करके स्थिर सुविधा शिफ्ट किया है। इन बदलावों को नए क्वेरी पर लागू किया जाता है, अतिरिक्त प्रशिक्षण के बिना सुविधा स्थिरता में सुधार होता है। वीटीआई भी मतिभ्रम को कम करने के लिए टेक्स्ट डिकोडर एम्बेडिंग को समायोजित करता है। प्रयोग विविध कार्यों और डेटासेट में कम्प्यूटेशनल दक्षता बनाए रखते हुए मतिभ्रम को कम करने में इसकी प्रभावशीलता की पुष्टि करते हैं।
अध्ययन LVLMS में मतिभ्रम को कम करने में VTI की प्रभावशीलता का मूल्यांकन करता है। 80 कोको इमेज-टेक्स्ट जोड़े का उपयोग करते हुए, विधि कार्यों और डेटासेट में सामान्यीकरण करती है। पोप, कुर्सी और मम्हल-बेंच पर प्रयोग ओपेरा और वीसीडी जैसे बेसलाइन विधियों पर वीटीआई की श्रेष्ठता को प्रदर्शित करते हैं। परिणाम बताते हैं कि दृश्य हस्तक्षेप सुविधा अभ्यावेदन को स्थिर करता है जबकि पाठीय हस्तक्षेप छवि ध्यान को बढ़ाता है। पाठ समृद्धि को बनाए रखते हुए उनका संयोजन सटीकता में सुधार करता है। इसके अतिरिक्त, α और on पर एक पृथक अध्ययन मतिभ्रम को कम करने पर उनके प्रभाव की पुष्टि करता है। VTI सामग्री की गुणवत्ता से समझौता किए बिना मल्टीमॉडल मतिभ्रम को प्रभावी ढंग से संबोधित करता है।

अंत में, अध्ययन LVLMS में मतिभ्रम को कम करने के लिए एक प्रभावी विधि के रूप में VTI को प्रस्तुत करता है। LLMS में मतिभ्रम के विपरीत, LVLMS में वे दृश्य इनपुट और पाठ्य आउटपुट के बीच मिसलिग्न्मेंट से स्टेम करते हैं, जो अक्सर अलग-अलग पूर्व-प्रशिक्षित छवि एनकोडर और टेक्स्ट डिकोडर्स के कारण होते हैं। VTI, अनुमान के दौरान अव्यक्त अंतरिक्ष अभ्यावेदन को समायोजित करके दृष्टि सुविधाओं को स्थिर करता है, जिसके लिए कोई अतिरिक्त प्रशिक्षण की आवश्यकता नहीं होती है। प्रायोगिक परिणाम उत्पादन गुणवत्ता को बनाए रखते हुए मतिभ्रम को कम करने में आधारभूत तरीकों पर इसकी श्रेष्ठता की पुष्टि करते हैं। ये निष्कर्ष वास्तविक दुनिया की सेटिंग्स में अधिक सटीक और विश्वसनीय LVLM अनुप्रयोगों के लिए मार्ग प्रशस्त करते हुए, मजबूत सुविधा प्रतिनिधित्व के महत्व पर जोर देते हैं।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
