Friday, April 4, 2025

विज़न-लैंग्वेज इनाम मॉडल को आगे बढ़ाना: चुनौतियां, बेंचमार्क, और प्रक्रिया-पर्यवेक्षित सीखने की भूमिका – Gadgets Solutions

-

प्रोसेस-सुपरवाइज्ड इनाम मॉडल (पीआरएम) मॉडल प्रतिक्रियाओं पर ठीक-ठीक, स्टेप-वार प्रतिक्रिया प्रदान करते हैं, जटिल कार्यों के लिए प्रभावी तर्क पथ का चयन करने में सहायता करते हैं। आउटपुट इनाम मॉडल (ORM) के विपरीत, जो अंतिम आउटपुट के आधार पर प्रतिक्रियाओं का मूल्यांकन करते हैं, PRM प्रत्येक चरण पर विस्तृत मूल्यांकन प्रदान करते हैं, जिससे वे तर्क-गहन अनुप्रयोगों के लिए विशेष रूप से मूल्यवान हैं। जबकि PRM का भाषा कार्यों में बड़े पैमाने पर अध्ययन किया गया है, मल्टीमॉडल सेटिंग्स में उनका आवेदन काफी हद तक अस्पष्टीकृत रहता है। अधिकांश दृष्टि-भाषा इनाम मॉडल अभी भी ORM दृष्टिकोण पर भरोसा करते हैं, आगे के शोध की आवश्यकता पर प्रकाश डालते हैं कि कैसे PRMs मल्टीमॉडल सीखने और तर्क को बढ़ा सकते हैं।

मौजूदा इनाम बेंचमार्क मुख्य रूप से पाठ-आधारित मॉडल पर ध्यान केंद्रित करते हैं, कुछ विशेष रूप से पीआरएम के लिए डिज़ाइन किए गए हैं। दृष्टि-भाषा डोमेन में, मूल्यांकन के तरीके आम तौर पर व्यापक मॉडल क्षमताओं का आकलन करते हैं, जिसमें ज्ञान, तर्क, निष्पक्षता और सुरक्षा शामिल हैं। वीएल-विजुअलबेंच ज्ञान-गहन दृष्टि-भाषा कार्यों को परिष्कृत करने के लिए सुदृढीकरण सीखने की वरीयता डेटा को शामिल करने वाला पहला बेंचमार्क है। इसके अतिरिक्त, मल्टीमॉडल रिवार्डबेंच मानक दृश्य प्रश्न के उत्तर (VQA) कार्यों से परे मूल्यांकन मानदंड का विस्तार करता है, छह प्रमुख क्षेत्रों को कवर करता है- सत्यापन, वरीयता, ज्ञान, तर्क, सुरक्षा, और VQA – विशेषज्ञ एनोटेशन के माध्यम से। ये बेंचमार्क मल्टीमॉडल लर्निंग के लिए अधिक प्रभावी इनाम मॉडल विकसित करने के लिए एक नींव प्रदान करते हैं।

यूसी सांता क्रूज़, यूटी डलास, और अमेज़ॅन रिसर्च के शोधकर्ताओं ने कई कार्यों में ओआरएम और पीआरएम के रूप में वीएलएलएमएस को बेंचमार्क किया, जिससे पता चलता है कि न तो लगातार दूसरे को बेहतर बनाया गया है। मूल्यांकन अंतराल को संबोधित करने के लिए, उन्होंने विलबेंच को पेश किया, जिसमें एक बेंचमार्क को स्टेप-वार इनाम फीडबैक की आवश्यकता होती है, जहां जीपीटी -4 ओ ने चेन-ऑफ-थॉट के साथ केवल 27.3% सटीकता हासिल की। इसके अतिरिक्त, उन्होंने 73.6k विज़न-लैंग्वेज इनाम के नमूनों को एक बढ़ाया ट्री-सर्च एल्गोरिथ्म का उपयोग करके एकत्र किया, एक 3 बी पीआरएम को प्रशिक्षित किया जो कि 3.3%तक मूल्यांकन सटीकता में सुधार हुआ। उनका अध्ययन विज़न-लैंग्वेज इनाम मॉडलिंग में अंतर्दृष्टि प्रदान करता है और मल्टीमॉडल स्टेप-वार मूल्यांकन में चुनौतियों पर प्रकाश डालता है।

VLLMs विभिन्न कार्यों में तेजी से प्रभावी हो रहे हैं, खासकर जब परीक्षण-समय स्केलिंग के लिए मूल्यांकन किया जाता है। पांच विज़न-लैंग्वेज डेटासेट पर अपनी स्टेप-वार क्रिटिक क्षमताओं का विश्लेषण करने के लिए एलएलएम-ए-ए-ऑडेज दृष्टिकोण का उपयोग करके सात मॉडलों को बेंचमार्क किया गया था। एक सर्वश्रेष्ठ-एन (बॉन) सेटिंग का उपयोग किया गया था, जहां वीएलएलएमएस ने जीपीटी -4 ओ द्वारा उत्पन्न प्रतिक्रियाएं दीं। प्रमुख निष्कर्षों से पता चलता है कि ओआरएम वास्तविक दुनिया के कार्यों को छोड़कर ज्यादातर मामलों में पीआरएम को बेहतर बनाते हैं। इसके अतिरिक्त, मजबूत VLLMS हमेशा इनाम मॉडल के रूप में उत्कृष्ट नहीं होते हैं, और ORM और PRM के बीच एक हाइब्रिड दृष्टिकोण इष्टतम है। इसके अलावा, VLLMS दृश्य से अधिक पाठ-भारी कार्यों से लाभान्वित होते हैं, विशेष दृष्टि-भाषा इनाम मॉडल की आवश्यकता को रेखांकित करते हैं।

VILPRM की प्रभावशीलता का आकलन करने के लिए, विभिन्न RM और समाधान नमूने का उपयोग करके Vilbench पर प्रयोग किए गए थे। अध्ययन ने कई VLLMS में प्रदर्शन की तुलना की, जिसमें QWEN2.5-VL-3B, InternVL-2.5-8B, GPT-4O और O1 शामिल हैं। परिणाम बताते हैं कि पीआरएम आमतौर पर ओआरएम को बेहतर बनाते हैं, सटीकता में 1.4%तक सुधार करते हैं, हालांकि ओ 1 की प्रतिक्रियाओं ने सीमित विस्तार के कारण न्यूनतम अंतर दिखाया। VILPRM ने अन्य PRM को पार किया, जिसमें URSA सहित 0.9%, प्रतिक्रिया चयन में बेहतर स्थिरता का प्रदर्शन किया गया। इसके अतिरिक्त, निष्कर्ष बताते हैं कि मौजूदा VLLMS इनाम मॉडल के रूप में पर्याप्त मजबूत नहीं हैं, विशेष दृष्टि-भाषा PRM की आवश्यकता को उजागर करते हैं जो गणित के तर्क कार्यों से परे अच्छा प्रदर्शन करते हैं।

विज़न-लैंग्वेज इनाम मॉडल को आगे बढ़ाना: चुनौतियां, बेंचमार्क, और प्रक्रिया-पर्यवेक्षित सीखने की भूमिका
 – Gadgets Solutions

अंत में, विज़न-लैंग्वेज पीआरएम अच्छा प्रदर्शन करते हैं जब तर्क के कदमों को खंडित किया जाता है, जैसा कि गणित जैसे संरचित कार्यों में देखा जाता है। हालांकि, अस्पष्ट कदम डिवीजनों वाले कार्यों में, पीआरएम सटीकता को कम कर सकते हैं, विशेष रूप से दृश्य-प्रमुख मामलों में। सभी समान रूप से प्रदर्शन में सुधार करने के बजाय प्रमुख चरणों को प्राथमिकता देना। इसके अतिरिक्त, वर्तमान मल्टीमॉडल इनाम मॉडल सामान्यीकरण के साथ संघर्ष करते हैं, क्योंकि विशिष्ट डोमेन पर प्रशिक्षित पीआरएम अक्सर दूसरों में विफल होते हैं। विविध डेटा स्रोतों और अनुकूली इनाम तंत्र को शामिल करके प्रशिक्षण को बढ़ाना महत्वपूर्ण है। Vilreward-73K की शुरूआत में PRM सटीकता में 3.3%में सुधार होता है, लेकिन मजबूत मल्टीमॉडल मॉडल के लिए स्टेप सेगमेंटेशन और इवैल्यूएशन फ्रेमवर्क में आगे की प्रगति की आवश्यकता होती है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »