बड़े दृष्टि-भाषा के मॉडल (LVLMS) ने हाल के वर्षों में महत्वपूर्ण प्रगति की है, फिर भी कई प्रमुख सीमाएं बनी रहती हैं। एक बड़ी चुनौती इन मॉडलों को मानवीय अपेक्षाओं के साथ प्रभावी ढंग से संरेखित कर रही है, विशेष रूप से विस्तृत और सटीक दृश्य जानकारी वाले कार्यों के लिए। परंपरागत रूप से, LVLMS एक दो-चरण के प्रशिक्षण प्रतिमान से गुजरता है: प्रीट्रेनिंग के बाद पर्यवेक्षित फाइन-ट्यूनिंग। हालांकि, अकेले पर्यवेक्षित फाइन-ट्यूनिंग पूरी तरह से सीमाओं को दूर नहीं कर सकता है, जैसे कि बड़े पैमाने पर, मानव-एनोटेटेड वरीयता डेटासेट उत्पन्न करने से जुड़ी बिखराव और उच्च लागत। इसके अलावा, पारंपरिक सुदृढीकरण सीखने के तरीकों को महंगे इनाम मॉडल की आवश्यकता होती है जो मानव प्रतिक्रिया की बारीक और व्यक्तिपरक प्रकृति को पूरी तरह से पकड़ नहीं सकते हैं।
चीन के शोधकर्ताओं की एक टीम विज़न-आर 1 का प्रस्ताव करती है: एक उपन्यास विजन-गाइडेड आर 1-जैसे सुदृढीकरण सीखने के लिए एल्गोरिथ्म एलवीएलएमएस के लिए जो निश्चित दृष्टि प्रतिक्रिया के साथ मॉडल को पुरस्कृत करता है। विज़न-आर 1 क्यूरेटेड इंस्ट्रक्शन डेटा का लाभ उठाता है, जिससे विशेष इनाम मॉडल और दस्तकारी वरीयता डेटासेट पर निर्भरता को समाप्त कर दिया जाता है। इस पद्धति का केंद्रीय एक मानदंड-संचालित इनाम फ़ंक्शन है, जो विशिष्ट दृश्य कार्य मानदंडों के आधार पर मॉडल पूर्णता का व्यापक मूल्यांकन प्रदान करता है। इसके अतिरिक्त, एक प्रगतिशील नियम शोधन रणनीति कार्यरत है, पूरे प्रशिक्षण प्रक्रिया में इनाम मानदंड को गतिशील रूप से समायोजित करता है। यह दृष्टिकोण निरंतर प्रदर्शन में सुधार सुनिश्चित करता है, प्रभावी रूप से इनाम हैकिंग मुद्दों को कम करता है और अधिक सटीक वस्तु स्थानीयकरण को बढ़ावा देता है।
विज़न-आर 1 एल्गोरिथ्म में कई महत्वपूर्ण तकनीकी नवाचार शामिल हैं। सबसे पहले, मानदंड-संचालित इनाम फ़ंक्शन में दोहरे प्रारूप पुरस्कार, रिकॉल रिवार्ड्स और सटीक पुरस्कार शामिल हैं। दोहरे प्रारूप पुरस्कार सुनिश्चित करते हैं कि आउटपुट टेम्पलेट और सामग्री की कमी के लिए कड़ाई से पालन करें, विश्वसनीय ऑब्जेक्ट डिटेक्शन कार्यों के लिए आवश्यक। रिकॉल इनाम सभी प्रासंगिक उदाहरणों की पहचान करने के लिए मॉडल की क्षमता पर जोर देता है, भविष्यवाणियों में चूक से बचने के लिए महत्वपूर्ण है। सटीक इनाम मान्य भविष्यवाणियों के संघ (IOU) पर औसत चौराहे की गणना करके उच्च गुणवत्ता वाले बाउंडिंग बॉक्स भविष्यवाणियों को प्रोत्साहित करता है। इसके अलावा, प्रगतिशील नियम शोधन रणनीति पाठ्यक्रम सीखने के सिद्धांतों से प्रेरित है, धीरे -धीरे मंचित प्रगति और भेदभाव नीतियों के माध्यम से प्रशिक्षण कठिनाई को बढ़ाती है, जिससे मजबूत और सामान्यीकृत सीखने को बढ़ावा मिलता है।
दो अत्याधुनिक LVLMS, ग्रिफ़ॉन-जी -7 बी और क्यूवेन 2.5-वीएल -7 बी का उपयोग करके किए गए प्रयोग, विज़न-आर 1 की मजबूत क्षमताओं को प्रदर्शित करते हैं। MSCOCO और ODINW-13 जैसे इन-डोमेन डेटासेट पर परिणाम महत्वपूर्ण प्रदर्शन संवर्द्धन दिखाते हैं। विशेष रूप से, विज़न-आर 1 विभिन्न कार्यों में औसतन 2.5% ग्रिफॉन-जी -7 बी के एमएपी स्कोर में सुधार करता है। अधिक प्रभावशाली रूप से, विज़न-आर 1 QWEN2.5-VL-7B के प्रदर्शन को काफी बढ़ाता है, कोको ऑब्जेक्ट डिटेक्शन कार्यों में 8.9% सुधार दिखाता है और इसके बड़े, 72B समकक्ष की तुलना में बेहतर स्कोर प्राप्त करता है। डोमेन स्थानीयकरण कार्यों को चुनौती देने पर, विज़न-आर 1 ने लगातार बेहतरीन-ट्यूनिंग (एसएफटी) की निगरानी की, इसकी मजबूत सामान्यीकरण क्षमताओं और जटिल परिदृश्यों में मजबूती का प्रदर्शन किया।
अंत में, विज़न-आर 1 LVLMS के लिए सिलवाया एक अभिनव सुदृढीकरण सीखने के दृष्टिकोण का परिचय देता है जो महंगा एनोटेट डेटासेट या जटिल इनाम मॉडलिंग की आवश्यकता के बिना मौजूदा संरेखण मुद्दों को प्रभावी ढंग से संबोधित करता है। इसकी मानदंड-संचालित इनाम संरचना और प्रगतिशील नियम शोधन रणनीति न केवल वस्तु स्थानीयकरण कार्यों की सटीकता और समझ को बढ़ाती है, बल्कि अनदेखी परिदृश्यों के लिए सामान्यीकरण में भी काफी सुधार करती है। समकालीन LVLM आर्किटेक्चर के साथ विज़न-आर 1 का सफल एकीकरण एक मूलभूत पद्धति के रूप में सेवा करने की अपनी क्षमता पर प्रकाश डालता है, जो वास्तविक दुनिया के अनुप्रयोगों में दृष्टि-भाषा की समझ और व्यावहारिक तैनाती में अत्याधुनिक को आगे बढ़ाता है।
चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।