Saturday, April 12, 2025

MMSearch-R1: LMM में सक्रिय छवि खोज के लिए एंड-टू-एंड सुदृढीकरण सीखना – Gadgets Solutions

-

बड़े मल्टीमॉडल मॉडल (LMMS) ने व्यापक दृश्य-पाठ युग्मित डेटा पर प्रशिक्षित होने पर उल्लेखनीय क्षमताओं का प्रदर्शन किया है, जो मल्टीमॉडल समझ कार्यों को काफी आगे बढ़ाता है। हालांकि, ये मॉडल जटिल वास्तविक दुनिया के ज्ञान के साथ संघर्ष करते हैं, विशेष रूप से लंबी-पूंछ की जानकारी जो गोपनीयता, कॉपीराइट या सुरक्षा चिंताओं द्वारा प्रतिबंधित कटऑफ या डोमेन-विशिष्ट ज्ञान के प्रशिक्षण के बाद उभरती है। जब अपनी आंतरिक ज्ञान सीमाओं से परे काम करने के लिए मजबूर किया जाता है, तो LMM अक्सर मतिभ्रम का उत्पादन करते हैं, उन परिदृश्यों में उनकी विश्वसनीयता से गंभीर रूप से समझौता करते हैं जहां तथ्यात्मक सटीकता सर्वोपरि है। जबकि इन सीमाओं को दूर करने के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) को व्यापक रूप से लागू किया गया है, यह अपनी चुनौतियों का परिचय देता है: डिकॉउड रिट्रीवल और जेनरेशन कंपोनेंट्स एंड-टू-एंड ऑप्टिमाइज़ेशन का विरोध करते हैं, और इसकी कठोर “रिट्रीव-वेन-जेनरेट” दृष्टिकोण अनावश्यक पुनर्प्राप्ति को ट्रिगर करती है, जब मॉडल पहले से ही पर्याप्त ज्ञान और कम्प्यूटरी में वृद्धि करता है।

हाल के दृष्टिकोणों ने बड़े मॉडलों में ज्ञान सीमाओं को संबोधित करने में महत्वपूर्ण प्रगति की है। Openai की O-Series, DeepSeek-R1, और Kimi K-1.5 जैसे एंड-टू-एंड सुदृढीकरण लर्निंग (RL) विधियों में उल्लेखनीय रूप से बेहतर मॉडल तर्क क्षमताओं में सुधार हुआ है। इसके साथ ही, मेजर एआई लैब्स द्वारा विकसित गहरे अनुसंधान मॉडल से पता चला है कि इंटरनेट सामग्री के साथ सीधे बातचीत करने के लिए प्रशिक्षण मॉडल जटिल वास्तविक दुनिया के कार्यों पर उनके प्रदर्शन को काफी बढ़ाते हैं। इन अग्रिमों के बावजूद, चुनौतियां पीढ़ी क्षमताओं के साथ बाहरी ज्ञान पुनर्प्राप्ति को कुशलता से एकीकृत करने में बनी रहती हैं। वर्तमान तरीके या तो अनुकूलित ज्ञान पहुंच के बिना तर्क को प्राथमिकता देते हैं या पुनर्प्राप्ति तंत्रों पर ध्यान केंद्रित करते हैं जो मॉडल की पीढ़ी प्रक्रिया के साथ मूल रूप से एकीकृत नहीं हैं। ये दृष्टिकोण अक्सर कम्प्यूटेशनल दक्षता, प्रतिक्रिया सटीकता और गतिशील जानकारी को संभालने की क्षमता के बीच इष्टतम संतुलन को प्राप्त करने में विफल होते हैं, वास्तव में अनुकूली और ज्ञान-जागरूक मल्टीमॉडल सिस्टम बनाने में सुधार के लिए महत्वपूर्ण कमरे को छोड़ते हैं।

शोधकर्ताओं ने LMMS की क्षमता सीमाओं का विस्तार करने के लिए एंड-टू-एंड आरएल फ्रेमवर्क का पता लगाने का प्रयास किया है। और निम्नलिखित प्रश्नों के उत्तर देने की कोशिश की:

(1) क्या LMM को अपनी ज्ञान सीमाओं को देखने के लिए प्रशिक्षित किया जा सकता है और आवश्यक होने पर खोज उपकरणों को लागू करना सीखना चाहिए?

(२) आरएल दृष्टिकोण की प्रभावशीलता और दक्षता क्या हैं?

(३) क्या आरएल फ्रेमवर्क मजबूत मल्टीमॉडल इंटेलिजेंट व्यवहारों के उद्भव के लिए नेतृत्व कर सकता है?

यह शोध पेश करता है Mmsearch-r1, जो कि एंड-टू-एंड सुदृढीकरण लर्निंग फ्रेमवर्क के माध्यम से सक्रिय छवि खोज क्षमताओं के साथ LMM को लैस करने के लिए एक अग्रणी दृष्टिकोण का प्रतिनिधित्व करता है। यह मजबूत विधि विशेष रूप से विज़ुअल प्रश्न उत्तर (VQA) प्रदर्शन को बढ़ाने पर ध्यान केंद्रित करती है, जो मॉडल को स्वायत्त रूप से छवि खोज उपकरणों के साथ संलग्न करने में सक्षम बनाती है। MMSearch-R1 ने मॉडल को तब बताया कि जब छवि खोजों को शुरू किया जाए और पुनर्प्राप्त दृश्य जानकारी को प्रभावी ढंग से संसाधित करने के बारे में महत्वपूर्ण निर्णय लेने के लिए। सिस्टम परिष्कृत तर्क प्रक्रियाओं का समर्थन करने के लिए प्रासंगिक दृश्य डेटा को निकालने, संश्लेषित करने और उपयोग करने में उत्कृष्टता प्राप्त करता है। मल्टीमॉडल एआई में एक मूलभूत प्रगति के रूप में, MMSearch-R1 LMM को एक लक्ष्य-उन्मुख तरीके से बाहरी उपकरणों के साथ गतिशील रूप से बातचीत करने में सक्षम बनाता है, ज्ञान-गहन और लंबी-पूंछ वाले VQA कार्यों पर प्रदर्शन में काफी सुधार करता है जो पारंपरिक रूप से अपने स्थैतिक ज्ञान के आधार पर पारंपरिक मॉडल को चुनौती देते हैं।

MMSearch-R1: LMM में सक्रिय छवि खोज के लिए एंड-टू-एंड सुदृढीकरण सीखना
 – Gadgets Solutions

MMSearch-R1 एक व्यापक वास्तुकला को नियुक्त करता है जो उन्नत सुदृढीकरण सीखने की तकनीकों के साथ परिष्कृत डेटा इंजीनियरिंग को जोड़ती है। सिस्टम मजबूत तथ्यात्मकव्यू डेटासेट पर बनाता है, विशेष रूप से निर्मित अस्पष्ट उत्तर प्रदान करने के लिए बनाया गया है जो स्वचालित तरीकों के साथ मज़बूती से मूल्यांकन किया जा सकता है। यह डेटासेट मेटाक्लिप मेटाडेटा वितरण के परिचित और अपरिचित दोनों वर्गों से 50,000 दृश्य अवधारणाओं को निकालकर बनाया गया था, जो संबंधित छवियों को पुनः प्राप्त करने और तथ्यात्मक प्रश्न-उत्तर जोड़े उत्पन्न करने के लिए जीपीटी -4 ओ का उपयोग कर रहे थे। कठोर फ़िल्टरिंग और संतुलन प्रक्रियाओं के बाद, डेटासेट उन प्रश्नों का एक इष्टतम मिश्रण सुनिश्चित करता है, जिनका उत्तर और छवि खोज सहायता के बिना उत्तर दिया जा सकता है।

सुदृढीकरण लर्निंग फ्रेमवर्क मल्टी-टर्न रोलआउट के साथ मानक जीआरपीओ एल्गोरिथ्म को अपनाता है, एंड-टू-एंड प्रशिक्षण के लिए वर्ल फ्रेमवर्क के आधार पर एक उन्नत छवि खोज उपकरण को एकीकृत करता है। यह छवि खोज क्षमता सर्पापी, सामग्री निष्कर्षण के लिए जीना रीडर, और एलएलएम-आधारित सारांश को जोड़ती है ताकि छवियों से जुड़ी प्रासंगिक वेब सामग्री को पुनः प्राप्त और संसाधित किया जा सके। सिस्टम एक सावधानीपूर्वक कैलिब्रेटेड इनाम फ़ंक्शन को नियोजित करता है जो उत्तर की शुद्धता, उचित स्वरूपण और उपकरण के उपयोग के लिए एक हल्के दंड को संतुलित करता है, जब छवि खोज का उपयोग किया जाता है, तो 0.9 × (स्कोर – 0.1) + 0.1 × प्रारूप के रूप में गणना की जाती है, और 0.9 × स्कोर + 0.1 × प्रारूप होने पर।

प्रायोगिक परिणाम MMSearch-R1 के कई आयामों में महत्वपूर्ण प्रदर्शन लाभ प्रदर्शित करते हैं। छवि खोज क्षमताएं प्रभावी रूप से बड़े मल्टीमॉडल मॉडल की ज्ञान सीमाओं का विस्तार करती हैं, सिस्टम को बाहरी उपकरणों पर अधिक निर्भरता से बचने के दौरान खोजों को शुरू करने के बारे में बुद्धिमान निर्णय लेने के लिए सीखना। दोनों की निगरानी में फाइन-ट्यूनिंग (एसएफटी) और सुदृढीकरण सीखने के कार्यान्वयन में इन-डोमेन फैक्टुअलवीक्यूए परीक्षण और आउट-ऑफ-डोमेन बेंचमार्क में पर्याप्त प्रदर्शन में सुधार दिखाया गया है, जिसमें इन्फोसिक, एमएमएसईआरसी और नौटंकी शामिल हैं। इसके अलावा, मॉडल दृश्य सामग्री परिचितता के आधार पर अपनी खोज दरों को गतिशील रूप से समायोजित करते हैं, सटीकता को अधिकतम करते हुए कुशल संसाधन उपयोग को बनाए रखते हैं।

सुदृढीकरण सीखना पर्यवेक्षित ठीक-ट्यूनिंग दृष्टिकोणों की तुलना में बेहतर दक्षता प्रदर्शित करता है। जब सीधे QWEN2.5-VL-INSTRUCT-3B/7B मॉडल पर लागू किया जाता है, तो GRPO SFT विधियों द्वारा आवश्यक केवल आधा प्रशिक्षण डेटा का उपयोग करने के बावजूद बेहतर परिणाम प्राप्त करता है। यह उल्लेखनीय दक्षता सीमित संसाधनों के साथ मॉडल प्रदर्शन को अनुकूलित करने में आरएल की प्रभावशीलता को उजागर करती है। कम्प्यूटेशनल दक्षता के साथ ज्ञान पहुंच को संतुलित करने के लिए सिस्टम की क्षमता अधिक संसाधन-सचेत अभी तक अत्यधिक सक्षम मल्टीमॉडल सिस्टम बनाने में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करती है जो समझदारी से बाहरी ज्ञान स्रोतों का उपयोग कर सकती है।

MMSearch-R1 सफलतापूर्वक प्रदर्शित करता है कि परिणाम-आधारित सुदृढीकरण सीखने में सक्रिय छवि खोज क्षमताओं के साथ बड़े मल्टीमॉडल मॉडल को प्रभावी ढंग से प्रशिक्षित किया जा सकता है। यह दृष्टिकोण मॉडल को स्वायत्त रूप से तय करने में सक्षम बनाता है कि कम्प्यूटेशनल दक्षता बनाए रखते हुए बाहरी दृश्य ज्ञान स्रोतों का उपयोग कब किया जाए। होनहार परिणाम भविष्य के उपकरण-अगस्त, तर्क-सक्षम एलएमएम को विकसित करने के लिए एक मजबूत नींव स्थापित करते हैं जो दृश्य दुनिया के साथ गतिशील रूप से बातचीत कर सकते हैं।


चेक आउट ब्लॉग और कोड। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »