Monday, April 21, 2025

LLMS अब फिर से प्रयास करना सीख सकता है: मेनलो के शोधकर्ता रीज़ेरो का परिचय देते हैं, एक सुदृढीकरण सीखने की रूपरेखा जो राग सिस्टम में खोज-आधारित तर्क को बेहतर बनाने के लिए रिटर्न रिटर्न रिटर्निंग को पुरस्कृत करती है – Gadgets Solutions

-

LLMS का डोमेन तेजी से विकसित हुआ है, जिसमें उन उपकरणों को शामिल किया गया है जो इन मॉडलों को बाहरी ज्ञान को अपने तर्क प्रक्रियाओं में एकीकृत करने के लिए सशक्त बनाते हैं। इस दिशा में एक महत्वपूर्ण उन्नति पुनर्प्राप्ति-अगस्त पीढ़ी (आरएजी) है, जो मॉडल को क्वेरी डेटाबेस और खोज इंजनों को अप-टू-डेट या आला सूचना के लिए प्रशिक्षण के दौरान एम्बेडेड नहीं करने की अनुमति देती है। आरएजी वास्तविक समय की सूचना पुनर्प्राप्ति के साथ एलएलएम पीढ़ी को एकीकृत करके ज्ञान-गहन परिदृश्यों में प्रदर्शन को बढ़ाता है। फिर भी, जैसे-जैसे कार्य अधिक जटिल होते जाते हैं, विशेष रूप से उन लोगों को जो बहु-चरणीय तर्क या अत्यधिक विशिष्ट ज्ञान की आवश्यकता होती है, यह सुनिश्चित करते हुए कि LLMS इन पुनर्प्राप्ति प्रणालियों के साथ समझदारी से बातचीत करें। इस इंटरैक्शन प्रक्रिया में सुधार एलएलएम को अस्पष्ट, विकसित या जटिल जानकारी को प्रभावी ढंग से संबोधित करने के लिए सक्षम करने के लिए महत्वपूर्ण है।

एलएलएम-आधारित प्रणालियों में एक चुनौती जो पुनर्प्राप्ति तंत्र पर भरोसा करती है, क्वेरी गुणवत्ता के लिए संवेदनशीलता है। जब एक एलएलएम एक प्रारंभिक खोज क्वेरी उत्पन्न करता है जो उपयोगी जानकारी प्राप्त करने में विफल रहता है, तो सिस्टम में अक्सर इस विफलता से उबरने के लिए एक मजबूत रणनीति का अभाव होता है। यह उन स्थितियों की ओर जाता है जहां मॉडल या तो एक उत्तर को मतिभ्रम करता है या समय से पहले, गलत परिणाम प्राप्त करता है। वर्तमान तरीके मोटे तौर पर यह मानते हैं कि एक एकल अच्छी क्वेरी पर्याप्त होगी, उस परिदृश्य की उपेक्षा करना जहां सही जानकारी को उजागर करने के लिए दृढ़ता और पुनर्विचार आवश्यक है। यह सीमा जटिल कार्यों में एलएलएम की मजबूती को कम करती है जहां समझ परीक्षण, त्रुटि और शोधन के माध्यम से बढ़ती है।

एलएलएम और बाहरी पुनर्प्राप्ति प्रणालियों के बीच बातचीत को बढ़ाने के लिए विभिन्न उपकरण विकसित किए गए हैं। प्रोसेस इनाम मॉडल (PRM) और प्रोसेस स्पष्टीकरण मॉडल (PEMS) जैसी तकनीकें इंटरमीडिएट रीजनिंग सुधारों को इनाम देती हैं, जबकि DeePretieval क्वेरी फॉर्मूलेशन को अनुकूलित करने के लिए सुदृढीकरण लर्निंग (RL) को नियुक्त करती है। ये विधियाँ या तो तर्क की गुणवत्ता या अंतिम पुनर्प्राप्ति परिणाम को पुरस्कृत करती हैं। Iterative तकनीक, जैसे कि स्व-पूछताछ और IRCOT, प्रश्नों को विघटित करके और एक पुनरावृत्त तरीके से जानकारी प्राप्त करके मल्टी-स्टेप तर्क को सक्षम करें। हालांकि, उनके पास एक असफल प्रयास के बाद दृढ़ता के लिए मॉडल को पुरस्कृत करने के लिए तंत्र की कमी है। ये सिस्टम आम तौर पर एक असफल क्वेरी को पुनः प्राप्त करने या सुधारने के लिए प्रोत्साहित नहीं करते हैं, जो अस्पष्ट सूचना परिदृश्य को नेविगेट करने के लिए महत्वपूर्ण हो सकता है।

मेनलो रिसर्च के शोधकर्ताओं ने एक नया ढांचा पेश किया, जिसे नाम दिया गया रीज़ेरो (रिट्री-शून्य)। इस पद्धति को विशेष रूप से बड़ी भाषा मॉडल सिखाने के लिए डिज़ाइन किया गया है ताकि एक क्वेरी को पुनः प्राप्त करने के कार्य को स्पष्ट रूप से पुरस्कृत करके उनकी सूचना खोज में बने रहने के लिए। केवल अंतिम उत्तर का मूल्यांकन करने के बजाय, रीज़ेरो एक सीखने का माहौल बनाता है जहां मॉडल सकारात्मक प्रतिक्रिया प्राप्त करता है जब यह एक असफल खोज को पहचानता है और एक संशोधित क्वेरी के साथ फिर से प्रयास करता है। सुदृढीकरण संकेत को एक खोज प्रणाली के साथ बातचीत के दौरान लागू किया जाता है, जिसका अर्थ है कि मॉडल को न केवल सही निष्कर्ष तक पहुंचने के लिए, बल्कि रास्ते में दृढ़ता का प्रदर्शन करने के लिए भी पुरस्कृत किया जाता है। विचार मानव व्यवहार को दर्शाता है: जब एक प्रारंभिक खोज या रणनीति विफल हो जाती है, तो एक तर्कसंगत दृष्टिकोण योजना को सुधारने और फिर से प्रयास करने के लिए होता है। रेज़ेरो एक इनाम तंत्र का उपयोग करके इस विचार का संचालन करता है जो सूचना पुनर्प्राप्ति में कठिनाई का सामना करने के बाद पुन: प्रयास करने के मूल्य को दर्शाता है।

टीम ने अपने रीज़ेरो-प्रशिक्षित मॉडल के दो संस्करण जारी किए, मेनलो/रीज़ेरो-वी 0.1-एलएलएएमए -3.2-3B-IT-GRPO-250404 और इसके GGUF संस्करण, गले लगाने पर। दोनों LLAMA-3.2-3B-Instruct बेस पर GRPO का उपयोग करके ठीक-ठाक हैं और खोज कार्यों में पुन: व्यवहार को सुदृढ़ करने के लिए अनुकूलित हैं। H200 GPU पर अपोलो मिशन डेटा का उपयोग करते हुए 1,000 से अधिक चरणों पर प्रशिक्षित, मॉडल ने चरण 250 में 46.88% की शिखर सटीकता हासिल की, जो रिट्री इनाम के प्रभाव को मान्य करता है। GGUF संस्करण को कुशल तैनाती के लिए मात्राबद्ध किया गया है, जो अनुसंधान और वास्तविक दुनिया के खोज अनुप्रयोगों दोनों के लिए रीज़ेरो की क्षमता को प्रदर्शित करता है।

LLMS अब फिर से प्रयास करना सीख सकता है: मेनलो के शोधकर्ता रीज़ेरो का परिचय देते हैं, एक सुदृढीकरण सीखने की रूपरेखा जो राग सिस्टम में खोज-आधारित तर्क को बेहतर बनाने के लिए रिटर्न रिटर्न रिटर्निंग को पुरस्कृत करती है
 – Gadgets Solutions

रीज़ेरो मॉडल को प्रशिक्षित करने के लिए समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) के रूप में जाना जाने वाला एक सुदृढीकरण सीखने की विधि का उपयोग करता है। यह सेटअप प्रशिक्षण प्रक्रिया को सुव्यवस्थित करते हुए एक अलग आलोचक मॉडल पर निर्भर नहीं करता है। मॉडल को इनाम कार्यों के एक सूट का उपयोग करके सिखाया जाता है: अंतिम उत्तर की शुद्धता, प्रारूप का पालन, प्रासंगिक सामग्री की पुनर्प्राप्ति, और महत्वपूर्ण रूप से, जरूरत पड़ने पर एक पुनः प्रयास की उपस्थिति। ये पुरस्कार संयोजन में काम करते हैं। उदाहरण के लिए, रिट्री इनाम केवल तभी लागू होता है जब एक वैध अंतिम उत्तर अंततः उत्पादित किया जाता है, यह सुनिश्चित करता है कि मॉडल संकल्प के बिना अंतहीन रिट्रीज में संलग्न नहीं हैं। इसके अलावा, एक खोज विविधता इनाम शब्दार्थ रूप से विविध प्रश्नों की पीढ़ी को प्रोत्साहित करती है, जबकि एक खोज रणनीति इनाम का आकलन करता है कि मॉडल कैसे प्रभावी रूप से अनुक्रमिक खोजों का संचालन करता है। खोज परिणामों में शोर को इंजेक्ट करके प्रशिक्षण को और बढ़ाया जाता है, जिससे मॉडल को कम-से-आदर्श स्थितियों के अनुकूल होने के लिए मजबूर किया जाता है। यह शोर इसकी सामान्यीकरण क्षमता को मजबूत करता है और वास्तविक दुनिया की खामियों का अनुकरण करता है।

अनुसंधान टीम ने LLAMA3-23B-Instruct मॉडल का उपयोग करके Rezero को लागू किया और अपोलो 3 मिशन डेटासेट पर इसका मूल्यांकन किया। इस डेटासेट को 341 डेटा चंक्स में विभाजित किया गया था, जिसमें 32 परीक्षण के लिए आरक्षित थे। प्रशिक्षण लगभग 1,000 चरणों (तीन युगों के बराबर) तक चला और एक एकल NVIDIA H200 GPU पर किया गया था। दो मॉडल कॉन्फ़िगरेशन की तुलना की गई: तीन इनाम कार्यों (शुद्धता, प्रारूप, ईएम चंक) और रीज़ेरो के साथ एक आधार रेखा, जिसमें पुन: प्रयास करने के लिए एक अतिरिक्त इनाम शामिल था। दोनों के बीच प्रदर्शन की खाई पर्याप्त थी। रीज़ेरो ने 250 प्रशिक्षण चरणों में 46.88% की शिखर सटीकता हासिल की, जबकि बेसलाइन 350 चरणों में केवल 25.00% पर अपने चरम पर पहुंच गई। इसके अलावा, रीज़ेरो ने शुरुआती प्रशिक्षण चरणों में तेजी से सीखने का प्रदर्शन किया। हालांकि, दोनों मॉडलों ने बाद में प्रदर्शन में तेज गिरावट का अनुभव किया, चरण 450 (रेज़ेरो) और चरण 700 (बेसलाइन) द्वारा 0% सटीकता तक पहुंच गया। यह प्रदर्शन ड्रॉप विस्तारित आरएल रन में संभावित ओवरफिटिंग या अस्थिरता का सुझाव देता है, जो परिष्कृत प्रशिक्षण कार्यक्रम की आवश्यकता या बेहतर इनाम संतुलन की आवश्यकता को दर्शाता है।

रेज़ेरो फ्रेमवर्क से कई प्रमुख takeaways:

  • एक असफल सूचना पुनर्प्राप्ति प्रयास के बाद पुन: व्यवहार को पुरस्कृत करके एलएलएम खोज क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया।
  • समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) का उपयोग करके सुदृढीकरण सीखने के आधार पर।
  • शुद्धता, प्रारूप, रिट्री एक्शन, प्रासंगिक सूचना मिलान, खोज रणनीति और क्वेरी विविधता के लिए पुरस्कार शामिल हैं।
  • पुरस्कार केवल तभी दिए जाते हैं जब रिट्रीज़ एक वैध अंतिम उत्तर में परिणाम होता है, जिससे अत्यधिक अनुत्पादक प्रश्नों को रोका जाता है।
  • रीज़ेरो ने अपोलो 3 डेटासेट का उपयोग किया, जिसमें 341 चंक्स शामिल थे; 32 मूल्यांकन के लिए आरक्षित थे।
  • इसने इसके बिना 25.00% की तुलना में रिट्री इनाम के साथ 46.88% की शिखर सटीकता हासिल की।
  • LLAMA3-23B-Instruct मॉडल के साथ NVIDIA H200 GPU पर 1000 से अधिक कदम आयोजित किए गए।
  • दोनों मॉडलों ने अपने संबंधित चोटियों तक पहुंचने के बाद एक सटीकता पतन का अनुभव किया, जो आरएल की स्थिरता के बारे में चिंताओं को दर्शाता है।
  • राग प्रणालियों में एक प्रशिक्षित व्यवहार के रूप में दृढ़ता के विचार का परिचय दिया, जो केवल एकल प्रश्नों को परिष्कृत करने से अलग है।

यह रहा कागज़ और नमूना। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »