Wednesday, April 9, 2025

सत्यापित रिवार्ड्स के साथ स्केलेबल सुदृढीकरण सीखना: असंरचित, बहु-डोमेन कार्यों के लिए जेनेरिक इनाम मॉडलिंग – Gadgets Solutions

-

सत्यापन योग्य रिवार्ड्स (आरएलवीआर) के साथ सुदृढीकरण सीखने ने एलएलएम की तर्क और कोडिंग क्षमताओं को बढ़ाने में प्रभावी साबित किया है, विशेष रूप से उन डोमेन में जहां संरचित संदर्भ उत्तर स्पष्ट-कट सत्यापन की अनुमति देते हैं। यह दृष्टिकोण यह निर्धारित करने के लिए संदर्भ-आधारित संकेतों पर निर्भर करता है कि क्या किसी मॉडल की प्रतिक्रिया एक ज्ञात सही उत्तर के साथ संरेखित करती है, आमतौर पर बाइनरी शुद्धता लेबल या ग्रेडेड स्कोर के माध्यम से। RLVR को मुख्य रूप से गणित और कोडिंग जैसे क्षेत्रों में लागू किया गया है, जहां नियम-आधारित या उपकरण-सहायता प्राप्त सत्यापन सीधा है। हालांकि, आरएलवीआर को अधिक जटिल और कम संरचित कार्यों में विस्तारित करना ओपन-एंड या अस्पष्ट संदर्भ प्रतिक्रियाओं को सत्यापित करने में चुनौतियों के कारण मुश्किल हो गया है। यद्यपि GPT-4O जैसे जनरेटिव मॉडल और बंद-स्रोत LLM को वेरिफायर के रूप में खोजा गया है, ये समाधान अक्सर डोमेन-विशिष्ट रहते हैं और प्रशिक्षण के लिए व्यापक एनोटेट डेटासेट की आवश्यकता होती है।

हाल के घटनाक्रमों का उद्देश्य जेनेरिक इनाम मॉडलिंग शुरू करके आरएलवीआर अनुप्रयोगों को व्यापक बनाना है, जहां एलएलएम निर्णयों और औचित्य का उत्पादन करने के लिए अपनी जेनेरिक क्षमताओं का उपयोग करते हैं। इन मॉडलों को विस्तृत तर्क के बिना प्रशिक्षित किया जा सकता है, इसके बजाय स्थिर इनाम संकेतों को उत्पन्न करने के लिए सत्यापनकर्ता के आउटपुट के विश्वास पर भरोसा किया जा सकता है। यह तकनीक शोर या अस्पष्ट लेबल के साथ कार्यों में सुदृढीकरण सीखने का समर्थन करती है। इसके अलावा, शोधकर्ता अधिक फ्री-फॉर्म संदर्भ उत्तरों का उपयोग करके डोमेन की एक विस्तृत विविधता में आरएलवीआर की खोज कर रहे हैं-विशेषज्ञ एनोटेशन से सना हुआ और डेटा प्रीट्रेनिंग डेटा या एलएलएम द्वारा उत्पन्न-गणित और तर्क पहेली जैसे संकीर्ण रूप से परिभाषित कार्यों से परे। ये प्रयास स्केलेबल और डोमेन-जनरल आरएलवीआर प्रशिक्षण की ओर एक महत्वपूर्ण कदम चिह्नित करते हैं।

Tencent AI Lab और Soochow विश्वविद्यालय के शोधकर्ता RLVR को जटिल, असंरचित डोमेन जैसे चिकित्सा, रसायन विज्ञान और शिक्षा तक बढ़ा रहे हैं। वे दिखाते हैं कि जब विशेषज्ञ-लिखित संदर्भ उपलब्ध होते हैं तो बाइनरी शुद्धता निर्णय एलएलएम के अनुरूप रहते हैं। फ्री-फॉर्म कार्यों में बाइनरी रिवार्ड्स की सीमाओं को संबोधित करने के लिए, वे नरम, जेनेरिक मॉडल-आधारित इनाम संकेतों का परिचय देते हैं। कॉम्पैक्ट 7 बी मॉडल का उपयोग करते हुए, वे व्यापक डोमेन-विशिष्ट एनोटेशन की आवश्यकता के बिना क्रॉस-डोमेन रिवार्ड वेरिफायर को प्रशिक्षित करते हैं। उनके RLVR फ्रेमवर्क ने प्रभावी रूप से तर्क और तराजू में शीर्ष ओपन-सोर्स मॉडल को प्रभावी ढंग से बेहतर बनाया। वे मल्टी-डोमेन RLVR में आगे के शोध का समर्थन करने के लिए 570K- उदाहरण डेटासेट भी जारी करते हैं।

विधि सुदृढीकरण सीखने के लिए गाइड इनाम आकलन के लिए विशेषज्ञ-लिखित संदर्भ उत्तर का उपयोग करती है। प्रतिक्रियाओं का मूल्यांकन एक सामान्य LLM सत्यापनकर्ता का उपयोग करके किया जाता है, जो शुद्धता की संभावना के आधार पर बाइनरी (0/1) या सॉफ्ट रिवार्ड्स को आउटपुट करता है। स्थिर प्रशिक्षण और बेहतर सीखने की गतिशीलता के लिए जेड-स्कोर सामान्यीकरण का उपयोग करके पुरस्कारों को सामान्य किया जाता है। लेखक पूरी तरह से बड़े मॉडलों पर भरोसा करने से बचने के लिए आरएल अन्वेषण के दौरान एकत्र किए गए निर्णयों का उपयोग करके एक कॉम्पैक्ट (7 बी) जेनेरिक इनाम मॉडल को प्रशिक्षित करते हैं। ये बाइनरी लेबल एक बड़े एलएलएम से प्राप्त किए जाते हैं और छोटे सत्यापनकर्ता को ठीक करने के लिए उपयोग किए जाते हैं। यह दृष्टिकोण शोर और स्वरूपण विविधताओं के लिए मजबूती बढ़ाने के दौरान प्रदर्शन और दक्षता को संतुलित करता है।

अध्ययन में दो बड़े पैमाने पर चीनी क्यूए डेटासेट का उपयोग किया गया है-एक स्कूल स्तरों पर 773k मुक्त-रूप गणित के प्रश्नों के साथ और एक और 638K बहु-विषय-उप-विषय कॉलेज-स्तरीय प्रश्न परीक्षा से। इन डेटासेट में जटिल, असंरचित उत्तर हैं जो नियम-आधारित इनाम विधियों को चुनौती देते हैं। शोधकर्ताओं ने 160K डिस्टिल्ड नमूनों का उपयोग करके 7B इनाम मॉडल (RM-7B) को प्रशिक्षित किया और विभिन्न RL दृष्टिकोणों का परीक्षण किया। परिणाम बताते हैं कि मॉडल-आधारित रिवार्ड्स के साथ आरएल नियम-आधारित विधियों को आउटपरफॉर्म करता है और विशेष रूप से तर्क कार्यों में फाइन-ट्यूनिंग (एसएफटी) की देखरेख करता है। विशेष रूप से, RM-7B अपनी दक्षता को उजागर करते हुए, बड़े 72B मॉडल के करीब प्रदर्शन प्राप्त करता है। बाइनरी रिवार्ड्स सिमेंटिक बेमेल मुद्दों के कारण नियम-आधारित सेटिंग्स में सॉफ्ट रिवार्ड्स को आउटपरफॉर्म करें।

सत्यापित रिवार्ड्स के साथ स्केलेबल सुदृढीकरण सीखना: असंरचित, बहु-डोमेन कार्यों के लिए जेनेरिक इनाम मॉडलिंग
 – Gadgets Solutions

अंत में, अध्ययन चेन-ऑफ-थोजर रीज़निंग पर भरोसा किए बिना बाइनरी स्कोर (1 या 0) को आउटपुट करने के लिए एक जेनेरिक मॉडल को प्रशिक्षित करके इनाम मॉडलिंग को सरल बनाता है। जबकि कॉट ने तर्क में एड्स किया, सिमेंटिक समानता को सत्यापित करने के लिए इसकी आवश्यकता स्पष्ट नहीं है। प्रारूप-आधारित स्कोरिंग पर भरोसा करने वाले पिछले काम के विपरीत, यह दृष्टिकोण मैनुअल प्रयास को कम करते हुए, सख्त उत्तर स्वरूपण से बचता है। यह शोध आरएलवीआर से परे संरचित डोमेन से परे दवा और अर्थशास्त्र जैसे क्षेत्रों में फैलता है, जहां संदर्भ उत्तर कम परिभाषित होते हैं। 7 बी मॉडल का उपयोग करते हुए, यह दर्शाता है कि नरम, मॉडल-आधारित पुरस्कार मुक्त-रूप कार्यों में प्रदर्शन को बढ़ाते हैं, बड़े मॉडल को बेहतर बनाते हैं और आरएलवीआर की अनुकूलनशीलता और स्केलेबिलिटी में सुधार करते हैं।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »