सुदृढीकरण सीखना आरएल एलएलएम के लिए एक व्यापक रूप से उपयोग की जाने वाली पोस्ट-ट्रेनिंग विधि बन गया है, मानव संरेखण, दीर्घकालिक तर्क और अनुकूलन क्षमता जैसी क्षमताओं को बढ़ाता है। एक बड़ी चुनौती, हालांकि, व्यापक, कम संरचित डोमेन में सटीक इनाम संकेतों को उत्पन्न कर रही है, क्योंकि वर्तमान उच्च-गुणवत्ता वाले इनाम मॉडल बड़े पैमाने पर नियम-आधारित प्रणालियों या गणित और कोडिंग जैसे सत्यापन योग्य कार्यों पर बनाए गए हैं। सामान्य अनुप्रयोगों में, इनाम मानदंड अधिक विविध और व्यक्तिपरक हैं, जिसमें स्पष्ट जमीनी सत्य की कमी है। इसे संबोधित करने के लिए, व्यापक प्रयोज्यता के लिए सामान्यवादी इनाम मॉडल (आरएमएस) का पता लगाया जा रहा है। हालांकि, इन मॉडलों को इनपुट के दौरान इनपुट लचीलेपन और स्केलेबिलिटी को संतुलित करना चाहिए, विशेष रूप से विभिन्न कार्यों और डोमेन में विश्वसनीय, उच्च गुणवत्ता वाले पुरस्कारों का उत्पादन करने में।
मौजूदा इनाम मॉडलिंग दृष्टिकोणों में स्केलर, सेमी-स्केलर और जेनरेटिव तकनीक शामिल हैं, जिनमें से प्रत्येक के साथ लचीलापन और अनुमान-समय प्रदर्शन ट्रेड-ऑफ। उदाहरण के लिए, जोड़ीदार मॉडल सापेक्ष तुलनाओं तक सीमित हैं, जबकि स्केलर मॉडल विविध प्रतिक्रिया के उत्पादन के साथ संघर्ष करते हैं। जनरेटिव इनाम मॉडल (जीआरएम) समृद्ध, अधिक लचीले आउटपुट प्रदान करते हैं, जिससे वे विभिन्न प्रतिक्रियाओं का मूल्यांकन करने के लिए अधिक अनुकूल बनाते हैं। हाल के काम ने ऑफ़लाइन आरएल के माध्यम से प्रशिक्षण जीआरएम की खोज की है, इनाम की गुणवत्ता में सुधार के लिए उपकरण और बाहरी ज्ञान को एकीकृत किया है। हालांकि, कुछ तरीके सीधे संबोधित करते हैं कि आरएमएस कैसे कुशलता से अनुमान के दौरान कुशलता से पैमाने पर कर सकते हैं। इसने सैंपलिंग-आधारित स्केलिंग, चेन-ऑफ-थॉट प्रॉम्प्टिंग, और इनाम-निर्देशित एकत्रीकरण जैसे तरीकों पर शोध किया है, जो कि सह-स्केल पॉलिसी मॉडल और इनाम मॉडल के लिए लक्ष्य के दौरान है। ये घटनाक्रम LLMS में अधिक मजबूत, सामान्य-उद्देश्य इनाम प्रणालियों के लिए वादा करते हैं।
दीपसेक-एए और त्सिंघुआ विश्वविद्यालय के शोधकर्ताओं ने बढ़े हुए कंप्यूटिंग और बेहतर सीखने की तकनीकों का उपयोग करके इन-टाइम स्केलेबिलिटी में सुधार करके सामान्य प्रश्नों के लिए इनाम मॉडल आरएम को बढ़ाया। वे लचीले इनपुट हैंडलिंग के लिए पॉइंटवाइज जीआरएम को नियुक्त करते हैं और एक सीखने की विधि का प्रस्ताव करते हैं-स्व-प्राइकप्लेल्ड क्रिटिक ट्यूनिंग (एसपीसीटी)-जो जीआरएम को ऑनलाइन सुदृढीकरण सीखने के दौरान अनुकूली सिद्धांतों और सटीक आलोचकों को उत्पन्न करने में मदद करता है। वे समानांतर नमूनाकरण लागू करते हैं और प्रभावी ढंग से पैमाने पर एक मेटा आरएम का परिचय देते हैं और मतदान प्रक्रिया को परिष्कृत करते हैं। उनके डीपसेक-जीआरएम मॉडल मौजूदा बेंचमार्क विधियों से बेहतर प्रदर्शन करते हैं, जो कुछ जटिल कार्यों में चुनौतियों के बावजूद ओपन-सोर्सिंग की योजना के साथ उच्च इनाम गुणवत्ता और स्केलेबिलिटी की पेशकश करते हैं।
शोधकर्ता एसपीसीटी का परिचय देते हैं, जो कि एडेप्टिव सिद्धांतों और सटीक आलोचनाओं को उत्पन्न करने में सक्षम करके पॉइंटवाइज जीआरएम को बढ़ाने के लिए डिज़ाइन की गई एक विधि है। SPCT में दो चरण होते हैं: सिद्धांत और समालोचना पीढ़ी और शोधन के लिए नियम-आधारित आरएल को आरंभ करने के लिए अस्वीकार्य फाइन-ट्यूनिंग। सिद्धांतों को प्रीप्रोसेसिंग के रूप में मानने के बजाय, वे अंतर के दौरान गतिशील रूप से उत्पन्न होते हैं। यह इनाम ग्रैन्युलैरिटी में सुधार करके स्केलेबिलिटी को बढ़ावा देता है। इसके अतिरिक्त, इन-इन-टाइम प्रदर्शन को समानांतर नमूनाकरण और वोटिंग के माध्यम से बढ़ाया जाता है, जो एक मेटा इनाम मॉडल (मेटा आरएम) द्वारा समर्थित है जो कम गुणवत्ता वाले आउटपुट को फ़िल्टर करता है। कुल मिलाकर, एसपीसीटी जीआरएमएस में इनाम सटीकता, मजबूती और स्केलेबिलिटी में सुधार करता है।
मानक मेट्रिक्स का उपयोग करते हुए, अध्ययन इनाम बेंच, पीपीई, आरएमबी और रियलमिस्टेक जैसे बेंचमार्क में विभिन्न आरएम विधियों का मूल्यांकन करता है। डीपसेक-जीआरएम -27 बी लगातार बेसलाइन और प्रतिद्वंद्वियों को जीपीटी -4 ओ जैसे मजबूत सार्वजनिक मॉडल से बेहतर बनाती है। अनुमान-समय स्केलिंग, विशेष रूप से वोटिंग और मेटा इनाम मॉडल के साथ, प्रदर्शन को बढ़ाता है-बहुत बड़े मॉडलों की तुलना में परिणाम प्राप्त करने वाले परिणाम। एब्लेशन स्टडीज सिद्धांत पीढ़ी और गैर-हिंटेड सैंपलिंग जैसे घटकों के महत्व को उजागर करते हैं। प्रशिक्षण-समय स्केलिंग में अनुमान-समय की रणनीतियों की तुलना में कम रिटर्न दिखाया गया है। कुल मिलाकर, डीपसेक-जीआरएम, एसपीसीटी और मेटा आरएम के साथ बढ़ाया गया, कम डोमेन पूर्वाग्रह और मजबूत सामान्यीकरण के साथ मजबूत, स्केलेबल इनाम मॉडलिंग प्रदान करता है।
अंत में, अध्ययन SPCT प्रस्तुत करता है, एक विधि जो नियम-आधारित ऑनलाइन सुदृढीकरण सीखने के माध्यम से GRMS के लिए निष्कर्ष-समय की मापनीयता में सुधार करती है। एसपीसीटी अनुकूली सिद्धांत और समालोचना पीढ़ी को सक्षम बनाता है, विविध कार्यों में इनाम की गुणवत्ता को बढ़ाता है। डीपसेक-जीआरएम मॉडल कई बेसलाइन और मजबूत सार्वजनिक मॉडल को बेहतर बनाते हैं, खासकर जब इन्फ्रेंस-टाइम स्केलिंग के लिए मेटा इनाम मॉडल के साथ जोड़ा जाता है। समानांतर नमूनाकरण और लचीले इनपुट हैंडलिंग का उपयोग करते हुए, ये जीआरएम बड़े मॉडल आकारों पर भरोसा किए बिना मजबूत प्रदर्शन प्राप्त करते हैं। भविष्य के काम में आरएल पाइपलाइनों में जीआरएम को एकीकृत करना, नीति मॉडल के साथ सह-स्केलिंग और विश्वसनीय ऑफ़लाइन मूल्यांकनकर्ताओं के रूप में सेवा करना शामिल है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
