Monday, April 21, 2025

बाईडेंस से यह एआई पेपर एक हाइब्रिड रिवार्ड सिस्टम का परिचय देता है, जो तर्क कार्य वेरिफायर (आरटीवी) और एक जेनरेटिव इनाम मॉडल (GERMM) के संयोजन से इनाम हैकिंग को कम करता है – Gadgets Solutions

-

मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखना मानव मूल्यों और वरीयताओं के साथ LLM को संरेखित करने के लिए महत्वपूर्ण है। डीपीओ जैसे गैर-आरएल विकल्पों को पेश करने के बावजूद, उद्योग-अग्रणी मॉडल जैसे कि CHATGPT/GPT-4, क्लाउड, और मिथुन नीति अनुकूलन के लिए PPO जैसे RL एल्गोरिदम पर भरोसा करना जारी है। हाल के शोध एल्गोरिथम सुधारों पर ध्यान केंद्रित करते हैं, जिसमें कम्प्यूटेशनल लागत को कम करने के लिए आलोचक मॉडल को समाप्त करना, पीपीओ नमूने के दौरान शोर के नमूनों को फ़िल्टर करना और इनाम हैकिंग समस्याओं को कम करने के लिए इनाम मॉडल को बढ़ाना शामिल है। हालांकि, केवल कुछ अध्ययन RLHF डेटा निर्माण (यानी, प्रशिक्षण संकेत) और इन प्रशिक्षण संकेतों के आधार पर इसके प्रदर्शन स्केलिंग पर ध्यान केंद्रित करते हैं।

RLHF की सफलता भारी रूप से इनाम मॉडल की गुणवत्ता पर निर्भर करती है, जो तीन चुनौतियों का सामना करती है: मानव वरीयताओं का प्रतिनिधित्व करने में गलत-निर्दिष्ट इनाम मॉडलिंग, प्रशिक्षण डेटासेट में गलत और अस्पष्ट वरीयताओं, और खराब सामान्यीकरण क्षमता में। इन मुद्दों को संबोधित करने के लिए, Genrm को ग्राउंड-ट्रुथ प्रतिक्रियाओं के खिलाफ मॉडल की भविष्यवाणियों को मान्य करने के लिए पेश किया गया था, जो कि हैकिंग को इनाम देने और डीपसेकेव 3 जैसे उन्नत एलएलएम में गोद लेने के लिए अच्छा प्रतिरोध दिखा रहा था। प्रशिक्षण और रणनीतिक चयन विधियों के दौरान अत्यधिक चुनौतीपूर्ण उदाहरणों को फ़िल्टर करने वाले राजसी डेटा चयन जैसी विधियाँ, कम डेटा के साथ तुलनीय प्रदर्शन को प्राप्त करने के लिए प्रमुख प्रशिक्षण संकेतों की पहचान करती हैं। प्रदर्शन स्केल विश्लेषण से पता चलता है कि RLHF उपन्यास इनपुट पर SFT की तुलना में बेहतर सामान्यीकरण दिखाता है, लेकिन आउटपुट विविधता को काफी कम करता है।

बाईडेंस सीड के शोधकर्ताओं ने आरएलएचएफ अनुसंधान में एक महत्वपूर्ण अंतर को संबोधित किया, जहां प्रॉम्प्ट-डेटा निर्माण और इसकी स्केलेबिलिटी की भूमिका पर कम ध्यान दिया गया है। वे डेटा-संचालित अड़चनों का पता लगाते हैं जो RLHF प्रदर्शन स्केलिंग को सीमित करते हैं, इनाम हैकिंग पर ध्यान केंद्रित करते हैं और प्रतिक्रिया विविधता चुनौतियों को कम करते हैं। एक हाइब्रिड इनाम प्रणाली को रीज़निंग टास्क वेरिफायर (आरटीवी) और एक जेनरेटिव इनाम मॉडल (GENRM) के संयोजन से पेश किया जाता है जो हैकिंग को इनाम देने के लिए मजबूत प्रतिरोध दिखाता है और ग्राउंड-ट्रूथ सॉल्यूशंस के खिलाफ प्रतिक्रियाओं का अधिक सटीक मूल्यांकन सक्षम करता है। इसके अलावा, प्री-पीपीओ नामक एक उपन्यास प्रॉम्प्ट-सेलेक्शन विधि को स्वाभाविक रूप से चुनौतीपूर्ण प्रशिक्षण की पहचान करने के लिए पेश किया जाता है, जो हैकिंग को इनाम देने के लिए कम अतिसंवेदनशील होता है।

बाईडेंस से यह एआई पेपर एक हाइब्रिड रिवार्ड सिस्टम का परिचय देता है, जो तर्क कार्य वेरिफायर (आरटीवी) और एक जेनरेटिव इनाम मॉडल (GERMM) के संयोजन से इनाम हैकिंग को कम करता है
 – Gadgets Solutions

प्रायोगिक सेटअप विभिन्न पैमानों के दो पूर्व-प्रशिक्षित भाषा मॉडल को नियुक्त करता है: 25B मापदंडों के साथ एक छोटा मॉडल और 150B मापदंडों के साथ एक बड़ा मॉडल। प्रशिक्षण डेटासेट में विभिन्न डोमेन से एक मिलियन संकेत शामिल हैं, जिनमें गणित, कोडिंग, निर्देश-निम्नलिखित, रचनात्मक लेखन और तार्किक तर्क शामिल हैं। इसके अलावा, शोधकर्ताओं ने कई कौशल क्षेत्रों को कवर करने वाले एक विस्तृत मूल्यांकन ढांचे का निर्माण किया: तार्किक तर्क, निर्देश-निम्नलिखित, एसटीईएम कार्य, कोडिंग, प्राकृतिक भाषा प्रसंस्करण, ज्ञान, प्रासंगिक समझ और बाहर-डिस्ट्रिब्यूशन सामान्यीकरण। मूल्यांकन ढांचे में दो संस्करण (v1.0 और v2.0) शामिल हैं, जिसमें ओवरलैपिंग संकेत हैं, हालांकि v2.0 में अधिक चुनौतीपूर्ण संकेत हैं।

प्रायोगिक परिणाम बताते हैं कि प्रस्तावित दृष्टिकोण प्राथमिकता वाले गणितीय और कोडिंग कार्यों के साथ प्री-पीपीओ को मिलाकर लगातार मॉडल आकार और मूल्यांकन डेटासेट में बेसलाइन विधि को बेहतर बनाता है। दृष्टिकोण आधार रेखा पर +1.1 का सुधार दिखाता है जब टेस्टसेट V1.0 का उपयोग करके 100-चरण अंतराल पर मूल्यांकन किया जाता है। जब अधिक चुनौतीपूर्ण टेस्टसेट v2.0 पर परीक्षण किया जाता है, तो प्रदर्शन में सुधार +1.4 तक बढ़ जाता है। सबसे अधिक लाभ गणित-गहन और कोडिंग कार्यों में दिखाई देते हैं, जिसमें स्टेम में +3.9 अंक और कोडिंग में +3.2 अंक में सुधार होता है। इन सुधारों को प्रारंभिक RLHF प्रशिक्षण चरणों के दौरान गणितीय तर्क और कोडिंग कार्यों के रणनीतिक प्राथमिकता के लिए जिम्मेदार ठहराया जाता है।

अंत में, यह पेपर RLHF डेटा स्केलिंग में महत्वपूर्ण अड़चनें को संबोधित करता है, विशेष रूप से इनाम हैकिंग की पहचान करता है और महत्वपूर्ण चुनौतियों के रूप में प्रतिक्रिया विविधता को कम करता है। शोधकर्ताओं ने इस मुद्दे को हल करने के लिए रणनीतिक शीघ्र निर्माण और प्रारंभिक चरण के प्रशिक्षण प्राथमिकता वाले एक संयुक्त दृष्टिकोण का प्रस्ताव दिया। यह विधि उपन्यास प्री-पीपीओ प्रॉम्प्ट चयन रणनीति के साथ-साथ इनाम हैकिंग का मुकाबला करने के लिए आरटीवी और गानर का उपयोग करती है जो चुनौतीपूर्ण प्रशिक्षण संकेतों की पहचान और प्राथमिकता देती है। विश्लेषण से पता चलता है कि आरटीवी पर्यवेक्षण इनाम हैकिंग के लिए सबसे मजबूत प्रतिरोध को दर्शाता है, इसके बाद ग्राउंड-ट्रुथ लेबल और फिर बीटी इनाम मॉडल के साथ जीनरम। अनुसंधान RLHF डेटा निर्माण को अनुकूलित करने और हैकिंग और मॉडल संरेखण को पुरस्कृत करने के लिए अधिक सिद्धांत विधियों को विकसित करने के लिए एक नींव स्थापित करता है।


चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥 (अभी रजिस्टर करें) ओपन सोर्स एआई पर मिनिकॉन वर्चुअल कॉन्फ्रेंस: फ्री पंजीकरण + उपस्थिति का प्रमाण पत्र


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »