सुदृढीकरण लर्निंग (आरएल) बड़े भाषा मॉडल (एलएलएम) को आगे बढ़ाने के लिए केंद्रीय हो गया है, उन्हें जटिल कार्यों के लिए आवश्यक बेहतर तर्क क्षमताओं के साथ सशक्त बनाता है। हालांकि, अनुसंधान समुदाय प्रमुख उद्योग के खिलाड़ियों द्वारा प्रमुख प्रशिक्षण विवरण के अधूरे प्रकटीकरण के कारण अत्याधुनिक आरएल तकनीकों को पुन: पेश करने में काफी चुनौतियों का सामना करता है। इस अस्पष्टता ने व्यापक वैज्ञानिक प्रयासों और सहयोगी अनुसंधान की प्रगति को सीमित कर दिया है।
बाईडेंस, सिंहहुआ विश्वविद्यालय, और हांगकांग विश्वविद्यालय के शोधकर्ताओं ने हाल ही में डीएपीओ (डायनेमिक सैंपलिंग पॉलिसी ऑप्टिमाइज़ेशन) पेश किया, जो एक ओपन-सोर्स बड़े पैमाने पर सुदृढीकरण सीखने की प्रणाली है जो बड़े भाषा मॉडल की तर्क क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया है। DAPO प्रणाली सभी एल्गोरिथम विवरण, प्रशिक्षण प्रक्रियाओं और डेटासेट को खुले तौर पर साझा करके प्रजनन क्षमता में अंतर को पाटने का प्रयास करती है। वर्ल फ्रेमवर्क पर निर्मित, DAPO में प्रशिक्षण कोड और एक अच्छी तरह से तैयार डेटासेट शामिल है जिसे DAPO-MATH-17K कहा जाता है, विशेष रूप से गणितीय तर्क कार्यों के लिए डिज़ाइन किया गया है।
DAPO के तकनीकी फाउंडेशन में सुदृढीकरण सीखने में प्रमुख चुनौतियों को हल करने के उद्देश्य से चार मुख्य नवाचार शामिल हैं। पहला, “क्लिप-हाई,”, एन्ट्रापी पतन के मुद्दे को संबोधित करता है, एक ऐसी स्थिति जहां मॉडल समय से पहले सीमित अन्वेषण पैटर्न में बस जाते हैं। नीति अपडेट में क्लिपिंग अनुपात को सावधानीपूर्वक प्रबंधित करके, यह तकनीक मॉडल आउटपुट में अधिक विविधता को प्रोत्साहित करती है। “डायनेमिक सैंपलिंग” उनकी उपयोगिता के आधार पर गतिशील रूप से फिल्टरिंग नमूनों को फ़िल्टर करके प्रशिक्षण में अक्षमताओं को पूरा करता है, इस प्रकार एक अधिक सुसंगत ढाल संकेत सुनिश्चित करता है। “टोकन-स्तरीय नीति ग्रेडिएंट लॉस” एक परिष्कृत हानि गणना विधि प्रदान करता है, जो तर्क अनुक्रमों की अलग-अलग लंबाई को बेहतर ढंग से समायोजित करने के लिए नमूना-स्तरीय समायोजन के बजाय टोकन-स्तर पर जोर देता है। अंत में, “ओवरलॉन्ग इनाम शेपिंग” अत्यधिक लंबी प्रतिक्रियाओं के लिए एक नियंत्रित दंड का परिचय देता है, धीरे से संक्षिप्त और कुशल तर्क की ओर मॉडल का मार्गदर्शन करता है।

व्यावहारिक प्रयोग में, DAPO ने महत्वपूर्ण सुधारों का प्रदर्शन किया है। अमेरिकी आमंत्रण गणित परीक्षा (AIME) 2024 बेंचमार्क पर मूल्यांकन से पता चलता है कि DAPO- प्रशिक्षित मॉडल ने QWEN2.5-32B बेस मॉडल का उपयोग करके 50 अंकों का स्कोर हासिल किया, पिछले तरीकों जैसे कि डीपसेक-आर 1-जीरो-क्यूवेन -32 बी, जो 47 अंक प्राप्त किए। विशेष रूप से, DAPO ने लगभग आधे प्रशिक्षण चरणों के साथ इस सुधार को प्राप्त किया, प्रस्तावित तरीकों की दक्षता को रेखांकित किया। एक व्यवस्थित विश्लेषण से प्रत्येक शुरू की गई तकनीक से वृद्धिशील संवर्द्धन का पता चला, जो पूर्ण डीएपीओ पद्धति के साथ 50 अंकों तक 30 अंकों (अकेले जीआरपीओ का उपयोग करके) की आधार रेखा से आगे बढ़ता है।

मात्रात्मक परिणामों से परे, DAPO के प्रशिक्षण गतिशीलता ने मॉडल के विकसित होने वाले तर्क पैटर्न में अंतर्दृष्टि प्रदान की। प्रारंभ में, मॉडल ने थोड़ा चिंतनशील व्यवहार दिखाया, अक्सर पिछले चरणों के पुनर्विचार के बिना कार्यों के माध्यम से रैखिक रूप से आगे बढ़ते हैं। हालांकि, चल रहे प्रशिक्षण के साथ, मॉडल ने उत्तरोत्तर अधिक चिंतनशील व्यवहारों का प्रदर्शन किया, जो पुनरावृत्त आत्म-समीक्षा के एक रूप का प्रदर्शन करता है। यह बदलाव न केवल मौजूदा तर्क मार्गों को बढ़ाने के लिए, बल्कि समय के साथ पूरी तरह से नई संज्ञानात्मक रणनीतियों की खेती करने के लिए सुदृढीकरण सीखने की क्षमता पर प्रकाश डालता है।

अंत में, DAPO का ओपन-सोर्सिंग सुदृढीकरण सीखने वाले समुदाय में एक सार्थक योगदान का प्रतिनिधित्व करता है, जो पहले दुर्गम कार्यप्रणाली द्वारा बनाई गई बाधाओं को दूर करता है। सिस्टम की तकनीकों, डेटासेट और कोड के लिए स्पष्ट रूप से दस्तावेज़ और व्यापक पहुंच प्रदान करके, यह सहयोगी पहल आगे के अनुसंधान और नवाचार को आमंत्रित करती है। बड़े पैमाने पर सुदृढीकरण सीखने की प्रणालियों की सामूहिक समझ और व्यावहारिक क्षमताओं को आगे बढ़ाने के लिए बाईडेंस, सिंहहुआ विश्वविद्यालय, और हांगकांग विश्वविद्यालय के संयुक्त प्रयासों को पारदर्शी और सहकारी अनुसंधान की क्षमता का प्रदर्शन किया गया है।
चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।