Monday, April 21, 2025

बाईडेंस ने VAPO का परिचय दिया: उन्नत तर्क कार्यों के लिए एक उपन्यास सुदृढीकरण सीखने की रूपरेखा – Gadgets Solutions

-

बड़े भाषा मॉडल (एलएलएम) आरएल प्रशिक्षण में, जीआरपीओ और डीएपीओ जैसे मूल्य-मुक्त तरीकों ने बहुत प्रभावशीलता दिखाई है। वास्तविक क्षमता मूल्य-आधारित विधियों में निहित है, जो बाद के रिटर्न पर प्रत्येक कार्रवाई के प्रभाव को सही ढंग से ट्रेस करके अधिक सटीक क्रेडिट असाइनमेंट की अनुमति देता है। यह सटीकता जटिल तर्क के लिए महत्वपूर्ण है, जहां सूक्ष्म त्रुटियां भयावह विफलताओं को जन्म दे सकती हैं। हालांकि, लंबी श्रृंखला के विचार (COT) कार्यों के लिए प्रभावी मूल्य मॉडल का प्रशिक्षण चुनौतियों का सामना करना पड़ता है: लंबे समय तक प्रक्षेपवक्रों के बावजूद कम पूर्वाग्रह प्राप्त करना, छोटी और लंबी प्रतिक्रियाओं की अलग-अलग वरीयताओं का प्रबंधन करना, और इनाम सिग्नल स्पार्सिटी को संबोधित करना। उनके सैद्धांतिक लाभों के बावजूद, इन कठिनाइयों ने मूल्य-आधारित तरीकों की पूर्ण प्राप्ति में बाधा उत्पन्न की है।

एलएलएम के लिए मूल्य-आधारित सुदृढीकरण सीखने के तरीके लंबे चेन-ऑफ-थोजर रीज़निंग कार्यों पर लागू होने पर तीन महत्वपूर्ण चुनौतियों का सामना करते हैं। सबसे पहले, वीसी-पीपीओ में पहचाने गए वैल्यू मॉडल बायस इश्यू से पता चलता है कि इनाम मॉडल के साथ मूल्य मॉडल को इनिशियलाइज़ करना सकारात्मक पूर्वाग्रह का परिचय देता है। दूसरा, जटिल तर्क कार्यों में विषम अनुक्रम लंबाई निश्चित मापदंडों के साथ GAE जैसे मानक दृष्टिकोणों के लिए कठिनाइयों का निर्माण करती है, जो प्रभावी रूप से बहुत कम से लेकर बहुत लंबे समय तक अनुक्रमों के अनुकूल नहीं हो सकती है। तीसरा, इनाम संकेत की विरूपता सत्यापनकर्ता-आधारित कार्यों में समस्याग्रस्त हो जाती है जो निरंतर मूल्यों के बजाय द्विआधारी प्रतिक्रिया प्रदान करती है। यह विरूपता लंबी खाट प्रतिक्रियाओं से खराब हो जाती है, जिससे अनुकूलन के दौरान एक कठिन अन्वेषण-शोषण व्यापार-बंद होता है।

बाईडेंस सीड के शोधकर्ताओं ने लंबी सीओटी तर्क कार्यों की चुनौतियों का समाधान करने के लिए एक मूल्य-आधारित आरएल प्रशिक्षण ढांचा, मूल्य-आधारित प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (VAPO) का प्रस्ताव दिया है। VAPO तीन प्रमुख नवाचारों का परिचय देता है: बेहतर प्रदर्शन और दक्षता के साथ एक विस्तृत मूल्य-आधारित प्रशिक्षण ढांचा, एक लंबाई-अनुकूली GAE तंत्र जो लाभ अनुमान का अनुकूलन करने के लिए प्रतिक्रिया लंबाई के आधार पर पैरामीटर को समायोजित करता है, और पूर्व अनुसंधान से तकनीकों का एक व्यवस्थित एकीकरण। VAPO इन घटकों को एक ऐसी प्रणाली बनाने के लिए जोड़ती है जहां सामूहिक सुधार से अधिक व्यक्तिगत संवर्द्धन स्वतंत्र रूप से प्राप्त कर सकते हैं। SFT डेटा के बिना QWEN2.5-32B मॉडल का उपयोग करते हुए, VAPO 5 से 60 तक स्कोर में सुधार करता है, पिछले अत्याधुनिक तरीकों को 10 अंकों से पार करता है।

VAPO को गणितीय तर्क क्षमताओं को बढ़ाने के लिए कई प्रमुख संशोधनों के साथ PPO एल्गोरिथ्म पर बनाया गया है। प्रशिक्षण गतिशीलता विश्लेषण से DAPO की तुलना में VAPO की बेहतर विशेषताओं का पता चलता है, जिसमें चिकनी प्रशिक्षण घटता अधिक स्थिर अनुकूलन, बेहतर लंबाई स्केलिंग का संकेत देता है जो सामान्यीकरण क्षमताओं को बढ़ाता है, मूल्य मॉडल द्वारा प्रदान किए गए दानेदार संकेतों के कारण तेजी से स्कोर वृद्धि, और बाद के प्रशिक्षण चरणों में कम एंट्रॉपी। जबकि कम एन्ट्रापी संभावित रूप से अन्वेषण को सीमित कर सकती है, विधि इस व्यापार को प्रभावी ढंग से संतुलित करती है, जिसके परिणामस्वरूप प्रजनन और स्थिरता में सुधार करते हुए न्यूनतम प्रदर्शन प्रभाव होता है। इससे पता चलता है कि कैसे VAPO के निर्णय सीधे जटिल तर्क कार्यों में मूल्य-आधारित RL की मुख्य चुनौतियों का समाधान करते हैं।

जबकि डीपसेक आर 1 जीआरपीओ का उपयोग करके AIME24 पर 47 अंक प्राप्त करता है और DAPO 50 अंकों तक पहुंचता है, VAPO ने Qwen-32B पर DAPO के प्रदर्शन के साथ केवल 60% अपडेट चरणों के साथ मैच किया और केवल 5,000 कदमों के भीतर 60.4 के एक नए राज्य-एआरटी स्कोर को प्राप्त किया। वेनिला पीपीओ मूल्य मॉडल सीखने के पतन के कारण केवल 5 अंक प्राप्त करता है, लेकिन VAPO अंततः 60 अंक प्राप्त करता है। एब्लेशन स्टडीज ने सात प्रस्तावित संशोधनों की प्रभावशीलता को मान्य किया: मूल्य-प्रट्रेनिंग पतन को रोकता है, डिकॉइड जीएई लंबे-रूप-रूपों की प्रतिक्रियाओं के पूर्ण अनुकूलन को सक्षम करता है, अनुकूली जीएई बैलेंस शॉर्ट और लॉन्ग रिस्पॉन्स ऑप्टिमाइज़ेशन, क्लिप-हाई वेटिंग को पूरी तरह से प्रोत्साहित करता है, टोकन-स्तरीय नुकसान बढ़ाता है।

बाईडेंस ने VAPO का परिचय दिया: उन्नत तर्क कार्यों के लिए एक उपन्यास सुदृढीकरण सीखने की रूपरेखा
 – Gadgets Solutions

इस पत्र में, शोधकर्ताओं ने VAPO की शुरुआत की, एक एल्गोरिथ्म जो AIME24 बेंचमार्क पर अत्याधुनिक प्रदर्शन को प्राप्त करने के लिए QWEN2.5-32B मॉडल का उपयोग करता है। पीपीओ फ्रेमवर्क के शीर्ष पर सात नवीन तकनीकों को पेश करके, वीएपीओ मूल्य सीखने को काफी परिष्कृत करता है और अन्वेषण और शोषण के बीच एक इष्टतम संतुलन बनाता है। यह मूल्य-आधारित दृष्टिकोण निर्णायक रूप से जीआरपीओ और डीएपीओ जैसे मूल्य-मुक्त तरीकों से बेहतर प्रदर्शन करता है, तर्क कार्यों के लिए एक नई प्रदर्शन छत की स्थापना करता है। यह लंबे सीओटी परिदृश्यों के लिए प्रशिक्षण मूल्य मॉडल में मौलिक चुनौतियों को संबोधित करता है, तर्क-गहन अनुप्रयोगों में एलएलएम को आगे बढ़ाने के लिए एक मजबूत नींव प्रदान करता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »