Monday, April 21, 2025

यह एआई पेपर जीआरपीओ-आधारित ओपन-आरएस का परिचय देता है: छोटी भाषा मॉडल में तर्क को बढ़ाने के लिए एक कम लागत वाली सुदृढीकरण सीखने की रूपरेखा – Gadgets Solutions

-

बड़ी भाषा मॉडल पर एक विशेष ध्यान उनकी तार्किक सोच और समस्या-समाधान कौशल में सुधार रहा है। सुदृढीकरण लर्निंग (आरएल) का उपयोग इस स्थान पर बड़े पैमाने पर मॉडल और कॉम्पैक्ट संस्करणों के लिए किया जाता है जो प्रतिबंधित कंप्यूटिंग वातावरण में अच्छा प्रदर्शन कर सकते हैं। इस क्षेत्र में एक बड़ी चुनौती बहुत बड़े बुनियादी ढांचे या अत्यधिक प्रशिक्षण समय पर भरोसा किए बिना एक मॉडल की तर्क क्षमता में सुधार कर रही है। अग्रणी मॉडल को महंगे हार्डवेयर और मालिकाना डेटा पाइपलाइनों की आवश्यकता होती है, जिससे उन्हें छोटी प्रयोगशालाओं या कंपनियों के लिए पहुंच से बाहर कर दिया जाता है। यह इस सवाल को उठाता है कि क्या छोटे मॉडलों को लागत-कुशल दृष्टिकोणों का उपयोग करके बढ़ाया जा सकता है और गणित के तर्क जैसे चुनौतीपूर्ण कार्यों पर अपने बड़े समकक्षों की तुलना में प्रदर्शन को प्राप्त किया जा सकता है।

इसे संबोधित करने के लिए कई तरीकों का पता लगाया गया है। चेन-ऑफ-थॉट प्रॉम्प्टिंग समस्या चरणों के माध्यम से गाइड मॉडल में मदद करता है। बीम खोज और मोंटे कार्लो ट्री खोज जैसे खोज एल्गोरिदम का उपयोग उत्तर के तार्किक प्रवाह को बेहतर बनाने के लिए भी किया जाता है। सुदृढीकरण सीखने का परीक्षण कई सेटिंग्स में किया गया है। हालांकि, इनमें से कई दृष्टिकोण अभी भी एक ही मुद्दों से बंधे हैं: वे बड़े पैमाने पर डेटासेट पर निर्भर करते हैं या छोटे पैमाने पर सेटअप में अस्थिर प्रदर्शन का नेतृत्व करते हैं। इसके अलावा, परिणाम अक्सर ओपनईआई के ओ 1-प्रीव्यू जैसे मालिकाना मॉडल से मेल खाने में विफल होते हैं।

यह एआई पेपर जीआरपीओ-आधारित ओपन-आरएस का परिचय देता है: छोटी भाषा मॉडल में तर्क को बढ़ाने के लिए एक कम लागत वाली सुदृढीकरण सीखने की रूपरेखा
 – Gadgets Solutions

वियतनाम में सिंगापुर में नॉवेल इंजीनियरिंग लैब और वीएनयू विश्वविद्यालय के एक टीम द्वारा एक टीम द्वारा पेश किए गए शोध ने इन समस्याओं पर काबू पाने पर ध्यान केंद्रित किया। शोधकर्ताओं ने 1.5 बिलियन-पैरामीटर मॉडल का उपयोग किया, जिसका नाम डीपसेक-आर 1-डिस्टिल-क्यूवेन -1.5 बी है। उन्होंने अपने सेटअप के लिए समूह सापेक्ष नीति अनुकूलन (GRPO) एल्गोरिथ्म को अपनाया, मॉडल को चार NVIDIA A40 GPU का उपयोग करके 48 GB VRAM प्रत्येक के साथ प्रत्येक, सभी को एक सख्त 24-घंटे की सीमा के भीतर प्रशिक्षण दिया। उनका प्रमुख उद्देश्य बड़े वित्तीय या कम्प्यूटेशनल निवेश के बिना मॉडल के तर्क को बढ़ाना था। उनके प्रशिक्षण ने कंप्यूटिंग लागत में केवल $ 42 का सेवन किया, बेसलाइन की तुलना में भारी कमी के लिए हजारों डॉलर की आवश्यकता होती है।

टीम ने दो मौजूदा डेटासेट-ओपेन-एस 1 और ओपन-डीप स्केल को परिष्कृत करके इसे प्राप्त करने के लिए 39,659 गणित-विशिष्ट प्रश्नों का एक डेटासेट इकट्ठा किया। फ़िल्टरिंग प्रक्रिया में Qwen2.5-7B-Instruct और DeepSeek-R1-Distill-Qwen-1.5b जैसे विभिन्न मॉडलों का उपयोग करके तुच्छ या शोर वाले प्रश्नों को हटाना शामिल है। इनाम प्रणाली नियम-आधारित थी और तीन घटकों पर केंद्रित थी: उत्तर की शुद्धता (बॉक्सिंग नोटेशन का उपयोग करके), संरचनात्मक स्वरूपण (टैग के साथ लागू किया गया), और आउटपुट लंबाई (संक्षिप्त तर्क को बढ़ावा देने के लिए एक कोसाइन फ़ंक्शन के साथ पुरस्कृत)। जीआरपीओ एल्गोरिथ्म का उपयोग समूह प्रतिक्रियाओं का नमूना लेने और स्कोर-आधारित अनुकूलन को लागू करने के लिए किया गया था, एक महत्वपूर्ण मॉडल की आवश्यकता से बचने और इस प्रकार कम्प्यूटेशनल मांगों को और कम करने के लिए।

इस दृष्टिकोण के प्रदर्शन का परीक्षण पांच बेंचमार्क डेटासेट में किया गया था: AMC23, AIME24, MATH-500, OLYMPIADBENCH और MINERVA। एक प्रयोग में, केवल ओपन-एस 1 डेटासेट का उपयोग करते हुए, मॉडल की एएमसी 23 सटीकता में पहले 100 वैश्विक चरणों में 63% से 70% तक सुधार हुआ, लेकिन बाद में गिरावट आई। एक अन्य परीक्षण में, जिसमें मिश्रित कठिनाई के 7,000 नमूनों को मिलाकर, AMC23 पर सटीकता 80%तक बढ़ गई, और Aime24 46.7%तक पहुंच गया। उस सेटअप में प्रशिक्षित ओपन-आरएस 2 नामक मॉडल ने ओलंपियाडबेंच (52.4%) और मैथ -500 (85%) पर प्रतिस्पर्धी स्कोर भी दिखाया। अंतिम प्रयोग में, कोसाइन इनाम ने आउटपुट की लंबाई को 1000-3500 टोकन की सीमा तक विनियमित करने में मदद की, और मॉडल ने AMC23 पर 72.5% सटीकता और गणित -500 पर 84.4% बनाए रखा।

इस शोध से पता चला कि छोटे भाषा मॉडल में प्रभावी तर्क सीमित संसाधनों के साथ भी प्राप्त करने योग्य है। महत्वपूर्ण हार्डवेयर निवेश के बिना छोटे मॉडल प्रशिक्षण की समस्या को कम लागत और कुशल प्रशिक्षण रणनीति के साथ संबोधित किया गया था। प्रस्तावित विधि ने आश्चर्यजनक रूप से मजबूत परिणाम देने के लिए सुदृढीकरण सीखने और क्यूरेट डेटा का उपयोग किया। इनाम डिजाइन और अनुकूलन स्थिरता में निरंतर सुधार के साथ, छोटे मॉडल जल्द ही व्यावहारिक तर्क कार्यों में अपने बड़े समकक्षों को प्रतिद्वंद्वी कर सकते हैं।


चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »