Tuesday, April 8, 2025

यह AI पेपर FastCurl का परिचय देता है: R1 जैसे तर्क मॉडल के कुशल प्रशिक्षण के लिए संदर्भ विस्तार के साथ एक पाठ्यक्रम सुदृढीकरण सीखने की रूपरेखा – Gadgets Solutions

-

बड़े भाषा मॉडल ने बदल दिया है कि मशीनें कैसे समझती हैं और पाठ उत्पन्न करती हैं, विशेष रूप से गणितीय तर्क जैसे जटिल समस्या-समाधान क्षेत्रों में। R1 जैसे मॉडल के रूप में जाने जाने वाले ये सिस्टम, धीमी और जानबूझकर विचार प्रक्रियाओं का अनुकरण करने के लिए डिज़ाइन किए गए हैं। उनकी प्रमुख ताकत लंबे अनुक्रमों में चरण-दर-चरण तर्क की आवश्यकता वाले जटिल कार्यों को संभाल रही है। ये क्षमताएं उन्हें ओलंपियाड-स्तरीय गणित की समस्याओं या तार्किक तर्क कार्यों को हल करने जैसे अनुप्रयोगों के लिए मूल्यवान बनाती हैं, जहां गहराई और तर्क की सुसंगतता आवश्यक है।

इन मॉडलों को प्रशिक्षित करने में एक महत्वपूर्ण चुनौती लंबे संदर्भ खिड़कियों का उपयोग करके सुदृढीकरण सीखने के लिए व्यापक गणना है। ऐसे कार्य जिन्हें मल्टी-स्टेप लॉजिक फोर्स मॉडल की आवश्यकता होती है, जो लंबे आउटपुट का उत्पादन करते हैं जो अधिक संसाधनों का उपभोग करते हैं और सीखने को धीमा कर देते हैं। इसके अलावा, सभी लंबी प्रतिक्रियाएं सटीकता में सार्थक रूप से योगदान नहीं करती हैं; कई में निरर्थक तर्क शामिल हैं। प्रतिक्रिया पीढ़ी और उच्च GPU उपयोग में ये अक्षमताएं प्रशिक्षण को प्रभावी ढंग से स्केल करना मुश्किल बनाती हैं, खासकर जब 1.5 बिलियन मापदंडों वाले मॉडल के साथ काम करते हैं।

इस मुद्दे को संबोधित करने के पिछले प्रयासों में डीपस्केलर जैसे मॉडल शामिल हैं, जो प्रशिक्षण के दौरान एक मंचन संदर्भ लंबाई विस्तार रणनीति का उपयोग करता है। DEEPSCALER एक 8K संदर्भ विंडो के साथ शुरू होता है और तीन प्रशिक्षण चरणों में धीरे -धीरे 24K तक फैलता है। यद्यपि यह दृष्टिकोण मॉडल को लंबे समय तक तर्क जंजीरों को कुशलता से प्रबंधित करने में मदद करता है, फिर भी यह लगभग 70,000 A100 GPU घंटे की मांग करता है। DeepScaler एक प्रगतिशील रणनीति के माध्यम से 3,800 घंटे तक कम कर देता है, लेकिन अभी भी काफी हार्डवेयर की आवश्यकता होती है, जिसमें कुछ चरणों में 32 GPU तक के सेटअप भी शामिल हैं। इससे पता चलता है कि जब सुधार संभव है, तो समाधान महंगा और जटिल रहता है।

यह AI पेपर FastCurl का परिचय देता है: R1 जैसे तर्क मॉडल के कुशल प्रशिक्षण के लिए संदर्भ विस्तार के साथ एक पाठ्यक्रम सुदृढीकरण सीखने की रूपरेखा
 – Gadgets Solutions

Tencent के शोधकर्ताओं ने पारंपरिक सुदृढीकरण सीखने के प्रशिक्षण की अक्षमताओं को दूर करने के लिए FastCurl नामक एक विधि पेश की। यह विधि संदर्भ विंडो विस्तार के साथ संरेखित एक पाठ्यक्रम-आधारित रणनीति प्रस्तुत करती है। FastCurl इनपुट प्रॉम्प्ट लंबाई के आधार पर डेटासेट को छोटी, लंबी और संयुक्त श्रेणियों में विभाजित करता है। प्रशिक्षण चार चरणों में प्रगति करता है, प्रत्येक एक अलग डेटासेट और संदर्भ विंडो सेटिंग का उपयोग करता है। यह दृष्टिकोण यह सुनिश्चित करता है कि मॉडल लंबे समय तक, अधिक जटिल तर्क चरणों को आगे बढ़ाने से पहले सरल तर्क सीखता है। शोधकर्ता इस बात पर जोर देते हैं कि संपूर्ण प्रशिक्षण प्रक्रिया केवल 8 जीपीयू के साथ एक एकल नोड पर चलती है, सेटअप जटिलता को कम करती है।

दृष्टिकोण में इनपुट लंबाई द्वारा डेटा का एक जानबूझकर विभाजन शामिल है, जो परिकल्पना द्वारा संचालित है जो लंबे समय तक संकेत देता है आमतौर पर लंबे और अधिक जटिल आउटपुट को जन्म देता है। मॉडल पहले 8K विंडो के तहत छोटे संकेतों का उपयोग करके सीखता है। प्रशिक्षण आगे बढ़ता है, मॉडल 16K विंडो की लंबाई के साथ मिश्रित डेटासेट में संक्रमण करता है, फिर एक ही विंडो आकार के साथ लंबे डेटासेट में, और अंत में फिर से संयुक्त डेटा की समीक्षा करता है। प्रत्येक चरण को एक पुनरावृत्ति के लिए प्रशिक्षित किया जाता है, और FastCurl को लगभग 860 प्रशिक्षण चरणों की आवश्यकता होती है। यह डीपस्केलर के 1,750 चरणों की तुलना में कुशल है, जो प्रभावशीलता को बनाए रखते हुए प्रशिक्षण समय और संसाधन उपयोग में 50% की कमी का प्रतिनिधित्व करता है।

प्रदर्शन मूल्यांकन में, FastCurl-1.5B-Preview ने पांच बेंचमार्क में अन्य मॉडलों में सुधार दिखाया। इसने गणित 500 पर 88.0, Aime 2024 पर 43.1, AMC 2023 पर 74.2, Minerva Math पर 31.6, और Olympiadbench पर 50.4, औसत पास@1 स्कोर 57.5 के साथ स्कोर किया। DEEPSCALER-1.5B-PREVIEW की तुलना में, जिसने औसतन 57.0 का स्कोर किया, FastCurl ने पांच में से चार डेटासेट में बेहतर प्रदर्शन किया। ये परिणाम इस बात पर प्रकाश डालते हैं कि FastCurl काफी कम संसाधनों का उपभोग करते हुए मौजूदा तकनीकों से बेहतर प्रदर्शन कर सकता है। मॉडल ने बेहतर सामान्यीकरण भी दिखाया, विशेष रूप से एएमसी 2023 और मिनर्वा गणित जैसे डेटासेट पर, जो मजबूती का संकेत देता है।

अनुसंधान स्पष्ट रूप से आर 1-जैसे तर्क मॉडल को प्रशिक्षित करने में एक कम्प्यूटेशनल समस्या को रेखांकित करता है और एक समाधान के रूप में एक अभिनव पाठ्यक्रम रणनीति प्रदान करता है। विधि संदर्भ विस्तार के साथ इनपुट-आधारित डेटा विभाजन को मिलाकर एक कुशल और व्यावहारिक प्रशिक्षण ढांचा प्रदान करती है। FastCurl कम चरणों और सीमित हार्डवेयर का उपयोग करके मजबूत प्रदर्शन प्रदान करता है, यह साबित करता है कि रणनीतिक प्रशिक्षण डिजाइन कच्चे कम्प्यूटेशनल पैमाने के रूप में शक्तिशाली हो सकता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »