सुदृढीकरण लर्निंग (आरएल) एलएलएम की तर्क क्षमताओं को बढ़ाने के लिए एक शक्तिशाली तकनीक है, जिससे वे लंबी श्रृंखला-की-सोच (सीओटी) को विकसित करने और परिष्कृत करने में सक्षम होते हैं। Openai O1 और DeepSeek R1 जैसे मॉडल ने पाठ-आधारित तर्क कार्यों में शानदार प्रदर्शन दिखाया है, हालांकि, वे उन कार्यों पर सीमाओं का सामना करते हैं जिनके लिए सटीक संख्यात्मक गणना या प्रतीकात्मक जोड़तोड़ की आवश्यकता होती है, जैसे कि ज्यामितीय तर्क, जटिल संगणना, या समीकरण हल। हाल के शोधों ने एलएलएम को टूल-यूज़ क्षमताओं से लैस करने के लिए फाइन-ट्यूनिंग तरीकों की खोज और पर्यवेक्षण किया है, लेकिन वे क्यूरेटेड डेटा वितरण की नकल करने पर उनकी निर्भरता से विवश हैं। यह अक्सर देखा पैटर्न से परे खराब सामान्यीकरण और बाहरी उपकरणों को कब और कैसे लागू करने के लिए यह निर्धारित करने में असमर्थता है।
एलएलएम में हाल की प्रगति सीओटी प्रॉम्प्टिंग के माध्यम से मानव-जैसी मेटाकॉग्निशन की ओर प्रगति को दर्शाती है। अनुसंधान ट्रेन-टाइम स्केलिंग से परीक्षण-समय स्केलिंग तक विकसित हुआ है, मध्यवर्ती तर्क चरणों को उत्पन्न करने के लिए अनुमान के दौरान अतिरिक्त कम्प्यूटेशनल संसाधनों को आवंटित करता है। स्टेप वाइज वरीयता अनुकूलन, मोंटे कार्लो ट्री सर्च और आरएल जैसी तकनीकों ने मल्टी-स्टेप गणितीय तर्क में सुधार किया है, जैसा कि ओपनईएआई-ओ 1 और डीपसेक-आर 1 जैसे मॉडलों द्वारा स्पष्ट किया गया है। COT के अलावा, प्रोग्राम-ऑफ-थॉट रीज़निंग बाहरी कम्प्यूटेशनल टूल जैसे कि पायथन दुभाषियों को जटिल तर्क चरणों को सरल बनाने के लिए एकीकृत करता है। इसके अलावा, उपकरण-एकीकृत तर्क शुरू में एलएलएम को प्रोग्रामिंग रणनीतियों के माध्यम से कम्प्यूटेशनल रूप से गहन समस्याओं को हल करने में मदद करने के लिए पेश किया गया था।
बाईडेंस सीड के शोधकर्ताओं ने रेटूल का प्रस्ताव दिया है, जो एक सीआई-संचालित आरएल फ्रेमवर्क है जो गणित की समस्या-समाधान कार्यों को संबोधित करने के लिए डिज़ाइन किया गया है। यह दो प्रमुख विशेषताओं के माध्यम से टूल-एकीकृत सीखने के साथ लंबे समय के तर्क को बढ़ाता है। सबसे पहले, यह प्राकृतिक भाषा तर्क प्रक्रियाओं के भीतर वास्तविक समय कोड निष्पादन के गतिशील इंटरलेविंग को सक्षम करता है। दूसरा, यह एक स्वचालित आरएल तकनीक को लागू करता है जो मल्टी-टर्न रीयल-टाइम कोड निष्पादन के साथ पॉलिसी रोलआउट की अनुमति देता है, मॉडल को सिखाता है कि परिणाम प्रतिक्रिया के आधार पर उपकरण कब और कैसे लागू करें। रेटूल एक व्यवस्थित प्रशिक्षण ढांचे को नियोजित करता है जो सिंथेटिक कोल्ड-स्टार्ट डेटा जनरेशन के साथ शुरू होता है, जो ठीक-ट्यूनिंग बेस मॉडल के लिए कोड-अगस्त लंबे समय-रूप तर्क के निशान का उत्पादन करता है।
रेटूल में दो प्राथमिक चरण होते हैं, कोल्ड-स्टार्ट की निगरानी करते हुए ठीक-ठाक-ट्यूनिंग के बाद आरएल द्वारा इंटरलेव्ड कोड निष्पादन रोलआउट के साथ। उच्च गुणवत्ता वाले डेटा को इकट्ठा करने और क्यूरेट करने के लिए डिज़ाइन की गई पाइपलाइन विभिन्न स्रोतों से उच्च गुणवत्ता वाले गणितीय तर्क डेटा एकत्र करने के साथ शुरू होती है, जिसमें ओपेन्थेट्स जैसे ओपन-सोर्स डेटासेट शामिल हैं। मानव विशेषज्ञ क्यूरेशन और डीपसेक-आर 1 मूल्यांकन फ़िल्टर अमान्य डेटा का संयोजन करने वाला एक दोहरी-सत्यापन दृष्टिकोण। इस नींव से, कोड-एकीकृत तर्क डेटा स्वचालित रूप से निर्मित होता है। VERL फ्रेमवर्क को प्रशिक्षण के लिए RL विधि के रूप में PPO के साथ नियोजित किया गया है। अधिकतम अनुक्रम लंबाई 16384 टोकन पर सेट की गई है, जिसमें 512 मिनी-बैच आकार और 0.0 के केएल गुणांक के साथ, मुख्य बैकबोन के रूप में qwen2.5-32b-instruct का उपयोग किया गया है।
रेटूल एलएलएम को आरएल चरण के दौरान लचीले ढंग से कोड दुभाषिया का उपयोग करने में सक्षम बनाता है, जिससे पर्याप्त प्रदर्शन में सुधार होता है। Retool (Qwen2.5-32b-Instruct) Aime2024 पर 67.0% और केवल 400 प्रशिक्षण चरणों के साथ Aime2025 पर 49.3% की सटीकता प्राप्त करता है। यह पाठ-आधारित आरएल बेसलाइन (QWEN2.5-32B-Instruct) को बेहतर बनाता है, जो 1000 से अधिक प्रशिक्षण चरणों का उपयोग करने के बावजूद संबंधित बेंचमार्क पर 40.0% और 36.7% प्राप्त करता है। इसके अलावा, Aime2024 पर, रेटूल (QWEN2.5-32B-INSTRUCT) प्रतिस्पर्धी बेसलाइन S1-32B को 10.3%से पार करता है। इसी तरह, Aime2025 पर, यह Openai के O1-Preview पर 11.4% लाभ प्राप्त करता है। जब एक अधिक उन्नत बैकबोन के साथ संयुक्त होता है, तो रेटूल (डीपसेक-आर 1-डिस्टिल-क्वेन -32 बी) ने AIME2024 पर 72.5% के स्कोर के साथ प्रदर्शन में सुधार किया और Aime2025 पर 54.3%।
अंत में, शोधकर्ताओं ने रेटूल, एक उपन्यास आरएल फ्रेमवर्क पेश किया, जो एलएलएम को प्रभावी कोड दुभाषिया उपयोग के माध्यम से अपने गणितीय तर्क क्षमताओं को आत्म-वृद्धि करने के लिए सशक्त बनाता है। AIME2024 और AIME2025 पर प्रयोगों से पता चलता है कि रेटूल पारंपरिक पाठ-आधारित आरएल दृष्टिकोणों की तुलना में बेहतर सटीकता प्राप्त करता है और काफी कम प्रशिक्षण चरणों के साथ अभिसरण करता है। सावधानीपूर्वक डेटा क्यूरेशन और एक विशेष उपकरण-उपयोग पाइपलाइन के माध्यम से, रेटूल मॉडल को जटिल कम्प्यूटेशनल हस्तक्षेप रणनीतियों को विकसित करने में सक्षम बनाता है, जो एलएलएम में अधिक कुशल और शक्तिशाली उपकरण-अनुमानित तर्क के लिए मार्ग प्रशस्त करता है। परिणाम प्रदर्शित करते हैं कि उपकरण-एकीकृत आरएल सटीक गणना और प्रतीकात्मक हेरफेर की आवश्यकता वाले कार्यों के लिए एलएलएम में गणितीय तर्क क्षमताओं को आगे बढ़ाने के लिए एक आशाजनक दिशा का प्रतिनिधित्व करता है।
इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।
