Wednesday, April 16, 2025

भाषा मॉडल में सटीकता और दक्षता को संतुलित करना: संक्षिप्त तर्क के लिए एक दो-चरण आरएल पोस्ट-ट्रेनिंग दृष्टिकोण – Gadgets Solutions

-

एलएलएम में हाल की प्रगति ने उनकी तर्क क्षमताओं को काफी बढ़ाया है, विशेष रूप से आरएल-आधारित फाइन-ट्यूनिंग के माध्यम से। प्रारंभ में टोकन भविष्यवाणी के लिए पर्यवेक्षित सीखने के साथ प्रशिक्षित, ये मॉडल आरएल पोस्ट-ट्रेनिंग से गुजरते हैं, सही उत्तरों पर पहुंचने के लिए विभिन्न तर्क पथों की खोज करते हैं, जैसे कि एक एजेंट एक गेम को कैसे नेविगेट करता है। यह प्रक्रिया आत्म-सुधार जैसे उभरती हुई व्यवहार की ओर ले जाती है, जिसे अक्सर “अहा क्षण” कहा जाता है, जहां मॉडल स्पष्ट निर्देश के बिना अपनी गलतियों को संशोधित करना शुरू कर देते हैं। हालांकि यह सटीकता में सुधार करता है, यह बहुत अधिक प्रतिक्रियाओं में भी परिणाम करता है, टोकन उपयोग, कम्प्यूटेशनल लागत और विलंबता को बढ़ाता है। उन धारणाओं के बावजूद जो लंबे समय तक आउटपुट बेहतर तर्क के बराबर हैं, अनुसंधान मिश्रित परिणाम दिखाता है – कुछ सुधार देखे जाते हैं, लेकिन अत्यधिक लंबे उत्तर भी प्रदर्शन को कम कर सकते हैं, जो कम रिटर्न का संकेत देते हैं।

शोधकर्ता इसे संबोधित करने के लिए तर्क गुणवत्ता और दक्षता को संतुलित करने के तरीके खोज रहे हैं। विधियों में छोटे, तेज मॉडल का उपयोग करना, वर्बोसिटी को कम करने के लिए प्रॉम्प्ट इंजीनियरिंग को लागू करना, और इनाम के आकार की तकनीक विकसित करना, संक्षिप्त अभी तक प्रभावी तर्क को प्रोत्साहित करना शामिल है। एक उल्लेखनीय दृष्टिकोण लंबे समय से छोटा आसवन है, जहां मॉडल विस्तृत स्पष्टीकरण से सीखते हैं और छोटे अभी तक सटीक उत्तर देने के लिए प्रशिक्षित होते हैं। इन तकनीकों का उपयोग करते हुए, किमी जैसे मॉडलों ने कम टोकन का सेवन करते हुए GPT-4 जैसे बड़े मॉडलों के खिलाफ भी प्रतिस्पर्धी प्रदर्शन का प्रदर्शन किया है। अध्ययन “टोकन जटिलता” की अवधारणा को भी उजागर करते हैं, जिसमें दिखाया गया है कि समस्याओं को सटीक संकल्प के लिए न्यूनतम टोकन सीमा की आवश्यकता होती है, और शापितता के उद्देश्य से त्वरित रणनीतियों को अक्सर इस इष्टतम बिंदु से कम हो जाता है। कुल मिलाकर, निष्कर्ष प्रदर्शन से समझौता किए बिना अधिक कुशल तर्क विधियों को विकसित करने के महत्व पर जोर देते हैं।

वैंड एआई के शोधकर्ता इस विश्वास को चुनौती देते हैं कि लंबे समय तक प्रतिक्रियाएं स्वाभाविक रूप से बड़ी भाषा मॉडल में बेहतर तर्क देती हैं। सैद्धांतिक विश्लेषण और प्रयोगों के माध्यम से, वे दिखाते हैं कि यह वर्बोसिटी सटीकता के लिए एक आवश्यकता के बजाय आरएल अनुकूलन का एक उप-उत्पाद है। दिलचस्प बात यह है कि संक्षिप्त उत्तर अक्सर उच्च शुद्धता के साथ सहसंबंधित होते हैं, और सही प्रतिक्रियाएं गलत लोगों की तुलना में कम होती हैं। वे एक दो-चरण आरएल प्रशिक्षण दृष्टिकोण का प्रस्ताव करते हैं: पहला चरण तर्क क्षमता को बढ़ाता है, जबकि दूसरा एक छोटे डेटासेट का उपयोग करके संक्षिप्तता को लागू करता है। यह विधि सटीकता का त्याग किए बिना प्रतिक्रिया की लंबाई को कम करती है, न्यूनतम कम्प्यूटेशनल लागत के साथ बेहतर दक्षता और प्रदर्शन की पेशकश करती है।

लंबी प्रतिक्रियाएं हमेशा भाषा मॉडल में बेहतर प्रदर्शन नहीं करती हैं। आरएल पोस्ट-ट्रेनिंग सटीकता को बनाए रखने या सुधारने के दौरान प्रतिक्रिया की लंबाई को कम करने के लिए, विशेष रूप से प्रशिक्षण में जल्दी। यह इस विश्वास को गिनता है कि शुद्धता के लिए लंबी तर्क श्रृंखलाएं आवश्यक हैं। घटना को “डेडेंड” से जोड़ा जाता है, जहां अत्यधिक लंबे आउटपुट जोखिम को बंद कर देते हैं। मार्कोव निर्णय प्रक्रियाओं के रूप में भाषा कार्यों का विश्लेषण करने से पता चलता है कि आरएल नुकसान को कम करता है, लंबाई नहीं, और लंबे समय तक आउटपुट केवल तब उत्पन्न होते हैं जब पुरस्कार लगातार नकारात्मक होते हैं। एक दो-चरण आरएल रणनीति-कठिन समस्याओं पर पहली बार, फिर सॉल्वेबल लोगों पर-अंततः शालीनता और मजबूती को बढ़ावा देने के दौरान तर्क को बढ़ावा दे सकता है।

दो-चरण आरएल रणनीति ने विभिन्न मॉडल आकारों में उल्लेखनीय प्रदर्शन लाभ का नेतृत्व किया। अलग -अलग कठिनाई के स्तर पर प्रशिक्षण से पता चला कि आसान समस्याओं ने मॉडल को सटीकता को बनाए रखने या सुधारते हुए प्रतिक्रियाओं को कम करने में मदद की। सिर्फ आठ गणित की समस्याओं का उपयोग करते हुए एक दूसरा आरएल चरण MMLU से STEM कार्यों में देखे गए समान रुझानों के साथ Aime, AMC और Math-500 जैसे बेंचमार्क में अधिक संक्षिप्त और मजबूत आउटपुट का उत्पादन करता है। यहां तक ​​कि न्यूनतम आरएल पोस्ट-ट्रेनिंग ने कम तापमान के नमूने के तहत सटीकता और स्थिरता में सुधार किया। इसके अलावा, पूर्व आरएल शोधन के बिना मॉडल, जैसे कि Qwen-Math-V2.5, ने केवल चार गणित समस्याओं पर प्रशिक्षण से 30% तक बड़ी सटीकता को बढ़ावा दिया।

भाषा मॉडल में सटीकता और दक्षता को संतुलित करना: संक्षिप्त तर्क के लिए एक दो-चरण आरएल पोस्ट-ट्रेनिंग दृष्टिकोण
 – Gadgets Solutions

अंत में, अध्ययन एक दो-चरण आरएल पोस्ट-ट्रेनिंग विधि प्रस्तुत करता है जो भाषा मॉडल में तर्क और संक्षिप्तता में सुधार करता है। पहला चरण सटीकता को बढ़ाता है, जबकि दूसरा प्रदर्शन का त्याग किए बिना प्रतिक्रियाओं को छोटा करने पर केंद्रित है। R1 मॉडल पर लागू, इस दृष्टिकोण ने सटीकता को बनाए रखते हुए प्रतिक्रिया की लंबाई को 40% से कम कर दिया, विशेष रूप से कम तापमान पर। निष्कर्षों से पता चलता है कि लंबे उत्तर स्वाभाविक रूप से बेहतर नहीं हैं और लक्षित आरएल संक्षिप्त तर्क प्राप्त कर सकता है। अध्ययन में यह भी कहा गया है कि यहां तक ​​कि न्यूनतम आरएल प्रशिक्षण भी गैर-पुनर्जन्म मॉडल को लाभान्वित कर सकता है, जिसमें मामूली सॉल्वेबल समस्याओं को शामिल करने और पीपीओ मापदंडों को ध्यान से ट्यूनिंग करने के मूल्य पर जोर दिया जा सकता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🚨) सिफारिश की गई पढ़ें) बोसोन एआई ने हिग्स ऑडियो अंडरस्टैंडिंग और हिग्स ऑडियो जनरेशन को अपने रीज़निंग एन्हांसमेंट्स (प्रायोजित) के साथ शीर्ष स्कोर (60.3 औसत एयरबेंच फाउंडेशन पर 60.3 औसत) प्राप्त करने का परिचय दिया।


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »