Wednesday, April 16, 2025

एलएलएम रीजनिंग बेंचमार्क सांख्यिकीय रूप से नाजुक हैं: नए अध्ययन से पता चलता है कि सुदृढीकरण सीखना आरएल लाभ अक्सर यादृच्छिक विचरण के भीतर होता है – Gadgets Solutions

-

बड़े भाषा मॉडल में प्रगति के लिए तर्क क्षमताएं केंद्रीय हो गई हैं, प्रमुख अनुसंधान प्रयोगशालाओं द्वारा विकसित AI सिस्टम में महत्वपूर्ण है। एलएलएम तर्क क्षमताओं को समझने और बढ़ाने पर केंद्रित अनुसंधान में वृद्धि के बावजूद, महत्वपूर्ण कार्यप्रणाली चुनौतियां इन क्षमताओं का सही मूल्यांकन करने में बनी रहती हैं। क्षेत्र में गैर-पूर्ववर्ती या अनिर्णायक आकलन के रूप में मूल्यांकन कठोरता के बारे में बढ़ती चिंताओं का सामना करना पड़ता है, जो वैज्ञानिक समझ को विकृत करने, गोद लेने के फैसलों को गलत तरीके से विकृत करने और भविष्य की अनुसंधान प्राथमिकताओं को तिरछा करता है। एलएलएम तर्क के तेजी से विकसित होने वाले परिदृश्य में, जहां त्वरित प्रकाशन चक्र और बेंचमार्किंग प्रतियोगिताएं आम हैं, मेथोडोलॉजिकल शॉर्टकट चुपचाप वास्तविक प्रगति को कम कर सकते हैं। जबकि एलएलएम मूल्यांकन में प्रतिलिपि प्रस्तुत करने योग्य मुद्दों को प्रलेखित किया गया है, उनकी निरंतर उपस्थिति – विशेष रूप से तर्क कार्यों में -विशेष रूप से बढ़ती है कि यह सुनिश्चित करने के लिए कि रिपोर्ट की गई प्रगति की सूचना दी गई है, यह सुनिश्चित करने के लिए कि अधिक कड़े मूल्यांकन मानकों को बढ़ाया है।

भाषा मॉडल में तर्क क्षमताओं को बढ़ाने के लिए कई दृष्टिकोण उभरे हैं, पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) और सुदृढीकरण सीखने (आरएल) के साथ ब्याज के प्राथमिक तरीके हैं। हाल ही में नवाचारों ने LCPO, RENFORCE ++, DAPO और VINEPPO जैसे अभिनव आरएल एल्गोरिदम के माध्यम से दीपसेक-आर 1 नुस्खा पर विस्तार किया है। शोधकर्ताओं ने आरएल डिजाइन रिक्त स्थान, डेटा स्केलिंग ट्रेंड, पाठ्यक्रम और इनाम तंत्र की खोज करने वाले अनुभवजन्य अध्ययन भी किए हैं। इन प्रगति के बावजूद, क्षेत्र महत्वपूर्ण मूल्यांकन चुनौतियों का सामना करता है। मशीन लर्निंग की प्रगति में अक्सर कठोर मूल्यांकन का अभाव होता है, कई रिपोर्ट किए गए लाभों को अच्छी तरह से ट्यून किए गए आधारभूतों के खिलाफ परीक्षण करने में विफल होने के साथ। आरएल एल्गोरिदम विशेष रूप से कार्यान्वयन विवरण में भिन्नता के लिए अतिसंवेदनशील होते हैं, जिसमें यादृच्छिक बीज भी शामिल हैं, बेंचमार्किंग प्रथाओं की विश्वसनीयता के बारे में चिंताएं बढ़ाते हैं।

तर्क अनुसंधान में असंगत दावों से प्रेरित होकर, टुबिंगन एआई सेंटर, यूनिवर्सिटी ऑफ टुबिंगन और कैम्ब्रिज विश्वविद्यालय के शोधकर्ताओं द्वारा इस अध्ययन ने गणितीय तर्क बेंचमार्क में कठोर जांच का संचालन किया, यह खुलासा करता है कि कई हालिया अनुभवजन्य निष्कर्ष सावधानीपूर्वक मूल्यांकन के तहत विफल होते हैं। विश्लेषण एलएलएम तर्क पाइपलाइनों में मामूली डिजाइन विकल्पों के लिए आश्चर्यजनक संवेदनशीलता की पहचान करता है, जिसमें डिकोडिंग पैरामीटर, शीघ्र स्वरूपण, यादृच्छिक बीज और हार्डवेयर कॉन्फ़िगरेशन शामिल हैं। छोटे बेंचमार्क आकार इस अस्थिरता में महत्वपूर्ण रूप से योगदान करते हैं, एकल प्रश्न संभावित रूप से Aime’24 और AMC’23 जैसे डेटासेट पर 3 प्रतिशत से अधिक अंक से पास@1 स्कोर को स्थानांतरित करते हैं। यह बीजों में दोहरे अंकों के प्रदर्शन विविधता की ओर जाता है, प्रकाशित परिणामों को कम करता है। अध्ययन व्यवस्थित रूप से इन अस्थिरता स्रोतों का विश्लेषण करता है और तर्क मूल्यांकन में प्रजनन और कठोरता में सुधार के लिए सर्वोत्तम प्रथाओं का प्रस्ताव करता है, जो अधिक नियंत्रित परिस्थितियों में हाल की तकनीकों का पुनर्मूल्यांकन करने के लिए एक मानकीकृत रूपरेखा प्रदान करता है।

एलएलएम रीजनिंग बेंचमार्क सांख्यिकीय रूप से नाजुक हैं: नए अध्ययन से पता चलता है कि सुदृढीकरण सीखना आरएल लाभ अक्सर यादृच्छिक विचरण के भीतर होता है
 – Gadgets Solutions

अध्ययन एक मानकीकृत प्रयोगात्मक ढांचे के माध्यम से भाषा मॉडल में तर्क प्रदर्शन को प्रभावित करने वाले डिजाइन कारकों की पड़ताल करता है। 1.5B और 7B पैरामीटर कक्षाओं में नौ व्यापक रूप से उपयोग किए जाने वाले मॉडल का मूल्यांकन किया गया था, जिसमें दीपसेक-आर 1-डिस्टिल वेरिएंट, डीपस्केलर-1.5 बी, II-1.5 बी-प्रीव्यू, ओपनआरएस मॉडल, एस 1.1-7 बी, और ओपेंथिंकर 7 बी शामिल हैं। लगातार हार्डवेयर (A100 GPU, AMD CPU) और सॉफ़्टवेयर कॉन्फ़िगरेशन का उपयोग करते हुए, मॉडल को Aime’24, AMC’23, और Math500 डेटासेट पर PASS@1 मेट्रिक्स का उपयोग करके बेंचमार्क किया गया था। विश्लेषण में यादृच्छिक बीजों में महत्वपूर्ण प्रदर्शन विचरण का पता चला, जिसमें मानक विचलन 5 से 15 प्रतिशत तक थे। इस अस्थिरता को विशेष रूप से छोटे डेटासेट में स्पष्ट किया जाता है जहां एक एकल प्रश्न 2.5-3.3 प्रतिशत अंक द्वारा प्रदर्शन को स्थानांतरित कर सकता है, जिससे एकल-बीज मूल्यांकन अविश्वसनीय हो जाता है।

कठोर मानकीकृत मूल्यांकन के आधार पर, अध्ययन से भाषा मॉडल में वर्तमान तर्क पद्धति के बारे में कई प्रमुख निष्कर्षों का पता चलता है। डीपसेक आर 1-डिस्टिल मॉडल के अधिकांश आरएल-प्रशिक्षित वेरिएंट सार्थक प्रदर्शन में सुधार प्रदान करने में विफल रहते हैं, केवल डीपस्केलर के साथ बेंचमार्क में मजबूत, महत्वपूर्ण लाभ का प्रदर्शन करता है। जबकि आरएल प्रशिक्षण QWEN2.5 जैसे मॉडल पर लागू होने पर बेस मॉडल प्रदर्शन में काफी सुधार कर सकता है, इंस्ट्रक्शन ट्यूनिंग आमतौर पर बेहतर रहता है, खुले तर्क-शून्य -7 बी उल्लेखनीय अपवाद होता है। इसके विपरीत, SFT लगातार सभी बेंचमार्क में निर्देश-ट्यून बेसलाइन को बेहतर बनाता है और Aime’25 जैसे नए डेटासेट को अच्छी तरह से सामान्य करता है, एक प्रशिक्षण प्रतिमान के रूप में इसकी मजबूती को उजागर करता है। आरएल-प्रशिक्षित मॉडल Aime’24 और अधिक चुनौतीपूर्ण Aime’25 के बीच प्रदर्शन ड्रॉप दिखाते हैं, जो प्रशिक्षण वितरण के लिए समस्याग्रस्त ओवरफिटिंग का संकेत देते हैं। जांच की गई अतिरिक्त घटनाओं में प्रतिक्रिया लंबाई और सटीकता के बीच संबंध शामिल है, जिसमें लंबे समय तक सभी मॉडल प्रकारों में उच्च त्रुटि दर दिखाते हैं।

इस व्यापक विश्लेषण से पता चलता है कि एलएलएम-आधारित तर्क में स्पष्ट प्रगति अस्थिर नींवों पर बनाई गई है, जिसमें प्रदर्शन मैट्रिक्स मूल्यांकन प्रोटोकॉल में मामूली बदलाव के लिए अतिसंवेदनशील हैं। जांच से पता चलता है कि सुदृढीकरण सीखने के दृष्टिकोण से विशिष्ट बेंचमार्क के लिए सबसे अच्छे और अक्सर प्रदर्शन को प्रदर्शित करते हुए मामूली सुधार मिलते हैं, जबकि पर्यवेक्षण लगातार-ट्यूनिंग लगातार मजबूत, सामान्य प्रदर्शन लाभ प्राप्त करता है। अधिक विश्वसनीय मूल्यांकन मानकों को स्थापित करने के लिए, डॉकरेटेड वातावरण, बीज-औसत मैट्रिक्स और पारदर्शी प्रोटोकॉल के साथ मानकीकृत मूल्यांकन ढांचे आवश्यक हैं। ये निष्कर्ष लीडरबोर्ड प्रतियोगिता पर कार्यप्रणाली कठोरता की महत्वपूर्ण आवश्यकता को उजागर करते हैं ताकि यह सुनिश्चित हो सके कि तर्क क्षमताओं में दावा किया गया प्रगति असंगत मूल्यांकन प्रथाओं की कलाकृतियों के बजाय वास्तविक प्रगति को दर्शाती है।


यह रहा पेपर, GitHub पेज और लीडरबोर्ड। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »