Monday, April 21, 2025

एलएलएम अब न्यूनतम डेटा के साथ चुनौतीपूर्ण गणित की समस्याओं को हल कर सकते हैं: यूसी बर्कले और एआई 2 के शोधकर्ताओं ने एक बढ़िया-ट्यूनिंग नुस्खा का अनावरण किया जो कठिनाई स्तरों पर गणितीय तर्क को अनलॉक करता है – Gadgets Solutions

-

भाषा मॉडल ने तर्क कार्यों से निपटने में महत्वपूर्ण प्रगति की है, यहां तक ​​कि छोटे पैमाने पर पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) दृष्टिकोण जैसे कि लिमो और एस 1 गणितीय समस्या-समाधान क्षमताओं में उल्लेखनीय सुधारों का प्रदर्शन करते हैं। हालांकि, इन प्रगति के बारे में मौलिक प्रश्न बने हुए हैं: क्या ये मॉडल वास्तव में उनके प्रशिक्षण डेटा से परे सामान्यीकरण करते हैं, या वे केवल परीक्षण करने के लिए ओवरफिटिंग कर रहे हैं? अनुसंधान समुदाय को यह समझने में चुनौतियों का सामना करना पड़ता है कि कौन सी क्षमताओं को छोटे पैमाने पर SFT के माध्यम से बढ़ाया जाता है और इन सुधारों के बावजूद कौन सी सीमाएं बनी रहती हैं। लोकप्रिय बेंचमार्क पर प्रभावशाली प्रदर्शन के बावजूद, इन ठीक ट्यून किए गए मॉडल की विशिष्ट ताकत और कमजोरियों की अपूर्ण समझ है, जो उनकी वास्तविक तर्क क्षमताओं और व्यावहारिक सीमाओं के बारे में ज्ञान में एक महत्वपूर्ण अंतर पैदा करती है।

सरल बेंचमार्क स्कोर से परे तर्क-आधारित पर्यवेक्षित फाइन-ट्यूनिंग के प्रभावों को समझने के लिए विभिन्न प्रयास किए गए हैं। शोधकर्ताओं ने सवाल किया है कि क्या एसएफटी केवल पहले देखी गई समस्या प्रकारों पर प्रदर्शन में सुधार करता है या वास्तव में मॉडल को नए संदर्भों में समस्या-समाधान रणनीतियों को स्थानांतरित करने में सक्षम बनाता है, जैसे कि ज्यामिति में समन्वय-आधारित तकनीकों को लागू करना। मौजूदा तरीके शुद्धता, समाधान लंबाई और प्रतिक्रिया विविधता जैसे कारकों पर ध्यान केंद्रित करते हैं, जो प्रारंभिक अध्ययन एसएफटी के माध्यम से मॉडल सुधार में महत्वपूर्ण भूमिका निभाते हैं। हालांकि, इन दृष्टिकोणों में यह निर्धारित करने के लिए आवश्यक दानेदारता की कमी होती है कि ठीक-ठाक-ट्यूनिंग के बाद किस प्रकार के पहले के अयोग्य प्रश्न हल हो जाते हैं, और व्यापक प्रशिक्षण के बावजूद कौन सी समस्या श्रेणियां सुधार के लिए प्रतिरोधी बनी हुई हैं। अनुसंधान समुदाय अभी भी यह स्थापित करने के लिए संघर्ष करता है कि क्या देखा गया सुधार गहन सीखने को दर्शाता है या प्रशिक्षण प्रक्षेपवक्रों की संस्मरण, अधिक परिष्कृत विश्लेषण विधियों की आवश्यकता को उजागर करता है।

कैलिफोर्निया विश्वविद्यालय, बर्कले और एलेन इंस्टीट्यूट फॉर एआई के शोधकर्ता यह जांचने के लिए एक टियर विश्लेषण ढांचे का प्रस्ताव करते हैं कि कैसे पर्यवेक्षित फाइन-ट्यूनिंग भाषा मॉडल में तर्क क्षमताओं को प्रभावित करता है। यह दृष्टिकोण का उपयोग करता है Aime24 डेटासेट, तर्क अनुसंधान में इसकी जटिलता और व्यापक उपयोग के लिए चुना गया, जो एक सीढ़ी जैसी संरचना को प्रदर्शित करता है, जहां उच्च स्तरीय प्रश्नों को हल करने वाले मॉडल आमतौर पर निचले स्तर के लोगों पर सफल होते हैं। प्रश्नों को चार कठिनाई स्तरों में वर्गीकृत करके, आसान, मध्यम, कठोर और exh, अध्ययन व्यवस्थित रूप से स्तरों के बीच आगे बढ़ने के लिए विशिष्ट आवश्यकताओं की जांच करता है। विश्लेषण से पता चलता है कि आसान से मध्यम तक की प्रगति को मुख्य रूप से लंबे समय तक अनुमान के संदर्भ के साथ एक आर 1 तर्क शैली को अपनाने की आवश्यकता होती है, जबकि हार्ड-लेवल प्रश्न गहरी खोज के दौरान अधिक कम्प्यूटेशनल स्थिरता की मांग करते हैं। Exh- स्तर के प्रश्न एक मौलिक रूप से अलग चुनौती पेश करते हैं, जिसमें अपरंपरागत समस्या-समाधान रणनीतियों की आवश्यकता होती है जो वर्तमान मॉडल समान रूप से संघर्ष करते हैं। अनुसंधान चार प्रमुख अंतर्दृष्टि की भी पहचान करता है: छोटे पैमाने पर एसएफटी मॉडल में संभावित और स्थिरता के बीच प्रदर्शन अंतर, सावधान डेटासेट क्यूरेशन से न्यूनतम लाभ, एसएफटी डेटासेट को स्केल करने से रिटर्न कम करना, और संभावित खुफिया बाधाओं को जो अकेले एसएफटी के माध्यम से दूर नहीं किया जा सकता है।

एलएलएम अब न्यूनतम डेटा के साथ चुनौतीपूर्ण गणित की समस्याओं को हल कर सकते हैं: यूसी बर्कले और एआई 2 के शोधकर्ताओं ने एक बढ़िया-ट्यूनिंग नुस्खा का अनावरण किया जो कठिनाई स्तरों पर गणितीय तर्क को अनलॉक करता है
 – Gadgets Solutions

कार्यप्रणाली प्राथमिक परीक्षण बेंचमार्क के रूप में Aime24 डेटासेट का उपयोग करके एक व्यापक स्तरीय विश्लेषण को नियोजित करती है। यह विकल्प तीन प्रमुख विशेषताओं से उपजा है: डेटासेट की पदानुक्रमित कठिनाई जो कि अत्याधुनिक मॉडल, गणितीय डोमेन के अपने विविध कवरेज और हाई स्कूल गणित पर इसका ध्यान केंद्रित करने वाली पदानुक्रमित कठिनाई है जो डोमेन-विशिष्ट ज्ञान से शुद्ध तर्क क्षमता को अलग करती है। QWEN2.5-32 B-INSTRUCT अपने व्यापक रूप से अपनाने और अंतर्निहित संज्ञानात्मक व्यवहारों के कारण आधार मॉडल के रूप में कार्य करता है, जिसमें सत्यापन, बैकट्रैकिंग और सबगोइल सेटिंग शामिल हैं। फाइन-ट्यूनिंग डेटा में OpenR1-Math-220K डेटासेट से प्रश्न-प्रतिक्रिया जोड़े होते हैं, विशेष रूप से NumInamath1.5 से समस्याओं के लिए DeepSeek R1 द्वारा उत्पन्न COT प्रक्षेपवक्रों का उपयोग करते हुए, गलत समाधानों के साथ फ़िल्टर किए गए। प्रशिक्षण कॉन्फ़िगरेशन 1 × 10, 5 की सीखने की दर, 1 × 10−4 का वजन क्षय, 32 का बैच आकार, और 5 युगों के साथ पूर्व अध्ययन को दर्शाता है। प्रदर्शन मूल्यांकन AVG@N (कई प्रयासों पर औसत पास दर) और COV@N मेट्रिक्स को नियोजित करता है, जिसमें मॉडल प्रदर्शन पैटर्न के आधार पर चार कठिनाई स्तरों (आसान, मध्यम, कठिन और बेहद कठिन) में वर्गीकृत किए गए प्रश्न हैं।

अनुसंधान परिणामों से पता चलता है कि आसान से मध्यम-स्तरीय गणितीय समस्या-समाधान के लिए प्रभावी प्रगति के लिए न्यूनतम लेकिन विशिष्ट स्थितियों की आवश्यकता होती है। अध्ययन ने व्यवस्थित रूप से कई प्रशिक्षण चर की जांच की, जिसमें विविध गणितीय श्रेणियों में मूलभूत ज्ञान, डेटासेट आकार भिन्नताएं (प्रति श्रेणी 100-1000 उदाहरण), प्रक्षेपवक्र लंबाई (लघु, सामान्य या लंबी), और प्रक्षेपवक्र शैली (मिथुन-फ्लैश के साथ डीपसेक-आर 1 की तुलना) शामिल हैं। व्यापक एब्लेशन अध्ययनों के माध्यम से, शोधकर्ताओं ने मॉडल के प्रदर्शन पर प्रत्येक आयाम के प्रभाव को अलग कर दिया, जिसे पी = एफ (सी, एन, एल, एस) के रूप में दर्शाया गया है, जहां सी श्रेणी का प्रतिनिधित्व करता है, एन प्रक्षेपवक्रों की संख्या का प्रतिनिधित्व करता है, एल लंबाई का प्रतिनिधित्व करता है, और एस शैली का प्रतिनिधित्व करता है। निष्कर्षों से पता चलता है कि मध्यम-स्तरीय प्रश्नों पर प्रदर्शन% 90% प्राप्त करने के लिए न्यूनतम गणितीय श्रेणी की परवाह किए बिना कम से कम 500 सामान्य या लंबे आर 1-शैली के प्रक्षेपवक्र की आवश्यकता होती है। मॉडल लगातार प्रदर्शन थ्रेसहोल्ड को पूरा करने में विफल होते हैं, जब कम प्रक्षेपवक्र, छोटे प्रक्षेपवक्र, या मिथुन-शैली के प्रक्षेपवक्रों के साथ प्रशिक्षित होते हैं। यह इंगित करता है कि तर्क प्रक्षेपवक्र लंबाई और मात्रा गणितीय तर्क क्षमताओं को विकसित करने में महत्वपूर्ण कारकों का प्रतिनिधित्व करते हैं, जबकि प्रक्षेपवक्रों का विशिष्ट विषय उनकी संरचनात्मक विशेषताओं की तुलना में कम महत्वपूर्ण साबित होता है।

अनुसंधान से पता चलता है कि छोटे पैमाने पर पर्यवेक्षित फाइन-ट्यूनिंग वाले मॉडल संभावित रूप से कई प्रश्नों को हल कर सकते हैं जैसे कि डीपसेक-आर 1 जैसे अधिक परिष्कृत मॉडल, हालांकि महत्वपूर्ण चुनौतियां बनी हुई हैं। पहचान की गई प्राथमिक सीमा क्षमता के बजाय गणितीय तर्क में अस्थिरता है। प्रायोगिक परिणाम बताते हैं कि ज्यामिति-प्रशिक्षित मॉडल 90 का कवरेज स्कोर प्राप्त कर सकते हैं, जब कई प्रयास दिए जाने पर R1 के प्रदर्शन से मेल खाते हैं, फिर भी उनकी समग्र सटीकता 20%से अधिक है। यह प्रदर्शन अंतर मुख्य रूप से जटिल समस्या-समाधान के दौरान गहरी खोज और कम्प्यूटेशनल सीमाओं में अस्थिरता से उपजा है। SFT डेटासेट आकार में वृद्धि एक समाधान पथ प्रदान करती है, प्रदर्शन वृद्धि कम रिटर्न के साथ एक लॉगरिदमिक स्केलिंग प्रवृत्ति का अनुसरण करती है। विशेष रूप से, अध्ययन सावधानीपूर्वक डेटासेट क्यूरेशन के महत्व के बारे में हाल के दावे को चुनौती देता है, यह बताते हुए कि विभिन्न गणितीय श्रेणियों में प्रदर्शन 55%4%की एक संकीर्ण सीमा के भीतर सुसंगत है, विशेष रूप से समान डेटासेट और यादृच्छिक रूप से निर्मित लोगों के बीच केवल सीमांत अंतर के साथ। इस निष्कर्ष से पता चलता है कि तर्क प्रक्षेपवक्रों की मात्रा और गुणवत्ता मजबूत गणितीय तर्क क्षमताओं को विकसित करने के लिए विषय-विशिष्ट सामग्री से अधिक मायने रखती है।


यह रहा कागज़ और गीथब पेज। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »