Saturday, April 19, 2025

यह एआई पेपर इन-टाइम-टाइम स्केलिंग तकनीक का परिचय देता है: Microsoft का जटिल कार्यों पर तर्क मॉडल का गहन मूल्यांकन – Gadgets Solutions

-

बड़े भाषा मॉडल को अक्सर उनके भाषाई प्रवाह के लिए प्रशंसा की जाती है, लेकिन फोकस का एक बढ़ता हुआ क्षेत्र उनकी तर्क क्षमता को बढ़ा रहा है-विशेष रूप से उन संदर्भों में जहां जटिल समस्या-समाधान की आवश्यकता होती है। इनमें गणितीय समीकरण और स्थानिक तर्क, पाथफाइंडिंग और संरचित योजना से जुड़े कार्य शामिल हैं। ऐसे डोमेन में, मॉडल को मानव-जैसी चरण-दर-चरण सोच का अनुकरण करना चाहिए, जहां समाधान तुरंत स्पष्ट नहीं हैं। इस प्रकार का संरचित तर्क मशीन लर्निंग रिसर्च में अध्ययन का एक महत्वपूर्ण विषय है।

मॉडल आर्किटेक्चर और ट्रेनिंग डेटासेट में प्रगति के बावजूद, मल्टी-स्टेप या उच्च-शिथिलता वाले तर्क कार्यों के साथ प्रस्तुत किए जाने पर कई भाषा मॉडल अभी भी लड़खड़ाते हैं। चुनौती यह है कि भले ही कोई मॉडल विशाल जानकारी तक पहुंच सकता है, लेकिन यह नहीं पता हो सकता है कि कई चरणों में इसका प्रभावी ढंग से उपयोग कैसे किया जाए। बाधाओं के साथ बैठक के समय का चयन करने या एनपी-हार्ड समस्याओं को हल करने जैसे कार्यों को निरंतर तार्किक अनुक्रमण की आवश्यकता होती है, जो मानक मॉडल मुश्किल पाते हैं। अधिक मापदंडों या मेमोरी को जोड़ने से कुछ क्षेत्रों में मदद मिली है, लेकिन इस तरह के क्रूर-बल समाधान अक्सर कार्य जटिलता बढ़ने पर कम रिटर्न की ओर ले जाते हैं।

यह एआई पेपर इन-टाइम-टाइम स्केलिंग तकनीक का परिचय देता है: Microsoft का जटिल कार्यों पर तर्क मॉडल का गहन मूल्यांकन
 – Gadgets Solutions

इन सीमाओं को संभालने के लिए, शोधकर्ताओं ने जटिल कार्यों के साथ बेहतर संरेखित मॉडल के लिए चेन-ऑफ-थॉट प्रॉम्प्टिंग और पोस्ट-ट्रेनिंग ललित-ट्यूनिंग जैसे उपकरणों की खोज की है। कुछ तरीकों में कई स्वतंत्र उत्तर उत्पन्न करना और फिर सबसे अधिक सही सही लेने के लिए heuristics या वोटिंग तंत्र का उपयोग करना शामिल है। अन्य लोग आत्म-प्रतिवाद के साथ प्रयोग करते हैं-मॉडल को इसके उत्तरों की आलोचना करते हुए और तदनुसार संशोधित करें। इन दृष्टिकोणों को पारंपरिक मॉडल जैसे कि GPT-4O, क्लाउड 3.5 Sonnet, और GEMINI 2.0 प्रो में अलग-अलग सफलता के साथ लागू किया गया है, लेकिन ये मॉडल अभी भी बेंचमार्क के आधार पर परिवर्तनशीलता दिखाते हैं। कुछ उदाहरणों में, लंबे समय तक आउटपुट बेहतर सटीकता में अनुवाद नहीं करता था, और टोकन दक्षता असंगत रही।

Microsoft के शोधकर्ताओं ने अनुमान-समय स्केलिंग के लिए एक कठोर मूल्यांकन ढांचा पेश किया, जिसमें नौ मॉडल और आठ जटिल कार्य बेंचमार्क शामिल हैं। इसमें पारंपरिक मॉडल की तुलना तर्क-अनुकूलित लोगों जैसे कि डीपसेक आर 1, ओ 1 और ओ 3-मिनी के खिलाफ शामिल थी। उनकी विधि में समानांतर स्केलिंग शामिल थी, जहां कई आउटपुट उत्पन्न होते हैं और एकत्र होते हैं, और अनुक्रमिक स्केलिंग, जहां मॉडल को संरचित प्रतिक्रिया के आधार पर इसके आउटपुट को संशोधित करने के लिए प्रेरित किया जाता है। बेंचमार्क को कैलेंडर योजना, गणित ओलंपियाड्स और स्थानिक तर्क जैसे डोमेन से प्राप्त किया गया था, और टीम ने एनपी-हार्ड समस्याओं के लिए दो नए डेटासेट पेश किए: 3SAT और TSP।

कार्यप्रणाली दो मुख्य रणनीतियों पर निर्भर करती है: परिणाम परिवर्तनशीलता का मूल्यांकन करने और आलोचकों का उपयोग करने के लिए कई पीढ़ियों का नमूना लेना प्रतिक्रिया-संवर्धित तर्क का अनुकरण करने के लिए। समानांतर स्केलिंग में, मॉडल कई उत्तरों को आउटपुट करता है जिनका मूल्यांकन एग्रीगेटर्स जैसे कि बहुसंख्यक वोट या बेस्ट-एन-एन का उपयोग करके किया जाता है। अनुक्रमिक स्केलिंग में, मॉडल प्रत्येक प्रयास के बाद प्रतिक्रिया प्राप्त करता है और फिर से प्रयास करने के लिए प्रेरित किया जाता है। इसने शोधकर्ताओं को वर्तमान प्रदर्शन और सुधार के लिए संभावित छत का अनुमान लगाने की अनुमति दी, यदि कम्प्यूटेशनल संसाधनों को बढ़ाया गया था। औसत और सबसे खराब-एन जैसे एग्रीगेटर्स ने यह पहचानने में मदद की कि मॉडल लगातार विफल या सफल रहे। इस दोहरे दृष्टिकोण ने अंतर्दृष्टि प्रदान की कि मॉडल कैसे अतिरिक्त निष्कर्ष चरणों का उपयोग करते हैं और क्या प्रतिक्रिया तंत्र उत्तर गुणवत्ता में सुधार करते हैं।

प्रदर्शन विश्लेषण ने मॉडल और कार्य प्रकारों के बीच महत्वपूर्ण अंतर दिखाया। GPQA बेंचमार्क पर, शीर्ष प्रदर्शन करने वाला मॉडल, O1, 90.9% सटीकता तक पहुंच गया, जबकि GPT-4O 77.7% तक पहुंच गया। टीएसपी डेटासेट पर, ओ 1 ने अधिकांश स्तरों पर 80% से ऊपर की सटीकता बनाए रखी, जबकि जीपीटी -4 ओ का प्रदर्शन केवल तभी चरम पर पहुंच गया जब 20 से अधिक इन्फ्रेंस कॉल के साथ सुपरस्केल किया गया। बीए कैलेंडर में, डीपसेक आर 1 ने 88.5% सटीकता हासिल की, क्लाउड 3.7 सॉनेट और मिथुन 2.0 प्रो से बेहतर प्रदर्शन किया। हालांकि, परिणामों से यह भी पता चला कि बढ़े हुए टोकन उपयोग ने उच्च सटीकता की गारंटी नहीं दी। उदाहरण के लिए, डीपसेक आर 1 ने क्लाउड 3.7 सॉनेट की तुलना में काफी अधिक टोकन का सेवन किया, लेकिन केवल कुछ गणित कार्यों में मामूली रूप से बेहतर प्रदर्शन किया। यहां तक ​​कि एक एकल मॉडल के भीतर, एक ही प्रश्न पर बार-बार किए गए प्रयासों ने टोकन की गिनती में उच्च भिन्नता दिखाई, जिससे वास्तविक दुनिया के अनुप्रयोगों के लिए लागत की भविष्यवाणी के बारे में चिंताएं बढ़ गईं।

यह अध्ययन पारंपरिक और तर्क-संवर्धित मॉडल के बीच की खाई को रेखांकित करता है और उस पर प्रकाश डालता है जो बुद्धिमान स्केलिंग-न केवल अधिक टोकन-जटिल कार्य प्रदर्शन में सुधार कर सकता है। शोधकर्ताओं ने दिखाया कि फीडबैक लूप और मजबूत वेरिफायर मुश्किल डोमेन में भी मॉडल सटीकता में पर्याप्त लाभ प्रदान करते हैं। उनके निष्कर्षों से पता चलता है कि तर्क मॉडल में अभी भी सुधार के लिए हेडरूम है, खासकर जब संरचित अनुमान रणनीतियों और लागत-कुशल टोकन प्रबंधन द्वारा निर्देशित किया जाता है।


चेक आउट कागज और github। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »