यह एआई पेपर इन-टाइम-टाइम स्केलिंग तकनीक का परिचय देता है: Microsoft का जटिल कार्यों पर तर्क मॉडल का गहन मूल्यांकन – Gadgets Solutions

बड़े भाषा मॉडल को अक्सर उनके भाषाई प्रवाह के लिए प्रशंसा की जाती है, लेकिन फोकस का एक बढ़ता हुआ क्षेत्र उनकी तर्क क्षमता को बढ़ा रहा है-विशेष रूप से उन संदर्भों में जहां जटिल समस्या-समाधान की आवश्यकता होती है। इनमें गणितीय समीकरण और स्थानिक तर्क, पाथफाइंडिंग और संरचित योजना से जुड़े कार्य शामिल हैं। ऐसे डोमेन में, मॉडल को मानव-जैसी चरण-दर-चरण सोच का अनुकरण करना चाहिए, जहां समाधान तुरंत स्पष्ट नहीं हैं। इस प्रकार का संरचित तर्क मशीन लर्निंग रिसर्च में अध्ययन का एक महत्वपूर्ण विषय है।

मॉडल आर्किटेक्चर और ट्रेनिंग डेटासेट में प्रगति के बावजूद, मल्टी-स्टेप या उच्च-शिथिलता वाले तर्क कार्यों के साथ प्रस्तुत किए जाने पर कई भाषा मॉडल अभी भी लड़खड़ाते हैं। चुनौती यह है कि भले ही कोई मॉडल विशाल जानकारी तक पहुंच सकता है, लेकिन यह नहीं पता हो सकता है कि कई चरणों में इसका प्रभावी ढंग से उपयोग कैसे किया जाए। बाधाओं के साथ बैठक के समय का चयन करने या एनपी-हार्ड समस्याओं को हल करने जैसे कार्यों को निरंतर तार्किक अनुक्रमण की आवश्यकता होती है, जो मानक मॉडल मुश्किल पाते हैं। अधिक मापदंडों या मेमोरी को जोड़ने से कुछ क्षेत्रों में मदद मिली है, लेकिन इस तरह के क्रूर-बल समाधान अक्सर कार्य जटिलता बढ़ने पर कम रिटर्न की ओर ले जाते हैं।

यह एआई पेपर इन-टाइम-टाइम स्केलिंग तकनीक का परिचय देता है: Microsoft का जटिल कार्यों पर तर्क मॉडल का गहन मूल्यांकन
– Gadgets Solutions

इन सीमाओं को संभालने के लिए, शोधकर्ताओं ने जटिल कार्यों के साथ बेहतर संरेखित मॉडल के लिए चेन-ऑफ-थॉट प्रॉम्प्टिंग और पोस्ट-ट्रेनिंग ललित-ट्यूनिंग जैसे उपकरणों की खोज की है। कुछ तरीकों में कई स्वतंत्र उत्तर उत्पन्न करना और फिर सबसे अधिक सही सही लेने के लिए heuristics या वोटिंग तंत्र का उपयोग करना शामिल है। अन्य लोग आत्म-प्रतिवाद के साथ प्रयोग करते हैं-मॉडल को इसके उत्तरों की आलोचना करते हुए और तदनुसार संशोधित करें। इन दृष्टिकोणों को पारंपरिक मॉडल जैसे कि GPT-4O, क्लाउड 3.5 Sonnet, और GEMINI 2.0 प्रो में अलग-अलग सफलता के साथ लागू किया गया है, लेकिन ये मॉडल अभी भी बेंचमार्क के आधार पर परिवर्तनशीलता दिखाते हैं। कुछ उदाहरणों में, लंबे समय तक आउटपुट बेहतर सटीकता में अनुवाद नहीं करता था, और टोकन दक्षता असंगत रही।

Microsoft के शोधकर्ताओं ने अनुमान-समय स्केलिंग के लिए एक कठोर मूल्यांकन ढांचा पेश किया, जिसमें नौ मॉडल और आठ जटिल कार्य बेंचमार्क शामिल हैं। इसमें पारंपरिक मॉडल की तुलना तर्क-अनुकूलित लोगों जैसे कि डीपसेक आर 1, ओ 1 और ओ 3-मिनी के खिलाफ शामिल थी। उनकी विधि में समानांतर स्केलिंग शामिल थी, जहां कई आउटपुट उत्पन्न होते हैं और एकत्र होते हैं, और अनुक्रमिक स्केलिंग, जहां मॉडल को संरचित प्रतिक्रिया के आधार पर इसके आउटपुट को संशोधित करने के लिए प्रेरित किया जाता है। बेंचमार्क को कैलेंडर योजना, गणित ओलंपियाड्स और स्थानिक तर्क जैसे डोमेन से प्राप्त किया गया था, और टीम ने एनपी-हार्ड समस्याओं के लिए दो नए डेटासेट पेश किए: 3SAT और TSP।

कार्यप्रणाली दो मुख्य रणनीतियों पर निर्भर करती है: परिणाम परिवर्तनशीलता का मूल्यांकन करने और आलोचकों का उपयोग करने के लिए कई पीढ़ियों का नमूना लेना प्रतिक्रिया-संवर्धित तर्क का अनुकरण करने के लिए। समानांतर स्केलिंग में, मॉडल कई उत्तरों को आउटपुट करता है जिनका मूल्यांकन एग्रीगेटर्स जैसे कि बहुसंख्यक वोट या बेस्ट-एन-एन का उपयोग करके किया जाता है। अनुक्रमिक स्केलिंग में, मॉडल प्रत्येक प्रयास के बाद प्रतिक्रिया प्राप्त करता है और फिर से प्रयास करने के लिए प्रेरित किया जाता है। इसने शोधकर्ताओं को वर्तमान प्रदर्शन और सुधार के लिए संभावित छत का अनुमान लगाने की अनुमति दी, यदि कम्प्यूटेशनल संसाधनों को बढ़ाया गया था। औसत और सबसे खराब-एन जैसे एग्रीगेटर्स ने यह पहचानने में मदद की कि मॉडल लगातार विफल या सफल रहे। इस दोहरे दृष्टिकोण ने अंतर्दृष्टि प्रदान की कि मॉडल कैसे अतिरिक्त निष्कर्ष चरणों का उपयोग करते हैं और क्या प्रतिक्रिया तंत्र उत्तर गुणवत्ता में सुधार करते हैं।

प्रदर्शन विश्लेषण ने मॉडल और कार्य प्रकारों के बीच महत्वपूर्ण अंतर दिखाया। GPQA बेंचमार्क पर, शीर्ष प्रदर्शन करने वाला मॉडल, O1, 90.9% सटीकता तक पहुंच गया, जबकि GPT-4O 77.7% तक पहुंच गया। टीएसपी डेटासेट पर, ओ 1 ने अधिकांश स्तरों पर 80% से ऊपर की सटीकता बनाए रखी, जबकि जीपीटी -4 ओ का प्रदर्शन केवल तभी चरम पर पहुंच गया जब 20 से अधिक इन्फ्रेंस कॉल के साथ सुपरस्केल किया गया। बीए कैलेंडर में, डीपसेक आर 1 ने 88.5% सटीकता हासिल की, क्लाउड 3.7 सॉनेट और मिथुन 2.0 प्रो से बेहतर प्रदर्शन किया। हालांकि, परिणामों से यह भी पता चला कि बढ़े हुए टोकन उपयोग ने उच्च सटीकता की गारंटी नहीं दी। उदाहरण के लिए, डीपसेक आर 1 ने क्लाउड 3.7 सॉनेट की तुलना में काफी अधिक टोकन का सेवन किया, लेकिन केवल कुछ गणित कार्यों में मामूली रूप से बेहतर प्रदर्शन किया। यहां तक कि एक एकल मॉडल के भीतर, एक ही प्रश्न पर बार-बार किए गए प्रयासों ने टोकन की गिनती में उच्च भिन्नता दिखाई, जिससे वास्तविक दुनिया के अनुप्रयोगों के लिए लागत की भविष्यवाणी के बारे में चिंताएं बढ़ गईं।

यह अध्ययन पारंपरिक और तर्क-संवर्धित मॉडल के बीच की खाई को रेखांकित करता है और उस पर प्रकाश डालता है जो बुद्धिमान स्केलिंग-न केवल अधिक टोकन-जटिल कार्य प्रदर्शन में सुधार कर सकता है। शोधकर्ताओं ने दिखाया कि फीडबैक लूप और मजबूत वेरिफायर मुश्किल डोमेन में भी मॉडल सटीकता में पर्याप्त लाभ प्रदान करते हैं। उनके निष्कर्षों से पता चलता है कि तर्क मॉडल में अभी भी सुधार के लिए हेडरूम है, खासकर जब संरचित अनुमान रणनीतियों और लागत-कुशल टोकन प्रबंधन द्वारा निर्देशित किया जाता है।

चेक आउट कागज और github। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

ऑनर वॉच 5 अल्ट्रा में किसी भी स्मार्टवॉच का सबसे अच्छा बैटरी जीवन है जो मैंने उपयोग किया था – Gadgets Solutions

Google Colab के माध्यम से Ollama का उपयोग करने के लिए एक कोड कार्यान्वयन और Q & A के लिए Ollama, Langchain, FAIS और CHROMADB के माध्यम से दीपसेक-R1 1.5B का उपयोग करने पर एक स्थानीय राग पाइपलाइन का निर्माण – Gadgets Solutions

यह एआई पेपर इन-टाइम-टाइम स्केलिंग तकनीक का परिचय देता है: Microsoft का जटिल कार्यों पर तर्क मॉडल का गहन मूल्यांकन – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US