बड़े भाषा मॉडल को अक्सर उनके भाषाई प्रवाह के लिए प्रशंसा की जाती है, लेकिन फोकस का एक बढ़ता हुआ क्षेत्र उनकी तर्क क्षमता को बढ़ा रहा है-विशेष रूप से उन संदर्भों में जहां जटिल समस्या-समाधान की आवश्यकता होती है। इनमें गणितीय समीकरण और स्थानिक तर्क, पाथफाइंडिंग और संरचित योजना से जुड़े कार्य शामिल हैं। ऐसे डोमेन में, मॉडल को मानव-जैसी चरण-दर-चरण सोच का अनुकरण करना चाहिए, जहां समाधान तुरंत स्पष्ट नहीं हैं। इस प्रकार का संरचित तर्क मशीन लर्निंग रिसर्च में अध्ययन का एक महत्वपूर्ण विषय है।
मॉडल आर्किटेक्चर और ट्रेनिंग डेटासेट में प्रगति के बावजूद, मल्टी-स्टेप या उच्च-शिथिलता वाले तर्क कार्यों के साथ प्रस्तुत किए जाने पर कई भाषा मॉडल अभी भी लड़खड़ाते हैं। चुनौती यह है कि भले ही कोई मॉडल विशाल जानकारी तक पहुंच सकता है, लेकिन यह नहीं पता हो सकता है कि कई चरणों में इसका प्रभावी ढंग से उपयोग कैसे किया जाए। बाधाओं के साथ बैठक के समय का चयन करने या एनपी-हार्ड समस्याओं को हल करने जैसे कार्यों को निरंतर तार्किक अनुक्रमण की आवश्यकता होती है, जो मानक मॉडल मुश्किल पाते हैं। अधिक मापदंडों या मेमोरी को जोड़ने से कुछ क्षेत्रों में मदद मिली है, लेकिन इस तरह के क्रूर-बल समाधान अक्सर कार्य जटिलता बढ़ने पर कम रिटर्न की ओर ले जाते हैं।
इन सीमाओं को संभालने के लिए, शोधकर्ताओं ने जटिल कार्यों के साथ बेहतर संरेखित मॉडल के लिए चेन-ऑफ-थॉट प्रॉम्प्टिंग और पोस्ट-ट्रेनिंग ललित-ट्यूनिंग जैसे उपकरणों की खोज की है। कुछ तरीकों में कई स्वतंत्र उत्तर उत्पन्न करना और फिर सबसे अधिक सही सही लेने के लिए heuristics या वोटिंग तंत्र का उपयोग करना शामिल है। अन्य लोग आत्म-प्रतिवाद के साथ प्रयोग करते हैं-मॉडल को इसके उत्तरों की आलोचना करते हुए और तदनुसार संशोधित करें। इन दृष्टिकोणों को पारंपरिक मॉडल जैसे कि GPT-4O, क्लाउड 3.5 Sonnet, और GEMINI 2.0 प्रो में अलग-अलग सफलता के साथ लागू किया गया है, लेकिन ये मॉडल अभी भी बेंचमार्क के आधार पर परिवर्तनशीलता दिखाते हैं। कुछ उदाहरणों में, लंबे समय तक आउटपुट बेहतर सटीकता में अनुवाद नहीं करता था, और टोकन दक्षता असंगत रही।
Microsoft के शोधकर्ताओं ने अनुमान-समय स्केलिंग के लिए एक कठोर मूल्यांकन ढांचा पेश किया, जिसमें नौ मॉडल और आठ जटिल कार्य बेंचमार्क शामिल हैं। इसमें पारंपरिक मॉडल की तुलना तर्क-अनुकूलित लोगों जैसे कि डीपसेक आर 1, ओ 1 और ओ 3-मिनी के खिलाफ शामिल थी। उनकी विधि में समानांतर स्केलिंग शामिल थी, जहां कई आउटपुट उत्पन्न होते हैं और एकत्र होते हैं, और अनुक्रमिक स्केलिंग, जहां मॉडल को संरचित प्रतिक्रिया के आधार पर इसके आउटपुट को संशोधित करने के लिए प्रेरित किया जाता है। बेंचमार्क को कैलेंडर योजना, गणित ओलंपियाड्स और स्थानिक तर्क जैसे डोमेन से प्राप्त किया गया था, और टीम ने एनपी-हार्ड समस्याओं के लिए दो नए डेटासेट पेश किए: 3SAT और TSP।
कार्यप्रणाली दो मुख्य रणनीतियों पर निर्भर करती है: परिणाम परिवर्तनशीलता का मूल्यांकन करने और आलोचकों का उपयोग करने के लिए कई पीढ़ियों का नमूना लेना प्रतिक्रिया-संवर्धित तर्क का अनुकरण करने के लिए। समानांतर स्केलिंग में, मॉडल कई उत्तरों को आउटपुट करता है जिनका मूल्यांकन एग्रीगेटर्स जैसे कि बहुसंख्यक वोट या बेस्ट-एन-एन का उपयोग करके किया जाता है। अनुक्रमिक स्केलिंग में, मॉडल प्रत्येक प्रयास के बाद प्रतिक्रिया प्राप्त करता है और फिर से प्रयास करने के लिए प्रेरित किया जाता है। इसने शोधकर्ताओं को वर्तमान प्रदर्शन और सुधार के लिए संभावित छत का अनुमान लगाने की अनुमति दी, यदि कम्प्यूटेशनल संसाधनों को बढ़ाया गया था। औसत और सबसे खराब-एन जैसे एग्रीगेटर्स ने यह पहचानने में मदद की कि मॉडल लगातार विफल या सफल रहे। इस दोहरे दृष्टिकोण ने अंतर्दृष्टि प्रदान की कि मॉडल कैसे अतिरिक्त निष्कर्ष चरणों का उपयोग करते हैं और क्या प्रतिक्रिया तंत्र उत्तर गुणवत्ता में सुधार करते हैं।
प्रदर्शन विश्लेषण ने मॉडल और कार्य प्रकारों के बीच महत्वपूर्ण अंतर दिखाया। GPQA बेंचमार्क पर, शीर्ष प्रदर्शन करने वाला मॉडल, O1, 90.9% सटीकता तक पहुंच गया, जबकि GPT-4O 77.7% तक पहुंच गया। टीएसपी डेटासेट पर, ओ 1 ने अधिकांश स्तरों पर 80% से ऊपर की सटीकता बनाए रखी, जबकि जीपीटी -4 ओ का प्रदर्शन केवल तभी चरम पर पहुंच गया जब 20 से अधिक इन्फ्रेंस कॉल के साथ सुपरस्केल किया गया। बीए कैलेंडर में, डीपसेक आर 1 ने 88.5% सटीकता हासिल की, क्लाउड 3.7 सॉनेट और मिथुन 2.0 प्रो से बेहतर प्रदर्शन किया। हालांकि, परिणामों से यह भी पता चला कि बढ़े हुए टोकन उपयोग ने उच्च सटीकता की गारंटी नहीं दी। उदाहरण के लिए, डीपसेक आर 1 ने क्लाउड 3.7 सॉनेट की तुलना में काफी अधिक टोकन का सेवन किया, लेकिन केवल कुछ गणित कार्यों में मामूली रूप से बेहतर प्रदर्शन किया। यहां तक कि एक एकल मॉडल के भीतर, एक ही प्रश्न पर बार-बार किए गए प्रयासों ने टोकन की गिनती में उच्च भिन्नता दिखाई, जिससे वास्तविक दुनिया के अनुप्रयोगों के लिए लागत की भविष्यवाणी के बारे में चिंताएं बढ़ गईं।
यह अध्ययन पारंपरिक और तर्क-संवर्धित मॉडल के बीच की खाई को रेखांकित करता है और उस पर प्रकाश डालता है जो बुद्धिमान स्केलिंग-न केवल अधिक टोकन-जटिल कार्य प्रदर्शन में सुधार कर सकता है। शोधकर्ताओं ने दिखाया कि फीडबैक लूप और मजबूत वेरिफायर मुश्किल डोमेन में भी मॉडल सटीकता में पर्याप्त लाभ प्रदान करते हैं। उनके निष्कर्षों से पता चलता है कि तर्क मॉडल में अभी भी सुधार के लिए हेडरूम है, खासकर जब संरचित अनुमान रणनीतियों और लागत-कुशल टोकन प्रबंधन द्वारा निर्देशित किया जाता है।
चेक आउट कागज और github। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
