बड़े भाषा मॉडल (एलएलएम) ने गणित और विज्ञान सहित विविध डोमेन में तर्क क्षमताओं में महत्वपूर्ण प्रगति का प्रदर्शन किया है। हालांकि, परीक्षण के समय में इन तर्क क्षमताओं में सुधार एक चुनौती है कि शोधकर्ता सक्रिय रूप से संबोधित कर रहे हैं। प्राथमिक फोकस तर्क प्रदर्शन को अधिकतम करते हुए परीक्षण-समय की गणना को प्रभावी ढंग से स्केल करने के तरीकों में निहित है। वर्तमान कार्यप्रणाली में समस्याओं के लिए कई चेन-ऑफ-थॉट (COTS) समाधान उत्पन्न करना और सर्वोत्तम समाधानों की पहचान करने के लिए मतदान या चयन तंत्र को लागू करना शामिल है। यद्यपि इन दृष्टिकोणों ने वादा दिखाया है, उन्हें अक्सर काफी कम्प्यूटेशनल संसाधनों की आवश्यकता होती है और गलत तर्क मार्ग हावी होने पर लगातार इष्टतम समाधानों की पहचान नहीं कर सकते हैं। कम्प्यूटेशनल ओवरहेड को कम करते हुए एलएलएम तर्क को बढ़ाने के लिए कुशल तरीके खोजना क्षेत्र की उन्नति के लिए एक महत्वपूर्ण चुनौती का प्रतिनिधित्व करता है।
पिछले शोध ने एलएलएम तर्क क्षमताओं को बढ़ाने के लिए विभिन्न दृष्टिकोणों का पता लगाया है। जेनरेटिव इनाम मॉडल (GENRM) एक आशाजनक तकनीक के रूप में उभरा है, जो एक अगले-टोकन भविष्यवाणी कार्य के रूप में सत्यापन को तैयार करता है। ये मॉडल कई सत्यापन श्रृंखलाओं को बनाने और समाधान करने के लिए अपने फैसले को एकत्र करके परीक्षण-समय स्केलिंग को सक्षम करते हैं। बेस्ट-ऑफ-एन (बॉन) चयन और आत्म-प्रवृत्ति (एससी) के साथ Genrm के बीच प्रारंभिक तुलना ने दिखाया कि Genrm अधिक कुशल दिखाई दिया, कम समाधान उम्मीदवारों के साथ तुलनीय प्रदर्शन प्राप्त किया। हालांकि, ये मूल्यांकन निश्चित कम्प्यूटेशनल बजट के बजाय समाधानों की निश्चित संख्या के साथ आयोजित किए गए थे। यह कार्यप्रणाली व्यावहारिक परिदृश्यों में भ्रामक निष्कर्ष बनाती है जहां अनुमान गणना सीमित है, क्योंकि यह प्रत्येक उम्मीदवार समाधान के लिए कई सत्यापन उत्पन्न करने से जुड़ी पर्याप्त कम्प्यूटेशनल लागतों के लिए जिम्मेदार है। मौजूदा दृष्टिकोणों की प्रमुख सीमा सत्यापन-आधारित तरीकों की तुलना करते समय सही कम्प्यूटेशनल दक्षता पर विचार करने में उनकी विफलता है, जो सरल बहुमत मतदान तकनीकों के साथ है।
प्रस्तावित विधि आत्म-प्रवृत्ति और शैलियों द्वारा आवश्यक कम्प्यूटेशनल बजट का सही अनुमान लगाने के लिए एक व्यापक रूपरेखा का परिचय देती है। यह ढांचा एक मेले को सक्षम बनाता है, गणना-मिलान विश्लेषण यह निश्चित कम्प्यूटेशनल बाधाओं के तहत इन परीक्षण-समय स्केलिंग रणनीतियों की तुलना करता है। दृष्टिकोण मानता है कि एक एकल बड़ी भाषा मॉडल समाधान जनरेटर और जेनेरिक सत्यापनकर्ता दोनों के रूप में दोहरी कार्य करता है, सत्यापन क्षमताओं के साथ या तो विशेष संकेत या कार्य-विशिष्ट फाइन-ट्यूनिंग के माध्यम से सक्रिय किया जाता है। इस एकीकृत ढांचे को स्थापित करके, शोधकर्ताओं ने आत्म-प्रवृत्ति के लिए अधिक समाधान उम्मीदवारों को उत्पन्न करने के बीच प्रदर्शन व्यापार-बंदों का व्यवस्थित रूप से विश्लेषण कर सकते हैं, जो कि Genrms में सत्यापन प्रक्रियाओं के लिए गणना संसाधनों को आवंटित कर सकते हैं। तुलनात्मक विश्लेषण एलएलएम द्वारा उत्पन्न समाधानों और सत्यापन की कुल संख्या के आधार पर प्रभावशीलता को मापने पर केंद्रित है, जो विभिन्न तर्क दृष्टिकोणों में कम्प्यूटेशनल दक्षता के लिए स्पष्ट मैट्रिक्स प्रदान करता है।
कार्यप्रणाली परीक्षण-समय स्केलिंग रणनीतियों की तुलना के लिए एक विस्तृत वास्तुशिल्प डिजाइन के साथ एक गणना-मिलान विश्लेषण ढांचे को नियोजित करती है। पी पैरामीटर के साथ एक ऑटोरेग्रेसिव एलएलएम के लिए प्रति आउटपुट टोकन 2 पी फ्लॉप प्रदर्शन करने वाले, कुल अनुमान गणना सूत्र का उपयोग करके गणना की जाती है C (s, v) = s (1+λv)जहां एस समाधानों की संख्या का प्रतिनिधित्व करता है, v सत्यापन की संख्या, और λ प्रति समाधान के लिए टोकन के प्रति सत्यापन के टोकन का अनुपात। यह ढांचा समकक्ष कम्प्यूटेशनल बाधाओं के तहत आत्म-प्रवृत्ति और जेनेरिक इनाम मॉडल दोनों के व्यवस्थित मूल्यांकन को सक्षम बनाता है। आर्किटेक्चर में S {2^0, 2^1,…, 2^n} के पार SC के लिए स्केलिंग समाधान शामिल हैं और समाधान और सत्यापन के संयोजन के दौरान Genrm का मूल्यांकन करते हैं, v, {s × v}। इसके अलावा, अनुसंधान एक छह-चरणीय कार्यप्रणाली के माध्यम से Genrm के लिए अनुमान स्केलिंग कानूनों का परिचय देता है जो समाधान और सत्यापन के बीच इष्टतम आवंटन निर्धारित करता है। इस प्रक्रिया में बढ़ती सत्यापन गणना में सफलता दर की गणना करना, कम्प्यूट बजट के खिलाफ परिणामों की साजिश रचना, और इष्टतम समाधान गणना (s_opt ∝ c^a) और सत्यापन गणना (v_opt ∝ c^b) के बीच संबंध स्थापित करने के लिए शक्ति कानूनों को फिट करना।
परिणाम विभिन्न कम्प्यूटेशनल बजटों में आत्म-प्रवृत्ति के खिलाफ जनरेटिव इनाम मॉडल के प्रदर्शन की तुलना करते समय एक स्पष्ट पैटर्न प्रदर्शित करते हैं। SC कम-कम्प्यूट परिदृश्यों में बेहतर प्रदर्शन को प्रदर्शित करता है, जिससे कम्प्यूटेशनल संसाधन सीमित होने पर इसे अधिक कुशल विकल्प बनाते हैं। इसके विपरीत, Genrm लगभग 8 × कम्प्यूटेशनल बजट तक पहुंचने के बाद ही SC से बेहतर प्रदर्शन करना शुरू कर देता है, जिससे SC पर 3.8% के मामूली प्रदर्शन सुधार को प्राप्त करने के लिए अतिरिक्त 128 × Inference गणना की आवश्यकता होती है। ये निष्कर्ष विविध प्रयोगात्मक स्थितियों में मजबूत साबित होते हैं, जिसमें विभिन्न मॉडल परिवार जैसे कि लामा और क्यूवेन, 7 बी से 70 बी मापदंडों, QWQ-32B जैसे विशेष सोच मॉडल और गणित सहित विभिन्न तर्क कार्यों के विभिन्न मॉडल आकार शामिल हैं। प्रदर्शन पैटर्न विशिष्ट एलएलएम आर्किटेक्चर की परवाह किए बिना सुसंगत रहते हैं, जो भाषा मॉडल और तर्क कार्यों के स्पेक्ट्रम में इन तुलनात्मक अंतर्दृष्टि की व्यापक प्रयोज्यता का संकेत देते हैं।
अध्ययन एक अभिनव दृष्टिकोण के रूप में Genrms का परिचय देता है स्केलिंग टेस्ट-टाइम गणना सत्यापन प्रक्रियाओं के माध्यम से। पिछले शोध ने प्रदर्शित किया कि दोनों समाधानों और सत्यापन को स्केल करना SC से बेहतर हो सकता है, लेकिन अक्सर सत्यापन की कम्प्यूटेशनल लागतों के लिए ध्यान देने की उपेक्षा की जाती है। इस व्यापक जांच से एक स्पष्ट पैटर्न का पता चलता है: एससी कम कम्प्यूटेशनल बजट में अधिक प्रभावी साबित होता है, जबकि उच्च कम्प्यूटेशनल संसाधन उपलब्ध होने पर Genrms बेहतर प्रदर्शन प्रदान करते हैं। ये निष्कर्ष कई मॉडल परिवारों में स्थिरता बनाए रखते हैं, जिनमें विशेष सोच मॉडल, 7B से 70B तक विभिन्न पैरामीटर आकार और विविध तर्क कार्य शामिल हैं। इसके अलावा, अनुसंधान मजबूत अनुमान स्केलिंग कानून स्थापित करता है जो Genrm ढांचे के भीतर समाधान उत्पादन और सत्यापन प्रक्रियाओं के बीच बजट आवंटन का अनुकूलन करता है। ये अंतर्दृष्टि शोधकर्ताओं और चिकित्सकों के लिए मूल्यवान व्यावहारिक मार्गदर्शन प्रदान करती हैं, जो बड़े भाषा मॉडल में तर्क प्रदर्शन को अधिकतम करने के लिए गणना-कुशल स्केलिंग रणनीतियों को लागू करने की मांग करते हैं।
चेक आउट कागज़ और GitHub पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।
