Saturday, April 19, 2025

पूर्व-प्रशिक्षण में प्रतिबिंब शुरू होता है: आवश्यक एआई शोधकर्ता एलएलएम में प्रतिबिंबित तर्क के शुरुआती उद्भव को प्रदर्शित करते हैं। – Gadgets Solutions

-

पारंपरिक तरीकों के अलावा बड़े भाषा मॉडल (एलएलएम) को जो सेट करता है, वह है कि उनकी प्रतिक्रिया में मान्यता प्राप्त होने की क्षमता है, जब उनकी प्रतिक्रिया में कुछ तर्क या तथ्यों के साथ संरेखित नहीं होता है और फिर इसे ठीक करने का प्रयास करता है। यह क्षमता, जिसे प्रतिबिंब के रूप में संदर्भित किया जाता है, मशीन-आधारित मेटाकॉग्निशन के एक रूप को दर्शाता है। इसकी उपस्थिति सतह-स्तरीय प्रसंस्करण से गहरे मूल्यांकन के तर्क के लिए एक छलांग को इंगित करती है, जो कोड संश्लेषण और गणितीय तर्क जैसे जटिल, बहु-चरणीय कार्यों में तेजी से आवश्यक है।

भाषा मॉडल के साथ एक केंद्रीय चुनौती उनके प्रशिक्षण के बिंदु की पहचान कर रही है जब वे अपने तर्क पर प्रतिबिंबित करने की क्षमता प्रदर्शित करते हैं। कई लोगों का मानना ​​है कि सुदृढीकरण सीखने के बाद ही प्रतिबिंब उभरता है, पोस्ट-ट्रेनिंग के बाद लागू होता है। हालांकि, पूर्व-प्रशिक्षण के दौरान पहले, प्रतिबिंब उत्पन्न हो सकता है। यह समस्या को एक सुसंगत, प्रतिकृति तरीके से इस तरह की चिंतनशील प्रवृत्तियों का पता लगाने और मापने की समस्या को सामने लाता है। पारंपरिक बेंचमार्क अक्सर इसे पकड़ने में विफल होते हैं क्योंकि वे तर्क जंजीरों को शामिल नहीं करते हैं जिनमें सूक्ष्म त्रुटियां होती हैं जिनमें सुधार की आवश्यकता होती है। नतीजतन, मॉडल को शायद ही कभी मूल्यांकन किया जाता है कि कैसे वे गलत या भ्रामक तर्क पैटर्न के साथ प्रस्तुत किए जाने पर अपने आउटपुट को अनुकूलित करते हैं।

पूर्व-प्रशिक्षण में प्रतिबिंब शुरू होता है: आवश्यक एआई शोधकर्ता एलएलएम में प्रतिबिंबित तर्क के शुरुआती उद्भव को प्रदर्शित करते हैं।
 – Gadgets Solutions

इस चुनौती को पूरा करने के लिए, तर्क का मूल्यांकन करने के लिए कई उपकरण विकसित किए गए हैं, जिसमें चेन ऑफ थॉट और ट्री ऑफ थॉट जैसे फ्रेमवर्क शामिल हैं। ये अंतिम आउटपुट का अवलोकन करने या मॉडल की वास्तुकला में सक्रियण मार्गों की खोज करने पर भरोसा करते हैं। उपयोगी होते हुए, ये विधियाँ आम तौर पर ठीक-ट्यूनिंग के बाद मॉडल की जांच करती हैं या अतिरिक्त अनुकूलन के अधीन हैं। वे यह पता लगाने से चूक जाते हैं कि प्रारंभिक मॉडल प्रशिक्षण के दौरान चिंतनशील व्यवहार कैसे व्यवस्थित रूप से बनता है। अधिकांश मूल्यांकन में, प्रतिबिंब को एक प्रशिक्षण के बाद की घटना के रूप में माना जाता है, विशाल और औपचारिक पूर्व-प्रशिक्षण चरण के दौरान इसके उद्भव पर थोड़ा जोर दिया जाता है।

सैन फ्रांसिस्को में एसेंशियल एआई के शोधकर्ताओं ने इस अंतर का पता लगाने के लिए एक अनूठा समाधान पेश किया। उन्होंने एक ढांचा विकसित किया जो विचारशील प्रतिबिंब और आत्म-प्रतिबिंब को विचार की जानबूझकर भ्रष्ट श्रृंखलाओं का उपयोग करके मापता है। ये प्रतिकूल डेटासेट छह डोमेन का विस्तार करते हैं: कोडिंग, गणितीय तर्क, तार्किक विश्लेषण और ज्ञान पुनर्प्राप्ति। डेटासेट का निर्माण उन त्रुटियों को शामिल करने के लिए किया जाता है जो यथार्थवादी गलतियों की नकल करते हैं, जैसे कि दोषपूर्ण तर्क या मिसकॉल्स, जिसे मॉडल का पता लगाना और सही करना चाहिए। परियोजना ने ओल्मो -2 और क्यूवेन 2.5 परिवारों से मॉडल का उपयोग किया, जिसमें पैरामीटर आकार 0.5 बी से 72 बी तक था। “प्रतीक्षा” जैसे ट्रिगर वाक्यांशों को मॉडल को प्रदान करने के लिए प्रोत्साहित करने के लिए संकेतों में डाला गया था, जो प्रदान किए गए तर्क की जांच करने और आलोचनात्मक रूप से प्रतिक्रिया के अनुसार जवाब देने के लिए।

प्रतिबिंब तंत्र कैसे काम करता है, इस बात पर ध्यान देते हुए, शोधकर्ताओं ने इसे स्पष्ट या निहित के रूप में वर्गीकृत किया। स्पष्ट प्रतिबिंब तब होता है जब मॉडल एक गलती के अपने अहसास को मौखिक करता है। जब मॉडल किसी त्रुटि को स्वीकार किए बिना सही उत्तर पर आता है, तो निहित प्रतिबिंब का अनुमान लगाया जाता है। डेटासेट जनरेशन एल्गोरिदम ने स्थापित बेंचमार्क से सही तर्क श्रृंखला ली और छोटे लेकिन महत्वपूर्ण दोषों को इंजेक्ट किया। स्थितिजन्य प्रतिबिंब के लिए, त्रुटियां विभिन्न मॉडलों से आईं। आत्म-प्रतिबिंब के लिए, वे मॉडल के गलत आउटपुट से उभरे। डीपसेक-वी 3 के साथ प्रशिक्षित एक क्लासिफायर का उपयोग तब आउटपुट में स्पष्ट प्रतिबिंब के संकेतों का पता लगाने के लिए किया गया था, जिससे दो प्रतिबिंब प्रकारों के बीच सटीक भेदभाव की अनुमति मिलती है।

मॉडलों के प्रदर्शन ने स्पष्ट अंतर्दृष्टि प्रदान की। 240 का मूल्यांकन डेटासेट चेकपॉइंट संयोजनों में से, 231 ने स्थितिजन्य प्रतिबिंब के प्रमाण दिखाए, और 154 ने आत्म-प्रतिबिंब के कम से कम एक उदाहरण का प्रदर्शन किया। सटीकता और पूर्व-प्रशिक्षण गणना के बीच पियर्सन सहसंबंध 0.76 तक पहुंच गया, जो गणना की तीव्रता और चिंतनशील तर्क के बीच एक मजबूत संबंध का संकेत देता है। GSM8K-Platinum जैसे कार्यों में, “प्रतीक्षा” ट्रिगर का उपयोग करते हुए प्रदर्शन में काफी सुधार हुआ, यह दिखाते हुए कि एक साधारण संकेत भी आत्म-परीक्षा को प्रोत्साहित करके एक मॉडल की सटीकता को बढ़ा सकता है। चौकियों के पार, स्पष्ट प्रतिबिंब की दर अधिक प्रशिक्षण के साथ बढ़ी, इस दावे को मजबूत करते हुए कि प्रतिबिंब को पूर्व-प्रशिक्षण के दौरान विकसित किया जा सकता है, बिना आगे बढ़ने या सुदृढीकरण सीखने की आवश्यकता के बिना।

इस काम से, यह स्पष्ट हो जाता है कि चिंतनशील तर्क केवल उन्नत अनुकूलन का परिणाम नहीं है। इसके बजाय, यह एक ऐसी क्षमता है जो भाषा मॉडल के मूलभूत प्रशिक्षण के दौरान आकार लेना शुरू करती है। इस क्षमता को मापने और प्रोत्साहित करने के लिए एक प्रणाली इंजीनियरिंग द्वारा, शोधकर्ताओं ने प्रभावी रूप से मॉडल प्रशिक्षण के एक नए आयाम को उजागर किया जो एआई तर्क और निर्णय लेने में भविष्य के विकास को महत्वपूर्ण रूप से प्रभावित कर सकता है।


चेक आउट कागज़ इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »