Tuesday, April 15, 2025

रीजनिंग मॉडल जानते हैं कि वे कब सही हैं: NYU शोधकर्ता एक छिपे हुए राज्य जांच का परिचय देते हैं जो कुशल आत्म-सत्यापन को सक्षम करता है और टोकन उपयोग को 24% तक कम करता है – Gadgets Solutions

-

आर्टिफिशियल इंटेलिजेंस सिस्टम ने मानव-शैली के तर्क, विशेष रूप से गणित और तर्क का अनुकरण करने में महत्वपूर्ण प्रगति की है। ये मॉडल केवल उत्तर उत्पन्न नहीं करते हैं – वे निष्कर्ष तक पहुंचने के लिए तार्किक कदमों की एक श्रृंखला के माध्यम से चलते हैं, उन उत्तरों का उत्पादन कैसे और क्यों करते हैं, इसकी जानकारी देते हैं। यह चरण-दर-चरण तर्क, जिसे अक्सर चेन-ऑफ-थॉ पर (COT) कहा जाता है, में महत्वपूर्ण हो गया है कि मशीनें जटिल समस्या-समाधान कार्यों को कैसे संभालती हैं।

इन मॉडलों के साथ एक सामान्य समस्या शोधकर्ताओं का सामना करने के दौरान अक्षमता है। तर्क मॉडल अक्सर एक सही निष्कर्ष पर पहुंचने के बाद भी प्रसंस्करण जारी रखते हैं। यह ओवरथिंकिंग टोकन की अनावश्यक पीढ़ी में परिणाम, कम्प्यूटेशनल लागत में वृद्धि करता है। क्या इन मॉडलों में शुद्धता की आंतरिक भावना है, क्या यह स्पष्ट नहीं है – क्या उन्हें एहसास होता है कि जब एक मध्यवर्ती उत्तर सही है? यदि वे आंतरिक रूप से इसकी पहचान कर सकते हैं, तो मॉडल पहले प्रसंस्करण को रोक सकते हैं, सटीकता खोए बिना अधिक कुशल हो सकते हैं।

रीजनिंग मॉडल जानते हैं कि वे कब सही हैं: NYU शोधकर्ता एक छिपे हुए राज्य जांच का परिचय देते हैं जो कुशल आत्म-सत्यापन को सक्षम करता है और टोकन उपयोग को 24% तक कम करता है
 – Gadgets Solutions

कई वर्तमान दृष्टिकोण मौखिक संकेतों के माध्यम से या कई आउटपुट का विश्लेषण करके एक मॉडल के आत्मविश्वास को मापते हैं। ये ब्लैक-बॉक्स रणनीतियाँ मॉडल को यह बताने के लिए कहती हैं कि यह सुनिश्चित करने के लिए कि इसका उत्तर कितना है। हालांकि, वे अक्सर अभेद्य और कम्प्यूटेशनल रूप से महंगे होते हैं। दूसरी ओर, व्हाइट-बॉक्स विधियाँ उन संकेतों को निकालने के लिए मॉडल के आंतरिक छिपे हुए राज्यों की जांच करती हैं जो उत्तर शुद्धता के साथ सहसंबंधित हो सकते हैं। पूर्व कार्य से पता चलता है कि एक मॉडल के आंतरिक राज्य अंतिम उत्तरों की वैधता का संकेत दे सकते हैं, लेकिन इसे लंबे समय तक तर्क श्रृंखलाओं में मध्यवर्ती चरणों में लागू करना अभी भी एक अविभाजित दिशा है।

न्यूयॉर्क विश्वविद्यालय और एनवाईयू शंघाई की एक टीम द्वारा शुरू किए गए शोध ने एक हल्के जांच को डिजाइन करके इस अंतर को पूरा किया-एक साधारण दो-परत तंत्रिका नेटवर्क-एक मॉडल के छिपे हुए राज्यों का निरीक्षण करने के लिए मध्यवर्ती तर्क चरणों में। प्रयोग के लिए उपयोग किए जाने वाले मॉडल में डीपसेक-आर 1-डिस्टिल श्रृंखला और QWQ-32B शामिल थे, जिन्हें उनके चरण-दर-चरण तर्क क्षमताओं के लिए जाना जाता है। इन मॉडलों को गणितीय और तार्किक कार्यों से जुड़े विभिन्न डेटासेट में परीक्षण किया गया था। शोधकर्ताओं ने तर्क के प्रत्येक भाग से जुड़े आंतरिक राज्य को पढ़ने के लिए अपनी जांच को प्रशिक्षित किया और भविष्यवाणी की कि क्या वर्तमान मध्यवर्ती उत्तर सही था।

अपने दृष्टिकोण का निर्माण करने के लिए, शोधकर्ताओं ने पहले प्रत्येक लंबी खाट आउटपुट को छोटे भागों या विखंडू में विभाजित किया, जिसमें तर्क में विराम की पहचान करने के लिए “प्रतीक्षा” या “सत्यापित” जैसे मार्करों का उपयोग किया गया। उन्होंने एक प्रतिनिधित्व के रूप में प्रत्येक चंक में अंतिम टोकन की छिपी हुई स्थिति का उपयोग किया और इसे एक शुद्धता लेबल से मिलान किया, जिसे एक अन्य मॉडल का उपयोग करके आंका गया था। इन अभ्यावेदन का उपयोग तब बाइनरी वर्गीकरण कार्यों पर जांच को प्रशिक्षित करने के लिए किया गया था। सीखने की दर और छिपी हुई परत के आकार जैसे हाइपरपैमीटर में ग्रिड खोज का उपयोग करके जांच को ठीक-ठाक किया गया था, अधिकांश मॉडल रैखिक जांच में परिवर्तित होते हैं-यह बताते हुए कि शुद्धता की जानकारी अक्सर छिपे हुए राज्यों में रैखिक रूप से एम्बेडेड होती है। जांच ने पूरी तरह से गठित उत्तरों के लिए काम किया और एक उत्तर के पूरा होने से पहले शुद्धता की भविष्यवाणी करने की क्षमता दिखाई, और भी आगे की क्षमताओं पर संकेत दिया।

प्रदर्शन के परिणाम स्पष्ट और मात्रात्मक थे। R1-Distill-Qwen-32B जैसे मॉडल का उपयोग करते समय Aime जैसे कुछ डेटासेट के लिए ROC-AUC स्कोर 0.9 से अधिक हो गया। उच्च विश्वसनीयता दिखाते हुए अपेक्षित अंशांकन त्रुटियां (ईसीई) 0.1 से कम रही। उदाहरण के लिए, R1-Distill-Qwen-32B में GSM8K पर सिर्फ 0.01 और गणित डेटासेट पर 0.06 का ECE था। आवेदन में, जांच का उपयोग अनुमान के दौरान एक विश्वास-आधारित प्रारंभिक निकास रणनीति को लागू करने के लिए किया गया था। तर्क प्रक्रिया को रोक दिया गया था जब एक उत्तर में जांच का आत्मविश्वास एक सीमा से अधिक हो गया था। 0.85 के आत्मविश्वास की सीमा पर, सटीकता 88.2%बनी रही, जबकि टोकन की गिनती 24%कम हो गई। यहां तक ​​कि 0.9 की दहलीज पर, सटीकता 19% टोकन की कमी के साथ 88.6% पर रही। स्थिर निकास विधियों की तुलना में, इस गतिशील रणनीति ने समान या कम टोकन का उपयोग करके 5% उच्च सटीकता प्राप्त की।

यह अध्ययन मॉडल को तर्क के दौरान आत्म-सत्यापन करने के लिए तर्क देने के लिए एक कुशल, एकीकृत तरीका प्रदान करता है। शोधकर्ताओं का दृष्टिकोण एक अंतराल को इंगित करता है – जबकि मॉडल स्वाभाविक रूप से जानते हैं कि वे कब सही हैं, वे इस पर कार्य नहीं करते हैं। अनुसंधान से जांच के माध्यम से आंतरिक अभ्यावेदन का लाभ उठाकर होशियार, अधिक कुशल तर्क प्रणालियों की ओर एक मार्ग का पता चलता है। यह दर्शाता है कि मॉडल को पहले से ही “पता है” टैप करने से सार्थक प्रदर्शन और संसाधन उपयोग में सुधार हो सकता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »