रीजनिंग मॉडल जानते हैं कि वे कब सही हैं: NYU शोधकर्ता एक छिपे हुए राज्य जांच का परिचय देते हैं जो कुशल आत्म-सत्यापन को सक्षम करता है और टोकन उपयोग को 24% तक कम करता है – Gadgets Solutions

आर्टिफिशियल इंटेलिजेंस सिस्टम ने मानव-शैली के तर्क, विशेष रूप से गणित और तर्क का अनुकरण करने में महत्वपूर्ण प्रगति की है। ये मॉडल केवल उत्तर उत्पन्न नहीं करते हैं – वे निष्कर्ष तक पहुंचने के लिए तार्किक कदमों की एक श्रृंखला के माध्यम से चलते हैं, उन उत्तरों का उत्पादन कैसे और क्यों करते हैं, इसकी जानकारी देते हैं। यह चरण-दर-चरण तर्क, जिसे अक्सर चेन-ऑफ-थॉ पर (COT) कहा जाता है, में महत्वपूर्ण हो गया है कि मशीनें जटिल समस्या-समाधान कार्यों को कैसे संभालती हैं।

इन मॉडलों के साथ एक सामान्य समस्या शोधकर्ताओं का सामना करने के दौरान अक्षमता है। तर्क मॉडल अक्सर एक सही निष्कर्ष पर पहुंचने के बाद भी प्रसंस्करण जारी रखते हैं। यह ओवरथिंकिंग टोकन की अनावश्यक पीढ़ी में परिणाम, कम्प्यूटेशनल लागत में वृद्धि करता है। क्या इन मॉडलों में शुद्धता की आंतरिक भावना है, क्या यह स्पष्ट नहीं है – क्या उन्हें एहसास होता है कि जब एक मध्यवर्ती उत्तर सही है? यदि वे आंतरिक रूप से इसकी पहचान कर सकते हैं, तो मॉडल पहले प्रसंस्करण को रोक सकते हैं, सटीकता खोए बिना अधिक कुशल हो सकते हैं।

रीजनिंग मॉडल जानते हैं कि वे कब सही हैं: NYU शोधकर्ता एक छिपे हुए राज्य जांच का परिचय देते हैं जो कुशल आत्म-सत्यापन को सक्षम करता है और टोकन उपयोग को 24% तक कम करता है
– Gadgets Solutions

कई वर्तमान दृष्टिकोण मौखिक संकेतों के माध्यम से या कई आउटपुट का विश्लेषण करके एक मॉडल के आत्मविश्वास को मापते हैं। ये ब्लैक-बॉक्स रणनीतियाँ मॉडल को यह बताने के लिए कहती हैं कि यह सुनिश्चित करने के लिए कि इसका उत्तर कितना है। हालांकि, वे अक्सर अभेद्य और कम्प्यूटेशनल रूप से महंगे होते हैं। दूसरी ओर, व्हाइट-बॉक्स विधियाँ उन संकेतों को निकालने के लिए मॉडल के आंतरिक छिपे हुए राज्यों की जांच करती हैं जो उत्तर शुद्धता के साथ सहसंबंधित हो सकते हैं। पूर्व कार्य से पता चलता है कि एक मॉडल के आंतरिक राज्य अंतिम उत्तरों की वैधता का संकेत दे सकते हैं, लेकिन इसे लंबे समय तक तर्क श्रृंखलाओं में मध्यवर्ती चरणों में लागू करना अभी भी एक अविभाजित दिशा है।

न्यूयॉर्क विश्वविद्यालय और एनवाईयू शंघाई की एक टीम द्वारा शुरू किए गए शोध ने एक हल्के जांच को डिजाइन करके इस अंतर को पूरा किया-एक साधारण दो-परत तंत्रिका नेटवर्क-एक मॉडल के छिपे हुए राज्यों का निरीक्षण करने के लिए मध्यवर्ती तर्क चरणों में। प्रयोग के लिए उपयोग किए जाने वाले मॉडल में डीपसेक-आर 1-डिस्टिल श्रृंखला और QWQ-32B शामिल थे, जिन्हें उनके चरण-दर-चरण तर्क क्षमताओं के लिए जाना जाता है। इन मॉडलों को गणितीय और तार्किक कार्यों से जुड़े विभिन्न डेटासेट में परीक्षण किया गया था। शोधकर्ताओं ने तर्क के प्रत्येक भाग से जुड़े आंतरिक राज्य को पढ़ने के लिए अपनी जांच को प्रशिक्षित किया और भविष्यवाणी की कि क्या वर्तमान मध्यवर्ती उत्तर सही था।

अपने दृष्टिकोण का निर्माण करने के लिए, शोधकर्ताओं ने पहले प्रत्येक लंबी खाट आउटपुट को छोटे भागों या विखंडू में विभाजित किया, जिसमें तर्क में विराम की पहचान करने के लिए “प्रतीक्षा” या “सत्यापित” जैसे मार्करों का उपयोग किया गया। उन्होंने एक प्रतिनिधित्व के रूप में प्रत्येक चंक में अंतिम टोकन की छिपी हुई स्थिति का उपयोग किया और इसे एक शुद्धता लेबल से मिलान किया, जिसे एक अन्य मॉडल का उपयोग करके आंका गया था। इन अभ्यावेदन का उपयोग तब बाइनरी वर्गीकरण कार्यों पर जांच को प्रशिक्षित करने के लिए किया गया था। सीखने की दर और छिपी हुई परत के आकार जैसे हाइपरपैमीटर में ग्रिड खोज का उपयोग करके जांच को ठीक-ठाक किया गया था, अधिकांश मॉडल रैखिक जांच में परिवर्तित होते हैं-यह बताते हुए कि शुद्धता की जानकारी अक्सर छिपे हुए राज्यों में रैखिक रूप से एम्बेडेड होती है। जांच ने पूरी तरह से गठित उत्तरों के लिए काम किया और एक उत्तर के पूरा होने से पहले शुद्धता की भविष्यवाणी करने की क्षमता दिखाई, और भी आगे की क्षमताओं पर संकेत दिया।

प्रदर्शन के परिणाम स्पष्ट और मात्रात्मक थे। R1-Distill-Qwen-32B जैसे मॉडल का उपयोग करते समय Aime जैसे कुछ डेटासेट के लिए ROC-AUC स्कोर 0.9 से अधिक हो गया। उच्च विश्वसनीयता दिखाते हुए अपेक्षित अंशांकन त्रुटियां (ईसीई) 0.1 से कम रही। उदाहरण के लिए, R1-Distill-Qwen-32B में GSM8K पर सिर्फ 0.01 और गणित डेटासेट पर 0.06 का ECE था। आवेदन में, जांच का उपयोग अनुमान के दौरान एक विश्वास-आधारित प्रारंभिक निकास रणनीति को लागू करने के लिए किया गया था। तर्क प्रक्रिया को रोक दिया गया था जब एक उत्तर में जांच का आत्मविश्वास एक सीमा से अधिक हो गया था। 0.85 के आत्मविश्वास की सीमा पर, सटीकता 88.2%बनी रही, जबकि टोकन की गिनती 24%कम हो गई। यहां तक कि 0.9 की दहलीज पर, सटीकता 19% टोकन की कमी के साथ 88.6% पर रही। स्थिर निकास विधियों की तुलना में, इस गतिशील रणनीति ने समान या कम टोकन का उपयोग करके 5% उच्च सटीकता प्राप्त की।

यह अध्ययन मॉडल को तर्क के दौरान आत्म-सत्यापन करने के लिए तर्क देने के लिए एक कुशल, एकीकृत तरीका प्रदान करता है। शोधकर्ताओं का दृष्टिकोण एक अंतराल को इंगित करता है – जबकि मॉडल स्वाभाविक रूप से जानते हैं कि वे कब सही हैं, वे इस पर कार्य नहीं करते हैं। अनुसंधान से जांच के माध्यम से आंतरिक अभ्यावेदन का लाभ उठाकर होशियार, अधिक कुशल तर्क प्रणालियों की ओर एक मार्ग का पता चलता है। यह दर्शाता है कि मॉडल को पहले से ही “पता है” टैप करने से सार्थक प्रदर्शन और संसाधन उपयोग में सुधार हो सकता है।

चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

2025 के लिए मैक्सिमलिस्ट होम डेकोर ट्रेंड्स इंटीरियर डिज़ाइन को फिर से खोलना – Gadgets Solutions

एक ठाठ और फैशनेबल जीवन शैली के लिए वेस्ट एल्म होम डेकोर विचारों की खोज – Gadgets Solutions

ईव एनर्जी अब मैटर एनर्जी ट्रैकिंग (और होम असिस्टेंट) के साथ अच्छा खेलती है – Gadgets Solutions

वेफेयर आधुनिक रसोई सामान जो वसंत 2025 सजावट को ऊंचा करते हैं – Gadgets Solutions

Aqara अतिरिक्त डिवाइस समर्थन और क्रॉस-प्लेटफॉर्म टूल के साथ मामले की प्रतिबद्धता को बढ़ाता है – Gadgets Solutions

बम्पर स्मार्टथिंग्स अपडेट में मैटर 1.4, होशियार रूटीन, घरेलू इंटरकॉम और बहुत कुछ जोड़ता है – Gadgets Solutions

रिपोर्ट 2025 के लिए सर्वश्रेष्ठ प्रदर्शन वाले लिंक्डइन पोस्ट प्रकारों को देखती है – Gadgets Solutions

क्या मेटा ने Tiktok को FTC के एंटीट्रस्ट मामले को पतला करने के लिए बढ़ने की अनुमति दी थी? – Gadgets Solutions

चैट और थ्रेड्स मार्च में डाउनलोड गति बनाए रखें – Gadgets Solutions

मेटा यूरोपीय संघ के उपयोगकर्ता डेटा पर अपने एआई टूल को प्रशिक्षित करना शुरू करता है – Gadgets Solutions

लिंक्डइन अपने शीर्ष-फीड न्यूज बैनर को और अधिक क्षेत्रों में विस्तारित करता है – Gadgets Solutions

Tiktok अधिक विज्ञापन प्लेसमेंट नियंत्रण, ब्रांड सुरक्षा उपकरणों के लिए नया गाइड जोड़ता है – Gadgets Solutions

2025 के लिए मैक्सिमलिस्ट होम डेकोर ट्रेंड्स इंटीरियर डिज़ाइन को फिर से खोलना – Gadgets Solutions

एक ठाठ और फैशनेबल जीवन शैली के लिए वेस्ट एल्म होम डेकोर विचारों की खोज – Gadgets Solutions

ईव एनर्जी अब मैटर एनर्जी ट्रैकिंग (और होम असिस्टेंट) के साथ अच्छा खेलती है – Gadgets Solutions

वेफेयर आधुनिक रसोई सामान जो वसंत 2025 सजावट को ऊंचा करते हैं – Gadgets Solutions

Aqara अतिरिक्त डिवाइस समर्थन और क्रॉस-प्लेटफॉर्म टूल के साथ मामले की प्रतिबद्धता को बढ़ाता है – Gadgets Solutions

बम्पर स्मार्टथिंग्स अपडेट में मैटर 1.4, होशियार रूटीन, घरेलू इंटरकॉम और बहुत कुछ जोड़ता है – Gadgets Solutions

रिपोर्ट 2025 के लिए सर्वश्रेष्ठ प्रदर्शन वाले लिंक्डइन पोस्ट प्रकारों को देखती है – Gadgets Solutions

क्या मेटा ने Tiktok को FTC के एंटीट्रस्ट मामले को पतला करने के लिए बढ़ने की अनुमति दी थी? – Gadgets Solutions

चैट और थ्रेड्स मार्च में डाउनलोड गति बनाए रखें – Gadgets Solutions

मेटा यूरोपीय संघ के उपयोगकर्ता डेटा पर अपने एआई टूल को प्रशिक्षित करना शुरू करता है – Gadgets Solutions

लिंक्डइन अपने शीर्ष-फीड न्यूज बैनर को और अधिक क्षेत्रों में विस्तारित करता है – Gadgets Solutions

Tiktok अधिक विज्ञापन प्लेसमेंट नियंत्रण, ब्रांड सुरक्षा उपकरणों के लिए नया गाइड जोड़ता है – Gadgets Solutions

LEAVE A REPLY Cancel reply

LATEST POSTS

सैमसंग का एक यूआई 7 लॉन्च जारी है – Gadgets Solutions

पारंपरिक आरएजी फ्रेमवर्क कम गिरता है: मेगागोन लैब्स ‘इनसाइट-रैग’ का परिचय देता है, एक उपन्यास एआई विधि – Gadgets Solutions

Related Stories

सैमसंग का एक यूआई 7 लॉन्च जारी है – Gadgets Solutions

पारंपरिक आरएजी फ्रेमवर्क कम गिरता है: मेगागोन लैब्स ‘इनसाइट-रैग’ का परिचय देता है, एक उपन्यास एआई विधि – Gadgets Solutions

EDITOR PICKS

सैमसंग का एक यूआई 7 लॉन्च जारी है – Gadgets Solutions

Android 12 और 12L डिवाइस अब Google सुरक्षा अपडेट प्राप्त नहीं करेंगे – Gadgets Solutions

पहनने पर मिथुन एक ओवरहाल की तुलना में एक रीब्रांड की तरह लगता है – Gadgets Solutions

POPULAR POSTS

सैमसंग का एक यूआई 7 लॉन्च जारी है – Gadgets Solutions

POPULAR CATEGORY

ABOUT US

FOLLOW US