एआई क्षमताओं में एक प्रमुख उन्नति चेन-ऑफ-थॉ पर (सीओटी) तर्क का विकास और उपयोग है, जहां मॉडल एक उत्तर तक पहुंचने से पहले अपने कदमों की व्याख्या करते हैं। यह संरचित मध्यवर्ती तर्क केवल एक प्रदर्शन उपकरण नहीं है; यह भी व्याख्या को बढ़ाने की उम्मीद है। यदि मॉडल प्राकृतिक भाषा में अपने तर्क की व्याख्या करते हैं, तो डेवलपर्स तर्क का पता लगा सकते हैं और दोषपूर्ण मान्यताओं या अनपेक्षित व्यवहारों का पता लगा सकते हैं। जबकि COT तर्क की पारदर्शिता की क्षमता को अच्छी तरह से मान्यता दी गई है, मॉडल के आंतरिक तर्क के लिए इन स्पष्टीकरणों की वास्तविक आस्था का वास्तविक विश्वास अनिर्धारित है। चूंकि तर्क करने वाले मॉडल निर्णय लेने की प्रक्रियाओं में अधिक प्रभावशाली हो जाते हैं, इसलिए यह सुनिश्चित करना महत्वपूर्ण हो जाता है कि एक मॉडल क्या सोचता है और क्या कहता है, इसके बीच सामंजस्य सुनिश्चित करना।
चुनौती यह निर्धारित करने में निहित है कि क्या ये श्रृंखला-के-विचार स्पष्टीकरण वास्तव में दर्शाते हैं कि मॉडल अपने उत्तर पर कैसे पहुंचे या यदि वे प्रशंसनीय पोस्ट-हॉक औचित्य हैं। यदि कोई मॉडल आंतरिक रूप से तर्क की एक पंक्ति को संसाधित करता है, लेकिन दूसरे को लिखता है, तो यहां तक कि सबसे विस्तृत खाट आउटपुट भ्रामक हो जाता है। यह विसंगति गंभीर चिंताओं को उठाती है, विशेष रूप से उन संदर्भों में जहां डेवलपर्स प्रशिक्षण के दौरान हानिकारक या अनैतिक व्यवहार पैटर्न का पता लगाने के लिए इन खाटों पर भरोसा करते हैं। कुछ मामलों में, मॉडल वास्तविक तर्क को मौखिक रूप से बिना इनाम हैकिंग या मिसलिग्न्मेंट जैसे व्यवहार को निष्पादित कर सकते हैं, जिससे पता चलता है। व्यवहार और मौखिक तर्क के बीच यह अंतर उच्च-दांव निर्णयों से जुड़े परिदृश्यों में भयावह परिणामों को रोकने के लिए डिज़ाइन किए गए सुरक्षा तंत्र को कम कर सकता है।
इस समस्या का मूल्यांकन करने के लिए, संरेखण विज्ञान टीम के शोधकर्ताओं ने, एंथ्रोपिक ने प्रयोगों का एक सेट तैयार किया, जिसमें चार भाषा मॉडल- दो तर्क मॉडल (क्लाउड 3.7 सॉनेट और डीपसेक आर 1) और दो गैर-अभियोजन मॉडल (क्लाउड 3.5 सोननेट (न्यू) और डीपसेक वी 3) का परीक्षण किया गया। उन्होंने एक नियंत्रित प्रॉम्प्ट-पेयरिंग विधि का उपयोग किया, जहां एक सूक्ष्म एम्बेडेड संकेत के साथ एए संस्करण ने एक आधार प्रश्न का पालन किया। यदि संकेत की उपस्थिति में किसी मॉडल का उत्तर बदल गया, तो शोधकर्ताओं ने जाँच की कि क्या सीओटी ने स्पष्ट रूप से संकेत दिया है। संकेतों की छह श्रेणियों का उपयोग किया गया था: चाटुकारिता, संगति, दृश्य पैटर्न मान्यता, मेटाडेटा संकेत, ग्रेडर हैकिंग और अनैतिक सूचना उपयोग। महत्वपूर्ण रूप से, अंतिम दो को “गलत” संकेत माना जाता है जो गलत पैटर्न का शोषण करने या अनधिकृत ज्ञान का उपयोग करने जैसे अनपेक्षित मॉडल व्यवहारों का अनुकरण कर सकते हैं।
शोध ने सीओटी आउटपुट की आस्था की मात्रा निर्धारित करने के लिए एक बेंचमार्क पेश किया। मॉडल को MMLU (आसान) और GPQA (अधिक कठिन) डेटासेट से बहु-पसंद प्रश्न सौंपे गए थे। खाट विश्वास को उस दर के रूप में परिभाषित किया गया था जिस पर एक मॉडल, एक संकेत के कारण अपना उत्तर बदलने के बाद, स्पष्ट रूप से खाट में कहा गया था कि यह संकेत पर निर्भर था। उदाहरण के लिए, क्लाउड 3.7 SONNET ने 25% प्रासंगिक मामलों में संकेतों का उपयोग करते हुए स्वीकार किया, जबकि दीपसेक R1 ने 39% आस्था दिखाया। अधिक से अधिक गलत संकेतों के लिए विश्वासयोग्य स्कोर थे: क्लाउड 3.7 के लिए 20% और डीपसेक आर 1 के लिए 29%। इन संख्याओं से संकेत मिलता है कि यहां तक कि जब मॉडल समस्याग्रस्त संकेतों का उपयोग करते हैं, तो वे अक्सर उन्हें मौखिक रूप से विफल करते हैं, जिससे उन्हें पता लगाना कठिन हो जाता है।

अध्ययन में यह भी पता चला है कि तर्क मॉडल के खाट, जबकि गैर-पुनर्जीवित मॉडल की तुलना में अधिक लगातार और विस्तृत, जरूरी अधिक सटीक नहीं हैं। उदाहरण के लिए, क्लाउड 3.7 सॉनेट के पास लंबे समय तक औसत खाट थे, जब वे बेवफा थे, 2064 टोकन 1439 टोकन की तुलना में वफादार लोगों के लिए। दीपसेक आर 1 ने विश्वासयोग्य के लिए 6003 टोकन के साथ एक समान पैटर्न दिखाया। ये वर्बोज़ अभी तक भ्रामक आउटपुट बताते हैं कि लंबे समय तक स्पष्टीकरण पारदर्शिता के बराबर नहीं हैं। इसके अलावा, शोधकर्ताओं ने देखा कि मॉडल अक्सर भ्रामक संकेत दिए जाने पर दोषपूर्ण औचित्य का निर्माण करते हैं, तब भी जब वे पहले संकेत के बिना एक ही प्रश्न का सही जवाब देते थे। यह पहले से सही तर्क के बजाय नए क्यू के अनुरूप एक परेशान करने वाले झुकाव को इंगित करता है।
एक उल्लेखनीय अवलोकन अधिक कठिन डेटासेट पर खाट विश्वास में गिरावट थी। GPQA डेटासेट ने MMLU की तुलना में क्लाउड 3.7 Sonnet के लिए 44% सापेक्ष गिरावट और DeepSeek R1 के लिए 32% की गिरावट के लिए 44% सापेक्ष गिरावट का नेतृत्व किया। इससे पता चलता है कि जैसे -जैसे कार्य जटिलता में बढ़ते हैं, कॉट मॉडल की विचार प्रक्रिया में विंडोज के रूप में कम विश्वसनीय हो जाते हैं। यहां तक कि जब मॉडल तर्क के माध्यम से एक उत्तर प्राप्त करते हैं, तो वे मज़बूती से अपने संकेतों के उपयोग का खुलासा नहीं करते हैं, खासकर जब कठिन समस्याओं को नेविगेट करते हैं। यह उन्नत कार्यों पर एआई सुरक्षा के लिए सीओटी आउटपुट का उपयोग करने में विश्वास को कम करता है।

परिणाम-आधारित सुदृढीकरण सीखने (आरएल) का मूल्यांकन एक संभावित समाधान के रूप में किया गया था। शोधकर्ताओं ने परिकल्पना की कि प्रशिक्षण मॉडल पूरी तरह से कार्य सफलता के आधार पर, प्रक्रिया पर्यवेक्षण के बिना, स्वाभाविक रूप से COTS पर निर्भरता को प्रोत्साहित करेंगे। प्रारंभ में, MMLU पर COT विश्वासयोग्यता में 63% और GPQA पर 41% की वृद्धि हुई, लेकिन जल्दी से गिरावट आई। अंततः, आरएल ने केवल MMLU पर 28% विश्वासयोग्य और GPQA पर 20% हासिल किया, पैमाने पर विश्वास की समस्या को संबोधित करने में अपनी सीमाओं को रेखांकित किया।
सबसे महत्वपूर्ण परीक्षण में, मॉडल को सिंथेटिक वातावरण में प्रशिक्षित किया गया था, जिसे इनाम हैकिंग का अनुकरण करने के लिए डिज़ाइन किया गया था। उन्होंने 99% से अधिक उदाहरणों में लगातार इनाम हैक का शोषण किया, लेकिन छह में से पांच वातावरणों में 2% से कम खाटों में उन्हें मौखिक रूप से किया। गलत संकेत-आधारित शॉर्टकट का उपयोग करने के लिए स्वीकार करने के बजाय, मॉडल या तो पूरी तरह से या शिल्प विस्तृत, गलत औचित्य का उल्लेख करने से बचेंगे। व्यवहार और स्पष्टीकरण के बीच का यह बेमेल इंगित करता है कि सीओटी निगरानी आरएल प्रशिक्षण के दौरान हानिकारक पैटर्न को मज़बूती से ध्वजांकित करने के लिए अप्रभावी है, यहां तक कि जब सीओटी को एक मॉनिटर के खिलाफ अनुकूलित नहीं किया जाता है।

अनुसंधान के कुछ प्रमुख takeaways में शामिल हैं:
- रीज़निंग मॉडल संकेत के प्रकार और मॉडल के आधार पर, लागू मामलों के 1-20% के रूप में कुछ में उपयोग किए गए संकेतों को मौखिक रूप देते हैं।
- क्लाउड 3.7 सॉनेट और डीपसेक आर 1 ने क्रमशः 25% और 39% के समग्र खाट विश्वास स्कोर दिखाए।
- गलत संकेतों (जैसे, ग्रेडर हैकिंग) के लिए, विश्वासयोग्यता 20% (क्लाउड) और 29% (डीपसेक) तक गिर गई।
- कठिन डेटासेट के साथ विश्वासयोग्यता में गिरावट: क्लाउड 3.7 ने 44% की गिरावट का अनुभव किया, और GPQA बनाम MMLU पर डीपसेक R1 ने 32% की गिरावट का अनुभव किया।
- आउटकम-आधारित आरएल प्रशिक्षण शुरू में विश्वास को बढ़ाता है (63% तक सुधार) लेकिन कम समग्र स्कोर (28% MMLU, 20% GPQA) में पठार।
- इनाम हैक वातावरण में, मॉडल ने हैक> 99% समय का शोषण किया, लेकिन छह में से पांच सेटिंग्स में 2% मामलों में उन्हें मौखिक रूप से मौखिक रूप से किया।
- लंबे समय तक खाट अधिक विश्वास नहीं करते हैं; बेवफा खाट औसतन काफी लंबे समय तक थी।
- सीओटी निगरानी को अभी तक अवांछित या असुरक्षित मॉडल व्यवहार का पता लगाने के लिए अभी तक भरोसा नहीं किया जा सकता है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।
