हाल के वर्षों में, एलएलएम की तेजी से प्रगति ने यह धारणा दी है कि हम आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) की उपलब्धि के पास हैं, जिसमें मॉडल तेजी से जटिल कार्यों को हल करने में सक्षम हैं। हालांकि, एक मौलिक प्रश्न बना हुआ है: क्या एलएलएम वास्तव में मनुष्यों की तरह तर्क दे रहे हैं या प्रशिक्षण के दौरान सीखे गए पैटर्न को दोहरा रहे हैं? GPT-3 और CHATGPT जैसे मॉडलों की रिहाई के बाद से, LLM ने AI और विज्ञान में सीमाओं को आगे बढ़ाते हुए, अनुसंधान परिदृश्य में क्रांति ला दी है। डेटा गुणवत्ता, मॉडल स्केलिंग, और मल्टी-स्टेप रीजनिंग सुधार ने एलएलएम को उच्च-स्तरीय एजीआई बेंचमार्क पास करने के करीब ला दिया है। फिर भी, उनकी वास्तविक तर्क क्षमताएं पूरी तरह से समझ में नहीं आती हैं। ऐसे उदाहरण जहां उन्नत मॉडल सरल गणित की समस्याओं को हल करने में विफल होते हैं – उनकी स्पष्ट सादगी के बावजूद – इस बारे में चिंता करते हैं कि क्या वे वास्तव में तर्क दे रहे हैं या केवल परिचित समाधान पैटर्न की नकल कर रहे हैं।
यद्यपि विभिन्न बेंचमार्क सामान्य ज्ञान, कोडिंग, गणित और तर्क जैसे डोमेन में एलएलएम का मूल्यांकन करने के लिए मौजूद हैं, कई याद किए गए टेम्प्लेट को लागू करके हल करने योग्य कार्यों पर भरोसा करते हैं। नतीजतन, एलएलएम की वास्तविक बुद्धिमत्ता और मजबूती बहस का विषय है। अध्ययन से पता चलता है कि एलएलएम सूक्ष्म संदर्भ बदलाव, सरल गणना, प्रतीकात्मक तर्क और आउट-ऑफ-डिस्ट्रिब्यूशन संकेतों के साथ संघर्ष करते हैं। इन कमजोरियों को गड़बड़ी की स्थिति या भ्रामक संकेतों के तहत प्रवर्धित किया जाता है। इसी तरह, मल्टी-मोडल एलएलएम, जीपीटी -4 वी और ल्लावा जैसे विज़न-लैंग्वेज मॉडल सहित, सूक्ष्म रूप से परिवर्तित दृश्य या पाठ्य इनपुट के साथ परीक्षण किए जाने पर कारण के बजाय पाठ करने की एक ही प्रवृत्ति दिखाते हैं। इससे पता चलता है कि सहज सहसंबंधों, संस्मरण, और अक्षम डिकोडिंग जैसे मुद्दे इन विफलताओं को कम कर सकते हैं, जो देखे गए प्रदर्शन और वास्तविक समझ के बीच एक अंतर का संकेत देते हैं।
बाईडेंस सीड और यूनिवर्सिटी ऑफ इलिनोइस उरबाना-शैंपेन शोधकर्ताओं ने रोर-बेंच का परिचय दिया, एक नया मल्टी-मोडल बेंचमार्क जो यह पहचानने के लिए डिज़ाइन किया गया है कि क्या एलएलएम वास्तविक तर्क के बजाय सवारी पर भरोसा करते हैं, जब सूक्ष्म रूप से परिवर्तित परिस्थितियों के साथ सरल समस्याओं को हल करते हैं। बेंचमार्क में 158 पाठ और 57 छवि समस्या जोड़े शामिल हैं, जिनमें से प्रत्येक में थोड़ा संशोधित संस्करण के साथ एक बुनियादी तर्क कार्य है। प्रयोगों से पता चलता है कि Openai-O1 और DeepSeek-R1 जैसे प्रमुख मॉडल में कठोर प्रदर्शन की गिरावट होती है-अक्सर 60% से अधिक मामूली परिवर्तनों के साथ। खतरनाक रूप से, अधिकांश मॉडल अघोषित समस्याओं को पहचानने के लिए संघर्ष करते हैं – प्रॉम्प्ट इंजीनियरिंग जैसे प्रवीण सुधार सीमित सुधार की पेशकश करते हैं, गहरे समाधान की आवश्यकता पर जोर देते हैं।
ROR-BENCH एक चीनी मल्टीमॉडल बेंचमार्क है जो यह आकलन करने के लिए बनाया गया है कि क्या LLMS सही तर्क के बजाय याद किए गए समाधान पैटर्न पर निर्भर हैं। इसमें 215 समस्या जोड़े -158 पाठ-आधारित और 57 छवि-आधारित शामिल हैं-जहां प्रत्येक जोड़ी में एक मूल और एक सूक्ष्म रूप से परिवर्तित संस्करण शामिल है। मूल समस्याएं सरल हैं, अक्सर बच्चों की पहेली सेट से, जबकि संशोधित वाले मामूली परिवर्तनों का परिचय देते हैं जिनके लिए पूरी तरह से अलग तर्क की आवश्यकता होती है। एनोटेटर्स ने न्यूनतम शब्दों में परिवर्तन और कोई अस्पष्टता नहीं सुनिश्चित की। विशेष रूप से, कुछ समस्याओं को कोई समाधान या असंबंधित जानकारी की सुविधा के लिए डिज़ाइन किया गया है, जो कि अतार्किक स्थितियों को पहचानने और पाठ-आधारित उत्तरों का विरोध करने के लिए एलएलएम की क्षमता का परीक्षण करते हैं।
अध्ययन आरओआर-बेंच बेंचमार्क पर अग्रणी एलएलएम और वीएलएम का अनुभव करता है, जो केवल सीखे हुए पैटर्न को याद करने के बजाय सूक्ष्म समस्या परिवर्तनों के माध्यम से उनकी क्षमता पर ध्यान केंद्रित करता है। परिणामों से पता चलता है कि अधिकांश मॉडल एक महत्वपूर्ण प्रदर्शन ड्रॉप पीड़ित होते हैं – अक्सर 50% से अधिक जब थोड़ी संशोधित समस्याओं पर परीक्षण किया जाता है, वास्तविक तर्क के बजाय संस्मरण पर निर्भरता का सुझाव देता है। यहां तक कि चेन-ऑफ-थॉट प्रॉम्प्टिंग या “मजबूर सही” निर्देश जैसी तकनीकें सीमित सुधार प्रदान करती हैं। कुछ-शॉट इन-संदर्भ सीखने से कुछ लाभ दिखाते हैं, विशेष रूप से बढ़े हुए उदाहरणों या जोड़े गए निर्देशों के साथ, लेकिन फिर भी अंतर को बंद करने में विफल रहता है। कुल मिलाकर, ये निष्कर्ष अनुकूली तर्क में वर्तमान मॉडलों की सीमाओं को उजागर करते हैं।
अंत में, अध्ययन में वर्तमान बड़ी भाषा मॉडल में एक महत्वपूर्ण दोष को उजागर करने के लिए डिज़ाइन किए गए एक चीनी मल्टीमॉडल बेंचमार्क रोर-बेंच का परिचय दिया गया है: समस्या की स्थिति को थोड़ा बदल देने पर सरल तर्क कार्यों को संभालने में उनकी असमर्थता। महत्वपूर्ण प्रदर्शन ड्रॉप- अक्सर 50% से अधिक का सुझाव है कि ये मॉडल सही तर्क के बजाय संस्मरण पर भरोसा करते हैं। यहां तक कि अतिरिक्त संकेतों या कुछ-शॉट उदाहरणों के साथ, यह मुद्दा काफी हद तक अनसुलझा रहता है। जबकि बेंचमार्क चीनी तक सीमित है, प्रारंभिक अंग्रेजी परिणाम समान कमजोरियों का संकेत देते हैं। निष्कर्ष एलएलएम इंटेलिजेंस के बारे में मान्यताओं को चुनौती देते हैं और भविष्य के अनुसंधान के लिए कॉल करते हैं ताकि उन मॉडलों को विकसित किया जा सके जो प्रशिक्षण डेटा से सीखे हुए पैटर्न को पढ़ने के बजाय वास्तव में कारण बनते हैं।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
