Tuesday, April 15, 2025

रोर-बेंच: सूक्ष्म संदर्भ बदलाव के माध्यम से बड़े भाषा मॉडल में तर्क पर सवारी का खुलासा करना – Gadgets Solutions

-

हाल के वर्षों में, एलएलएम की तेजी से प्रगति ने यह धारणा दी है कि हम आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) की उपलब्धि के पास हैं, जिसमें मॉडल तेजी से जटिल कार्यों को हल करने में सक्षम हैं। हालांकि, एक मौलिक प्रश्न बना हुआ है: क्या एलएलएम वास्तव में मनुष्यों की तरह तर्क दे रहे हैं या प्रशिक्षण के दौरान सीखे गए पैटर्न को दोहरा रहे हैं? GPT-3 और CHATGPT जैसे मॉडलों की रिहाई के बाद से, LLM ने AI और विज्ञान में सीमाओं को आगे बढ़ाते हुए, अनुसंधान परिदृश्य में क्रांति ला दी है। डेटा गुणवत्ता, मॉडल स्केलिंग, और मल्टी-स्टेप रीजनिंग सुधार ने एलएलएम को उच्च-स्तरीय एजीआई बेंचमार्क पास करने के करीब ला दिया है। फिर भी, उनकी वास्तविक तर्क क्षमताएं पूरी तरह से समझ में नहीं आती हैं। ऐसे उदाहरण जहां उन्नत मॉडल सरल गणित की समस्याओं को हल करने में विफल होते हैं – उनकी स्पष्ट सादगी के बावजूद – इस बारे में चिंता करते हैं कि क्या वे वास्तव में तर्क दे रहे हैं या केवल परिचित समाधान पैटर्न की नकल कर रहे हैं।

यद्यपि विभिन्न बेंचमार्क सामान्य ज्ञान, कोडिंग, गणित और तर्क जैसे डोमेन में एलएलएम का मूल्यांकन करने के लिए मौजूद हैं, कई याद किए गए टेम्प्लेट को लागू करके हल करने योग्य कार्यों पर भरोसा करते हैं। नतीजतन, एलएलएम की वास्तविक बुद्धिमत्ता और मजबूती बहस का विषय है। अध्ययन से पता चलता है कि एलएलएम सूक्ष्म संदर्भ बदलाव, सरल गणना, प्रतीकात्मक तर्क और आउट-ऑफ-डिस्ट्रिब्यूशन संकेतों के साथ संघर्ष करते हैं। इन कमजोरियों को गड़बड़ी की स्थिति या भ्रामक संकेतों के तहत प्रवर्धित किया जाता है। इसी तरह, मल्टी-मोडल एलएलएम, जीपीटी -4 वी और ल्लावा जैसे विज़न-लैंग्वेज मॉडल सहित, सूक्ष्म रूप से परिवर्तित दृश्य या पाठ्य इनपुट के साथ परीक्षण किए जाने पर कारण के बजाय पाठ करने की एक ही प्रवृत्ति दिखाते हैं। इससे पता चलता है कि सहज सहसंबंधों, संस्मरण, और अक्षम डिकोडिंग जैसे मुद्दे इन विफलताओं को कम कर सकते हैं, जो देखे गए प्रदर्शन और वास्तविक समझ के बीच एक अंतर का संकेत देते हैं।

बाईडेंस सीड और यूनिवर्सिटी ऑफ इलिनोइस उरबाना-शैंपेन शोधकर्ताओं ने रोर-बेंच का परिचय दिया, एक नया मल्टी-मोडल बेंचमार्क जो यह पहचानने के लिए डिज़ाइन किया गया है कि क्या एलएलएम वास्तविक तर्क के बजाय सवारी पर भरोसा करते हैं, जब सूक्ष्म रूप से परिवर्तित परिस्थितियों के साथ सरल समस्याओं को हल करते हैं। बेंचमार्क में 158 पाठ और 57 छवि समस्या जोड़े शामिल हैं, जिनमें से प्रत्येक में थोड़ा संशोधित संस्करण के साथ एक बुनियादी तर्क कार्य है। प्रयोगों से पता चलता है कि Openai-O1 और DeepSeek-R1 जैसे प्रमुख मॉडल में कठोर प्रदर्शन की गिरावट होती है-अक्सर 60% से अधिक मामूली परिवर्तनों के साथ। खतरनाक रूप से, अधिकांश मॉडल अघोषित समस्याओं को पहचानने के लिए संघर्ष करते हैं – प्रॉम्प्ट इंजीनियरिंग जैसे प्रवीण सुधार सीमित सुधार की पेशकश करते हैं, गहरे समाधान की आवश्यकता पर जोर देते हैं।

ROR-BENCH एक चीनी मल्टीमॉडल बेंचमार्क है जो यह आकलन करने के लिए बनाया गया है कि क्या LLMS सही तर्क के बजाय याद किए गए समाधान पैटर्न पर निर्भर हैं। इसमें 215 समस्या जोड़े -158 पाठ-आधारित और 57 छवि-आधारित शामिल हैं-जहां प्रत्येक जोड़ी में एक मूल और एक सूक्ष्म रूप से परिवर्तित संस्करण शामिल है। मूल समस्याएं सरल हैं, अक्सर बच्चों की पहेली सेट से, जबकि संशोधित वाले मामूली परिवर्तनों का परिचय देते हैं जिनके लिए पूरी तरह से अलग तर्क की आवश्यकता होती है। एनोटेटर्स ने न्यूनतम शब्दों में परिवर्तन और कोई अस्पष्टता नहीं सुनिश्चित की। विशेष रूप से, कुछ समस्याओं को कोई समाधान या असंबंधित जानकारी की सुविधा के लिए डिज़ाइन किया गया है, जो कि अतार्किक स्थितियों को पहचानने और पाठ-आधारित उत्तरों का विरोध करने के लिए एलएलएम की क्षमता का परीक्षण करते हैं।

अध्ययन आरओआर-बेंच बेंचमार्क पर अग्रणी एलएलएम और वीएलएम का अनुभव करता है, जो केवल सीखे हुए पैटर्न को याद करने के बजाय सूक्ष्म समस्या परिवर्तनों के माध्यम से उनकी क्षमता पर ध्यान केंद्रित करता है। परिणामों से पता चलता है कि अधिकांश मॉडल एक महत्वपूर्ण प्रदर्शन ड्रॉप पीड़ित होते हैं – अक्सर 50% से अधिक जब थोड़ी संशोधित समस्याओं पर परीक्षण किया जाता है, वास्तविक तर्क के बजाय संस्मरण पर निर्भरता का सुझाव देता है। यहां तक ​​कि चेन-ऑफ-थॉट प्रॉम्प्टिंग या “मजबूर सही” निर्देश जैसी तकनीकें सीमित सुधार प्रदान करती हैं। कुछ-शॉट इन-संदर्भ सीखने से कुछ लाभ दिखाते हैं, विशेष रूप से बढ़े हुए उदाहरणों या जोड़े गए निर्देशों के साथ, लेकिन फिर भी अंतर को बंद करने में विफल रहता है। कुल मिलाकर, ये निष्कर्ष अनुकूली तर्क में वर्तमान मॉडलों की सीमाओं को उजागर करते हैं।

रोर-बेंच: सूक्ष्म संदर्भ बदलाव के माध्यम से बड़े भाषा मॉडल में तर्क पर सवारी का खुलासा करना
 – Gadgets Solutions

अंत में, अध्ययन में वर्तमान बड़ी भाषा मॉडल में एक महत्वपूर्ण दोष को उजागर करने के लिए डिज़ाइन किए गए एक चीनी मल्टीमॉडल बेंचमार्क रोर-बेंच का परिचय दिया गया है: समस्या की स्थिति को थोड़ा बदल देने पर सरल तर्क कार्यों को संभालने में उनकी असमर्थता। महत्वपूर्ण प्रदर्शन ड्रॉप- अक्सर 50% से अधिक का सुझाव है कि ये मॉडल सही तर्क के बजाय संस्मरण पर भरोसा करते हैं। यहां तक ​​कि अतिरिक्त संकेतों या कुछ-शॉट उदाहरणों के साथ, यह मुद्दा काफी हद तक अनसुलझा रहता है। जबकि बेंचमार्क चीनी तक सीमित है, प्रारंभिक अंग्रेजी परिणाम समान कमजोरियों का संकेत देते हैं। निष्कर्ष एलएलएम इंटेलिजेंस के बारे में मान्यताओं को चुनौती देते हैं और भविष्य के अनुसंधान के लिए कॉल करते हैं ताकि उन मॉडलों को विकसित किया जा सके जो प्रशिक्षण डेटा से सीखे हुए पैटर्न को पढ़ने के बजाय वास्तव में कारण बनते हैं।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »