Wednesday, April 16, 2025

लॉजिक से भ्रम तक: एमआईटी शोधकर्ता दिखाते हैं कि सरल प्रॉम्प्ट ट्विक्स डील एलएलएम रीजनिंग कैसे होता है – Gadgets Solutions

-

बड़े भाषा के मॉडल तेजी से गणित की समस्याओं को हल करने के लिए उपयोग किए जाते हैं जो वास्तविक दुनिया के तर्क कार्यों की नकल करते हैं। इन मॉडलों को तथ्यात्मक प्रश्नों का उत्तर देने की उनकी क्षमता के लिए परीक्षण किया जाता है और वे कितनी अच्छी तरह से बहु-चरण तार्किक प्रक्रियाओं को संभाल सकते हैं। गणितीय समस्या-समाधान यह जांचने के लिए एक विश्वसनीय तरीका प्रदान करता है कि क्या मॉडल आवश्यक जानकारी निकाल सकते हैं, जटिल बयानों को नेविगेट कर सकते हैं, और उत्तरों की सही गणना कर सकते हैं। यह क्षेत्र एआई की तार्किक और संज्ञानात्मक क्षमताओं की सीमा को समझने के लिए केंद्रीय हो गया है।

इस डोमेन में एक महत्वपूर्ण चिंता यह है कि ये मॉडल कैसे प्रदर्शन करते हैं जब उनके इनपुट साफ या स्वरूपित नहीं होते हैं। कई मामलों में, एलएलएमएस का सामना करने वाले प्रश्न अतिरिक्त पृष्ठभूमि की जानकारी, अप्रासंगिक विवरण, या यहां तक ​​कि सूक्ष्म संकेत के साथ आते हैं जो उन्हें ट्रैक से दूर ले जा सकते हैं। जबकि मॉडल मानक बेंचमार्क समस्याओं पर अच्छा प्रदर्शन कर सकते हैं, महत्वपूर्ण जानकारी को अलग -थलग करने की उनकी क्षमता संदिग्ध बनी हुई है। इसने यह जांचने की आवश्यकता को बढ़ाया है कि विचलित करने वाले उनके तर्क को कैसे प्रभावित करते हैं और क्या वर्तमान मॉडल अप्रत्याशित, वास्तविक दुनिया के उपयोग के मामलों के लिए तैयार हैं।

पिछले उपकरण और बेंचमार्क ने ज्यादातर अच्छी तरह से गठित समस्या सेटों पर ध्यान केंद्रित किया है, जैसे कि GSM8K या गणित। फिर भी, GSM-symbolic और GSM-PLUS जैसे नए वेरिएंट ने प्रतीकात्मक विविधताओं और विचलित करने वाले सम्मिलन के तहत मॉडल प्रदर्शन का परीक्षण शुरू किया। इन उपकरणों ने एलएलएम में महत्वपूर्ण कमजोरियों को उजागर किया जब समस्या पाठ में छोटे परिवर्तनों का सामना करना पड़ा। उदाहरण के लिए, एक खंड का परिचय जो प्रासंगिक लगता है, लेकिन तार्किक रूप से बेमानी है, मॉडल सटीकता को 65%तक कम कर सकता है। इससे यह निष्कर्ष निकला कि मॉडल अक्सर वास्तविक तर्क के बजाय सतह के पैटर्न पर भरोसा करते हैं, जिसने अधिक यथार्थवादी और शोर परीक्षण स्थितियों में आगे की खोज को प्रेरित किया।

लॉजिक से भ्रम तक: एमआईटी शोधकर्ता दिखाते हैं कि सरल प्रॉम्प्ट ट्विक्स डील एलएलएम रीजनिंग कैसे होता है
 – Gadgets Solutions

मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के शोधकर्ताओं की एक टीम ने यह मापने पर ध्यान केंद्रित किया है कि एलएलएम कैसे चार प्रकार के व्यवस्थित गड़बड़ी को संभालते हैं: अप्रासंगिक संदर्भ, पैथोलॉजिकल निर्देश, प्रासंगिक लेकिन गैर-आवश्यक जानकारी, और बाद के दो का एक संयोजन। टीम ने 13 बड़े भाषा मॉडल का मूल्यांकन किया-दोनों ओपन-सोर्स और वाणिज्यिक- ओपनई, एन्थ्रोप्रोपिक, कोहेरे और एक साथ द्वारा प्रदान किए गए एपीआई के माध्यम से। पूर्ण परीक्षण सेटों पर भरोसा करने के बजाय, टीम ने प्रति प्रयोग GSM8K डेटासेट से 56 डेटा बिंदुओं का नमूना लिया, यह सुनिश्चित करते हुए कि उन्होंने तर्क जटिलता के संतुलित वितरण पर कब्जा कर लिया।

इन परिवर्तित संकेतों का निर्माण करने के लिए, शोधकर्ताओं ने विकिपीडिया पेज या वित्तीय रिपोर्ट जैसे घने और अप्रासंगिक संदर्भों को इनपुट में जोड़ा। यह मॉडल के संदर्भ विंडो का 90% तक ले गया। पैथोलॉजिकल परिदृश्य में, भ्रामक निर्देशों को जोड़ा गया था, जिसे मूल प्रश्न को बदलने के बिना तर्क पथ में हेरफेर करने के लिए डिज़ाइन किया गया था। नए विवरण जो तथ्यात्मक रूप से सही थे, लेकिन प्रासंगिक संदर्भ मामले के लिए अनावश्यक रूप से डाला गया था, यह देखने के लिए कि मॉडल कैसे जानकारीपूर्ण दिखने वाले विकर्षणों को संभालते हैं। अंतिम संस्करण में, पैथोलॉजिकल और प्रासंगिक गड़बड़ी को संयुक्त किया गया था, जिससे इनपुट जटिलता में वृद्धि हुई, जबकि यह देखते हुए कि इस दोहरे दबाव ने मॉडल आउटपुट को कैसे प्रभावित किया।

अप्रासंगिक संदर्भ पेश किए जाने पर प्रदर्शन सबसे तेजी से गिरा। सभी मॉडलों के पार, औसत सटीकता 55.89%की गिरावट आई। पैथोलॉजिकल निर्देशों में 8.52% की गिरावट आई, जबकि प्रासंगिक संदर्भ में 7.01% की कमी हुई। दो प्रकार के गड़बड़ियों के संयोजन ने सटीकता में 12.91% की गिरावट का उत्पादन किया। दिलचस्प बात यह है कि प्रदर्शन ने मॉडल के आकार के साथ सहसंबंधित नहीं किया-कुछ छोटे मॉडलों की तुलना में मिक्सट्रल -8x22b और कमांड-आर-प्लस ने अधिक से अधिक प्रतिगमन का अनुभव किया। इसके अलावा, किसी समस्या में तर्क के चरणों की संख्या ने परिणाम को काफी प्रभावित नहीं किया, यह सुझाव देते हुए कि तार्किक संरचना में जटिलता प्रदर्शन विचरण में प्रमुख कारक नहीं थी।

इस अध्ययन से पता चलता है कि वर्तमान बड़े भाषा मॉडल, यहां तक ​​कि अरबों मापदंडों वाले लोग, फिर भी संघर्ष करते हैं जब उनके संकेतों को अपेक्षाकृत सरल रूप से बदल दिया जाता है। MIT के शोधकर्ता यह प्रदर्शित करते हैं कि मॉडल लचीलापन आकार के साथ काफी सुधार नहीं करता है और यह कि जानकारी को फ़िल्टर करने और प्राथमिकता देने की क्षमता LLM डिजाइन में एक प्रमुख अंतर है। ये निष्कर्ष उन मॉडलों को विकसित करने के लिए धक्का देते हैं जो अव्यवस्थित और भ्रामक इनपुट से निपटने के लिए बेहतर तरीके से सुसज्जित हैं-वास्तविक दुनिया के वातावरण में विश्वसनीय एआई के करीब जाने के लिए एक आवश्यक कदम।


यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »