लॉजिक से भ्रम तक: एमआईटी शोधकर्ता दिखाते हैं कि सरल प्रॉम्प्ट ट्विक्स डील एलएलएम रीजनिंग कैसे होता है – Gadgets Solutions

बड़े भाषा के मॉडल तेजी से गणित की समस्याओं को हल करने के लिए उपयोग किए जाते हैं जो वास्तविक दुनिया के तर्क कार्यों की नकल करते हैं। इन मॉडलों को तथ्यात्मक प्रश्नों का उत्तर देने की उनकी क्षमता के लिए परीक्षण किया जाता है और वे कितनी अच्छी तरह से बहु-चरण तार्किक प्रक्रियाओं को संभाल सकते हैं। गणितीय समस्या-समाधान यह जांचने के लिए एक विश्वसनीय तरीका प्रदान करता है कि क्या मॉडल आवश्यक जानकारी निकाल सकते हैं, जटिल बयानों को नेविगेट कर सकते हैं, और उत्तरों की सही गणना कर सकते हैं। यह क्षेत्र एआई की तार्किक और संज्ञानात्मक क्षमताओं की सीमा को समझने के लिए केंद्रीय हो गया है।

इस डोमेन में एक महत्वपूर्ण चिंता यह है कि ये मॉडल कैसे प्रदर्शन करते हैं जब उनके इनपुट साफ या स्वरूपित नहीं होते हैं। कई मामलों में, एलएलएमएस का सामना करने वाले प्रश्न अतिरिक्त पृष्ठभूमि की जानकारी, अप्रासंगिक विवरण, या यहां तक कि सूक्ष्म संकेत के साथ आते हैं जो उन्हें ट्रैक से दूर ले जा सकते हैं। जबकि मॉडल मानक बेंचमार्क समस्याओं पर अच्छा प्रदर्शन कर सकते हैं, महत्वपूर्ण जानकारी को अलग -थलग करने की उनकी क्षमता संदिग्ध बनी हुई है। इसने यह जांचने की आवश्यकता को बढ़ाया है कि विचलित करने वाले उनके तर्क को कैसे प्रभावित करते हैं और क्या वर्तमान मॉडल अप्रत्याशित, वास्तविक दुनिया के उपयोग के मामलों के लिए तैयार हैं।

पिछले उपकरण और बेंचमार्क ने ज्यादातर अच्छी तरह से गठित समस्या सेटों पर ध्यान केंद्रित किया है, जैसे कि GSM8K या गणित। फिर भी, GSM-symbolic और GSM-PLUS जैसे नए वेरिएंट ने प्रतीकात्मक विविधताओं और विचलित करने वाले सम्मिलन के तहत मॉडल प्रदर्शन का परीक्षण शुरू किया। इन उपकरणों ने एलएलएम में महत्वपूर्ण कमजोरियों को उजागर किया जब समस्या पाठ में छोटे परिवर्तनों का सामना करना पड़ा। उदाहरण के लिए, एक खंड का परिचय जो प्रासंगिक लगता है, लेकिन तार्किक रूप से बेमानी है, मॉडल सटीकता को 65%तक कम कर सकता है। इससे यह निष्कर्ष निकला कि मॉडल अक्सर वास्तविक तर्क के बजाय सतह के पैटर्न पर भरोसा करते हैं, जिसने अधिक यथार्थवादी और शोर परीक्षण स्थितियों में आगे की खोज को प्रेरित किया।

लॉजिक से भ्रम तक: एमआईटी शोधकर्ता दिखाते हैं कि सरल प्रॉम्प्ट ट्विक्स डील एलएलएम रीजनिंग कैसे होता है
– Gadgets Solutions

मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के शोधकर्ताओं की एक टीम ने यह मापने पर ध्यान केंद्रित किया है कि एलएलएम कैसे चार प्रकार के व्यवस्थित गड़बड़ी को संभालते हैं: अप्रासंगिक संदर्भ, पैथोलॉजिकल निर्देश, प्रासंगिक लेकिन गैर-आवश्यक जानकारी, और बाद के दो का एक संयोजन। टीम ने 13 बड़े भाषा मॉडल का मूल्यांकन किया-दोनों ओपन-सोर्स और वाणिज्यिक- ओपनई, एन्थ्रोप्रोपिक, कोहेरे और एक साथ द्वारा प्रदान किए गए एपीआई के माध्यम से। पूर्ण परीक्षण सेटों पर भरोसा करने के बजाय, टीम ने प्रति प्रयोग GSM8K डेटासेट से 56 डेटा बिंदुओं का नमूना लिया, यह सुनिश्चित करते हुए कि उन्होंने तर्क जटिलता के संतुलित वितरण पर कब्जा कर लिया।

इन परिवर्तित संकेतों का निर्माण करने के लिए, शोधकर्ताओं ने विकिपीडिया पेज या वित्तीय रिपोर्ट जैसे घने और अप्रासंगिक संदर्भों को इनपुट में जोड़ा। यह मॉडल के संदर्भ विंडो का 90% तक ले गया। पैथोलॉजिकल परिदृश्य में, भ्रामक निर्देशों को जोड़ा गया था, जिसे मूल प्रश्न को बदलने के बिना तर्क पथ में हेरफेर करने के लिए डिज़ाइन किया गया था। नए विवरण जो तथ्यात्मक रूप से सही थे, लेकिन प्रासंगिक संदर्भ मामले के लिए अनावश्यक रूप से डाला गया था, यह देखने के लिए कि मॉडल कैसे जानकारीपूर्ण दिखने वाले विकर्षणों को संभालते हैं। अंतिम संस्करण में, पैथोलॉजिकल और प्रासंगिक गड़बड़ी को संयुक्त किया गया था, जिससे इनपुट जटिलता में वृद्धि हुई, जबकि यह देखते हुए कि इस दोहरे दबाव ने मॉडल आउटपुट को कैसे प्रभावित किया।

अप्रासंगिक संदर्भ पेश किए जाने पर प्रदर्शन सबसे तेजी से गिरा। सभी मॉडलों के पार, औसत सटीकता 55.89%की गिरावट आई। पैथोलॉजिकल निर्देशों में 8.52% की गिरावट आई, जबकि प्रासंगिक संदर्भ में 7.01% की कमी हुई। दो प्रकार के गड़बड़ियों के संयोजन ने सटीकता में 12.91% की गिरावट का उत्पादन किया। दिलचस्प बात यह है कि प्रदर्शन ने मॉडल के आकार के साथ सहसंबंधित नहीं किया-कुछ छोटे मॉडलों की तुलना में मिक्सट्रल -8x22b और कमांड-आर-प्लस ने अधिक से अधिक प्रतिगमन का अनुभव किया। इसके अलावा, किसी समस्या में तर्क के चरणों की संख्या ने परिणाम को काफी प्रभावित नहीं किया, यह सुझाव देते हुए कि तार्किक संरचना में जटिलता प्रदर्शन विचरण में प्रमुख कारक नहीं थी।

इस अध्ययन से पता चलता है कि वर्तमान बड़े भाषा मॉडल, यहां तक कि अरबों मापदंडों वाले लोग, फिर भी संघर्ष करते हैं जब उनके संकेतों को अपेक्षाकृत सरल रूप से बदल दिया जाता है। MIT के शोधकर्ता यह प्रदर्शित करते हैं कि मॉडल लचीलापन आकार के साथ काफी सुधार नहीं करता है और यह कि जानकारी को फ़िल्टर करने और प्राथमिकता देने की क्षमता LLM डिजाइन में एक प्रमुख अंतर है। ये निष्कर्ष उन मॉडलों को विकसित करने के लिए धक्का देते हैं जो अव्यवस्थित और भ्रामक इनपुट से निपटने के लिए बेहतर तरीके से सुसज्जित हैं-वास्तविक दुनिया के वातावरण में विश्वसनीय एआई के करीब जाने के लिए एक आवश्यक कदम।

यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।

🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

लॉजिक से भ्रम तक: एमआईटी शोधकर्ता दिखाते हैं कि सरल प्रॉम्प्ट ट्विक्स डील एलएलएम रीजनिंग कैसे होता है – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US