बड़े भाषा के मॉडल तेजी से गणित की समस्याओं को हल करने के लिए उपयोग किए जाते हैं जो वास्तविक दुनिया के तर्क कार्यों की नकल करते हैं। इन मॉडलों को तथ्यात्मक प्रश्नों का उत्तर देने की उनकी क्षमता के लिए परीक्षण किया जाता है और वे कितनी अच्छी तरह से बहु-चरण तार्किक प्रक्रियाओं को संभाल सकते हैं। गणितीय समस्या-समाधान यह जांचने के लिए एक विश्वसनीय तरीका प्रदान करता है कि क्या मॉडल आवश्यक जानकारी निकाल सकते हैं, जटिल बयानों को नेविगेट कर सकते हैं, और उत्तरों की सही गणना कर सकते हैं। यह क्षेत्र एआई की तार्किक और संज्ञानात्मक क्षमताओं की सीमा को समझने के लिए केंद्रीय हो गया है।
इस डोमेन में एक महत्वपूर्ण चिंता यह है कि ये मॉडल कैसे प्रदर्शन करते हैं जब उनके इनपुट साफ या स्वरूपित नहीं होते हैं। कई मामलों में, एलएलएमएस का सामना करने वाले प्रश्न अतिरिक्त पृष्ठभूमि की जानकारी, अप्रासंगिक विवरण, या यहां तक कि सूक्ष्म संकेत के साथ आते हैं जो उन्हें ट्रैक से दूर ले जा सकते हैं। जबकि मॉडल मानक बेंचमार्क समस्याओं पर अच्छा प्रदर्शन कर सकते हैं, महत्वपूर्ण जानकारी को अलग -थलग करने की उनकी क्षमता संदिग्ध बनी हुई है। इसने यह जांचने की आवश्यकता को बढ़ाया है कि विचलित करने वाले उनके तर्क को कैसे प्रभावित करते हैं और क्या वर्तमान मॉडल अप्रत्याशित, वास्तविक दुनिया के उपयोग के मामलों के लिए तैयार हैं।
पिछले उपकरण और बेंचमार्क ने ज्यादातर अच्छी तरह से गठित समस्या सेटों पर ध्यान केंद्रित किया है, जैसे कि GSM8K या गणित। फिर भी, GSM-symbolic और GSM-PLUS जैसे नए वेरिएंट ने प्रतीकात्मक विविधताओं और विचलित करने वाले सम्मिलन के तहत मॉडल प्रदर्शन का परीक्षण शुरू किया। इन उपकरणों ने एलएलएम में महत्वपूर्ण कमजोरियों को उजागर किया जब समस्या पाठ में छोटे परिवर्तनों का सामना करना पड़ा। उदाहरण के लिए, एक खंड का परिचय जो प्रासंगिक लगता है, लेकिन तार्किक रूप से बेमानी है, मॉडल सटीकता को 65%तक कम कर सकता है। इससे यह निष्कर्ष निकला कि मॉडल अक्सर वास्तविक तर्क के बजाय सतह के पैटर्न पर भरोसा करते हैं, जिसने अधिक यथार्थवादी और शोर परीक्षण स्थितियों में आगे की खोज को प्रेरित किया।
मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के शोधकर्ताओं की एक टीम ने यह मापने पर ध्यान केंद्रित किया है कि एलएलएम कैसे चार प्रकार के व्यवस्थित गड़बड़ी को संभालते हैं: अप्रासंगिक संदर्भ, पैथोलॉजिकल निर्देश, प्रासंगिक लेकिन गैर-आवश्यक जानकारी, और बाद के दो का एक संयोजन। टीम ने 13 बड़े भाषा मॉडल का मूल्यांकन किया-दोनों ओपन-सोर्स और वाणिज्यिक- ओपनई, एन्थ्रोप्रोपिक, कोहेरे और एक साथ द्वारा प्रदान किए गए एपीआई के माध्यम से। पूर्ण परीक्षण सेटों पर भरोसा करने के बजाय, टीम ने प्रति प्रयोग GSM8K डेटासेट से 56 डेटा बिंदुओं का नमूना लिया, यह सुनिश्चित करते हुए कि उन्होंने तर्क जटिलता के संतुलित वितरण पर कब्जा कर लिया।
इन परिवर्तित संकेतों का निर्माण करने के लिए, शोधकर्ताओं ने विकिपीडिया पेज या वित्तीय रिपोर्ट जैसे घने और अप्रासंगिक संदर्भों को इनपुट में जोड़ा। यह मॉडल के संदर्भ विंडो का 90% तक ले गया। पैथोलॉजिकल परिदृश्य में, भ्रामक निर्देशों को जोड़ा गया था, जिसे मूल प्रश्न को बदलने के बिना तर्क पथ में हेरफेर करने के लिए डिज़ाइन किया गया था। नए विवरण जो तथ्यात्मक रूप से सही थे, लेकिन प्रासंगिक संदर्भ मामले के लिए अनावश्यक रूप से डाला गया था, यह देखने के लिए कि मॉडल कैसे जानकारीपूर्ण दिखने वाले विकर्षणों को संभालते हैं। अंतिम संस्करण में, पैथोलॉजिकल और प्रासंगिक गड़बड़ी को संयुक्त किया गया था, जिससे इनपुट जटिलता में वृद्धि हुई, जबकि यह देखते हुए कि इस दोहरे दबाव ने मॉडल आउटपुट को कैसे प्रभावित किया।
अप्रासंगिक संदर्भ पेश किए जाने पर प्रदर्शन सबसे तेजी से गिरा। सभी मॉडलों के पार, औसत सटीकता 55.89%की गिरावट आई। पैथोलॉजिकल निर्देशों में 8.52% की गिरावट आई, जबकि प्रासंगिक संदर्भ में 7.01% की कमी हुई। दो प्रकार के गड़बड़ियों के संयोजन ने सटीकता में 12.91% की गिरावट का उत्पादन किया। दिलचस्प बात यह है कि प्रदर्शन ने मॉडल के आकार के साथ सहसंबंधित नहीं किया-कुछ छोटे मॉडलों की तुलना में मिक्सट्रल -8x22b और कमांड-आर-प्लस ने अधिक से अधिक प्रतिगमन का अनुभव किया। इसके अलावा, किसी समस्या में तर्क के चरणों की संख्या ने परिणाम को काफी प्रभावित नहीं किया, यह सुझाव देते हुए कि तार्किक संरचना में जटिलता प्रदर्शन विचरण में प्रमुख कारक नहीं थी।
इस अध्ययन से पता चलता है कि वर्तमान बड़े भाषा मॉडल, यहां तक कि अरबों मापदंडों वाले लोग, फिर भी संघर्ष करते हैं जब उनके संकेतों को अपेक्षाकृत सरल रूप से बदल दिया जाता है। MIT के शोधकर्ता यह प्रदर्शित करते हैं कि मॉडल लचीलापन आकार के साथ काफी सुधार नहीं करता है और यह कि जानकारी को फ़िल्टर करने और प्राथमिकता देने की क्षमता LLM डिजाइन में एक प्रमुख अंतर है। ये निष्कर्ष उन मॉडलों को विकसित करने के लिए धक्का देते हैं जो अव्यवस्थित और भ्रामक इनपुट से निपटने के लिए बेहतर तरीके से सुसज्जित हैं-वास्तविक दुनिया के वातावरण में विश्वसनीय एआई के करीब जाने के लिए एक आवश्यक कदम।
यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
