Thursday, April 24, 2025

अनुक्रमिक-एनआईएएच: लंबे ग्रंथों से अनुक्रमिक जानकारी निकालने में एलएलएम के मूल्यांकन के लिए एक बेंचमार्क – Gadgets Solutions

-

यह मूल्यांकन करना कि एलएलएम लंबे संदर्भों को कितनी अच्छी तरह से संभालते हैं, विशेष रूप से लंबे समय तक इनपुट में एम्बेडेड विशिष्ट, प्रासंगिक जानकारी को पुनः प्राप्त करने के लिए। कई हालिया एलएलएम- जैसे कि मिथुन-1.5, जीपीटी -4, क्लाउड -3.5, क्यूवेन -2.5, और अन्य-ने मजबूत तर्क क्षमताओं को बनाए रखने के लिए प्रयास करते हुए संदर्भ लंबाई की सीमाओं को धक्का दिया है। ऐसी क्षमताओं का आकलन करने के लिए, bench, लॉन्गबेंच, और एल-ईवल जैसे बेंचमार्क विकसित किए गए हैं। हालांकि, ये अक्सर “सुई-इन-ए-हैस्टैक” (NIAH) कार्य को नजरअंदाज करते हैं, जो मॉडल को मुख्य रूप से अप्रासंगिक सामग्री से जानकारी के कुछ महत्वपूर्ण टुकड़ों को पुनः प्राप्त करने के लिए चुनौती देता है। इससे पहले बेंचमार्क, जैसे कि शासक और काउंटिंग-स्टार्स, ने सिंथेटिक और सरलीकृत NIAH सेटअप की पेशकश की, पासवर्ड या प्रतीकों जैसे आइटम का उपयोग किया। सुईबेंच ने अधिक यथार्थवादी, शब्दार्थ रूप से सार्थक सुइयों और तार्किक तर्क प्रश्नों को शामिल करके इसमें सुधार किया। फिर भी, यह अभी भी अनुक्रमिक जानकारी के पुनर्प्राप्ति और सही क्रम से जुड़े कार्यों का अभाव है, जैसे कि टाइमस्टैम्प या प्रक्रियात्मक कदम।

LLMS की लंबी-संदर्भ क्षमताओं को बढ़ाने के प्रयासों ने Mamba और FlashButterfly जैसे मॉडलों में देखे गए वास्तुशिल्प परिवर्तनों के साथ-साथ रस्सी, अलीबी और मेमोरी-आधारित तकनीकों जैसे तरीकों को नियोजित किया है। आधुनिक एलएलएम अब व्यापक संदर्भों का समर्थन करते हैं- Gemini 1.5 और किमी 1-2 मिलियन टोकन तक की प्रक्रिया कर सकते हैं। NIAH बेंचमार्क आकलन करते हैं कि कैसे प्रभावी रूप से मॉडल पाठ की विशाल मात्रा से प्रासंगिक डेटा निकाल सकते हैं, और सुईबेंच आगे वास्तविक दुनिया के परिदृश्यों का अनुकरण करने के लिए तार्किक संबंधों को शामिल करता है। मूल्यांकन के बारे में, प्राकृतिक भाषा उत्पादन (एनएलजी) प्रदर्शन का मूल्यांकन आमतौर पर एलएलएम, प्रॉम्प्ट-आधारित मूल्यांकन, फाइन-ट्यून्ड मॉडल या मानव-एलएलएम सहयोग से प्राप्त मैट्रिक्स का उपयोग करके किया जाता है। अकेले ही अक्सर अंडरपरफॉर्म, फाइन-ट्यूनिंग और ह्यूमन-इन-द-लूप के तरीके मूल्यांकन सटीकता और विश्वसनीयता को बहुत बढ़ा सकते हैं।

Tencent YouTu Lab के शोधकर्ताओं ने अनुक्रमिक-NIAH को पेश किया है, एक बेंचमार्क जो यह आकलन करने के लिए डिज़ाइन किया गया है कि LLMS कैसे अनुक्रमिक जानकारी प्राप्त करता है, जिसे सुई के रूप में संदर्भित किया जाता है, लंबे ग्रंथों से। बेंचमार्क में सिंथेटिक, वास्तविक और ओपन-डोमेन क्यूए सुई शामिल हैं जो 8K से 128K टोकन तक के संदर्भों में एम्बेडेड हैं, कुल 14,000 नमूने हैं। एक सिंथेटिक डेटा-प्रशिक्षित मूल्यांकन मॉडल ने प्रतिक्रियाओं की शुद्धता और क्रम को पहचानने में 99.49% सटीकता प्राप्त की। हालांकि, छह लोकप्रिय एलएलएम पर परीक्षणों ने केवल 63.15%पर उच्चतम प्रदर्शन दिखाया, जो कार्य की कठिनाई और लंबे समय से संदर्भों में आगे की उन्नति की आवश्यकता को उजागर करता है।

अनुक्रमिक-एनआईएएच बेंचमार्क लंबे ग्रंथों (हेस्टैक्स) से क्रमिक रूप से आदेशित सूचना (सुई) को पुनः प्राप्त करने पर मॉडल का मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह तीन प्रकार के क्यूए संश्लेषण पाइपलाइनों का उपयोग करता है: सिंथेटिक (क्रम में उत्पन्न घटनाएं), वास्तविक (अस्थायी ज्ञान ग्राफ़ से निकाला गया), और ओपन-डोमेन क्यूए (तार्किक रूप से आदेश दिए गए उत्तर)। इन क्यूए जोड़े को विभिन्न डोमेन को कवर करते हुए, लॉन्गडाटा कॉर्पस से प्राप्त विविध, लंबे ग्रंथों में डाला जाता है। नमूनों का निर्माण करने के लिए, लंबे पाठ को खंडित किया जाता है, सुइयों को बेतरतीब ढंग से फेरबदल और एम्बेडेड किया जाता है, और कार्य को त्वरित टेम्प्लेट का उपयोग करके फंसाया जाता है। अंतिम डेटासेट में 14,000 नमूने शामिल हैं, जो अंग्रेजी और चीनी दोनों में प्रशिक्षण, विकास और परीक्षण सेट में विभाजित हैं।

मूल्यांकन मॉडल का परीक्षण क्लाउड -3.5, GPT-4O, और अन्य लोगों के खिलाफ 1,960 नमूनों पर किया गया था, जो 99.49% सटीकता प्राप्त करता है। यह महत्वपूर्ण मार्जिन द्वारा GPT-4O (96.07%) और क्लाउड -3.5 (87.09%) से बेहतर प्रदर्शन करता है। 2,000 नमूनों पर बाद के बेंचमार्क परीक्षणों में, मिथुन-1.5 ने 63.15%की सटीकता के साथ अन्य मॉडलों को बेहतर बनाया, जबकि GPT-4O-MINI और GPT-4O ने खराब प्रदर्शन किया। पाठ की लंबाई, सुइयों की संख्या, क्यूए संश्लेषण पाइपलाइनों और भाषाओं के साथ प्रदर्शन, मिथुन -1.5 के साथ स्थिर परिणाम बनाए रखने के साथ। एक शोर विश्लेषण से पता चला कि मामूली गड़बड़ी का सटीकता पर एक नगण्य प्रभाव था, लेकिन सुई की स्थिति में बड़ी बदलाव ने मॉडल की स्थिरता को कम कर दिया, विशेष रूप से Qwen-2.5 और llama-3.3 के लिए।

अनुक्रमिक-एनआईएएच: लंबे ग्रंथों से अनुक्रमिक जानकारी निकालने में एलएलएम के मूल्यांकन के लिए एक बेंचमार्क
 – Gadgets Solutions

अंत में, अनुक्रमिक-NIAH बेंचमार्क LLM का आकलन LLM का आकलन करता है, जो लंबी ग्रंथों (128,000 टोकन तक) से अनुक्रमिक जानकारी निकालने की उनकी क्षमता पर है। इसमें प्रशिक्षण, विकास और परीक्षण के लिए 14,000 नमूनों के साथ सिंथेटिक, वास्तविक और ओपन-डोमेन प्रश्न-उत्तर-पाइपलाइनों को शामिल किया गया है। क्लाउड, जीपीटी -4.0, मिथुन, लामा और क्यूवेन जैसे लोकप्रिय मॉडलों का परीक्षण करने के बावजूद, 63.15%पर सर्वश्रेष्ठ प्रदर्शन के साथ किसी ने भी उच्च सटीकता हासिल नहीं की। एक सिंथेटिक मूल्यांकन मॉडल ने परीक्षण डेटा पर 99.49% की सटीकता हासिल की। बेंचमार्क संदर्भ लंबाई और सुई की गिनती की चुनौतियों पर भी प्रकाश डालता है और शोर मजबूती परीक्षणों के माध्यम से मान्य है, जिससे यह एलएलएम अनुसंधान को आगे बढ़ाने के लिए मूल्यवान है।


इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »