Friday, April 11, 2025

मेटा एआई ने मल्टी-टोकन ध्यान (एमटीए) का प्रस्ताव किया है: एक नया ध्यान विधि जो एलएलएम को कई क्वेरी और प्रमुख वैक्टर पर उनके ध्यान को रखने की अनुमति देता है – Gadgets Solutions

-

बड़े भाषा मॉडल (एलएलएम) ध्यान तंत्र से काफी लाभान्वित होते हैं, जिससे प्रासंगिक जानकारी की प्रभावी पुनर्प्राप्ति सक्षम होती है। फिर भी, पारंपरिक ध्यान के तरीके मुख्य रूप से एकल टोकन ध्यान पर निर्भर करते हैं, जहां प्रत्येक ध्यान देने वाले वजन को क्वेरी और प्रमुख वैक्टर की एक जोड़ी से गणना की जाती है। यह डिज़ाइन स्वाभाविक रूप से मॉडल की क्षमता को समझने के लिए कई टोकन संकेतों के एकीकरण की आवश्यकता है, जिससे जटिल भाषाई निर्भरता पर इसकी प्रभावशीलता को सीमित किया जाता है। उदाहरण के लिए, “ऐलिस” और “खरगोश” दोनों युक्त वाक्यों की पहचान करना चुनौतीपूर्ण है क्योंकि पारंपरिक ध्यान तंत्र मॉडल जटिलता को बढ़ाने के बिना कुशलता से कई अलग -अलग ध्यान संकेतों को एकीकृत करने के लिए संघर्ष करते हैं।

मेटा एआई मल्टी-टोकन ध्यान (एमटीए) को पेश करके इस सीमा को संबोधित करता है, एक उन्नत ध्यान तंत्र जो कई क्वेरी और प्रमुख वैक्टर पर एक साथ वजन का ध्यान रखता है। एमटीए प्रश्नों, चाबियों और ध्यान प्रमुखों पर कन्वेंशन संचालन को एकीकृत करता है, इस प्रकार प्रासंगिक सूचना पुनर्प्राप्ति की सटीकता और दक्षता को बढ़ाता है। विशेष रूप से, एमटीए फ्रेमवर्क में दो कन्फ्यूशनल घटक होते हैं: की-क्वेरी कन्व्यूशन, जो व्यक्तिगत ध्यान देने वाले सिर के भीतर कई टोकन सिग्नल को एकत्र करता है, और हेड मिक्सिंग कन्व्यूशन, जो विभिन्न ध्यान प्रमुखों के बीच सूचना साझा करने की सुविधा प्रदान करता है। इसके अतिरिक्त, कार्यान्वयन ग्रेडिएंट फ्लो को स्थिर करने के लिए गहराई से निर्भर स्केलिंग के साथ समूह सामान्यीकरण को नियोजित करता है, जिससे मॉडल प्रशिक्षण स्थिरता और प्रभावकारिता में सुधार होता है।

मेटा एआई ने मल्टी-टोकन ध्यान (एमटीए) का प्रस्ताव किया है: एक नया ध्यान विधि जो एलएलएम को कई क्वेरी और प्रमुख वैक्टर पर उनके ध्यान को रखने की अनुमति देता है
 – Gadgets Solutions

एक तकनीकी स्तर पर, एमटीए सॉफ्टमैक्स सामान्यीकरण से पहले ध्यान लॉग्स पर दो-आयामी दृढ़ संकल्प संचालन को शामिल करके पारंपरिक ध्यान गणना को संशोधित करता है। यह दृढ़ संकल्प आसन्न प्रश्नों और कुंजी को ध्यान स्कोर को पारस्परिक रूप से प्रभावित करने की अनुमति देता है, इस प्रकार ध्यान तंत्र को कई टोकन को अधिक सटीक रूप से शामिल करने के लिए प्रासंगिक संबंधों की पहचान करने में सक्षम बनाता है। नतीजतन, मॉडल कुशलता से स्थानीय टोकन इंटरैक्शन को एकत्र करता है, जो मापदंडों की संख्या या ध्यान वैक्टर की आयामीता को काफी हद तक बढ़ाता है। इसके अलावा, हेड कन्वंट्रेशन कम प्रासंगिक जानकारी को कम करते हुए प्रासंगिक संदर्भ संकेतों को चुनिंदा रूप से बढ़ाते हुए, ध्यान प्रमुखों के बीच प्रभावी ज्ञान हस्तांतरण को बढ़ावा देता है। सामूहिक रूप से, इन संवर्द्धन जटिल बहु-टोकन इंटरैक्शन को कैप्चर करने में सक्षम एक अधिक मजबूत ध्यान तंत्र प्राप्त करते हैं।

अनुभवजन्य मूल्यांकन कई बेंचमार्क में एमटीए की प्रभावकारिता को मान्य करता है। एक संरचित प्रेरक कार्य में स्पष्ट रूप से एकल-टोकन ध्यान तंत्र की कमियों को चित्रित करने के लिए डिज़ाइन किया गया है, एमटीए ने लगभग 0.1%की त्रुटि दर को प्राप्त करते हुए, मानक ट्रांसफार्मर मॉडल के विपरीत, जो 50%से ऊपर त्रुटि दर का प्रदर्शन किया। 105 बिलियन टोकन पर प्रशिक्षित 880 मीटर-पैरामीटर मॉडल को शामिल करने वाले बड़े पैमाने पर प्रयोगों ने एमटीए को लगातार बेसलाइन आर्किटेक्चर से बेहतर प्रदर्शन किया। MTA ने Arxiv, GitHub और Wikipedia जैसे डेटासेट में बेहतर सत्यापन पेरप्लेक्सिटी स्कोर हासिल किया। विशेष रूप से, विस्तारित संदर्भ समझ की आवश्यकता वाले कार्यों में, जैसे कि सुई-इन-द-हेस्टैक और बाबिलोंग बेंचमार्क, एमटीए मानक ट्रांसफार्मर मॉडल के प्रदर्शन से काफी अधिक थे। कई सुइयों वाले 4K टोकन संदर्भों के साथ सुई-इन-द-हेटैक कार्य में, एमटीए ने 67% से 97.6% तक सटीकता प्राप्त की, जिसमें पर्याप्त मार्जिन द्वारा मानक मॉडल को पार किया गया।

सारांश में, मल्टी-टोकन ध्यान (एमटीए) पारंपरिक एकल-टोकन ध्यान की मूलभूत सीमाओं को संबोधित करके ध्यान तंत्र में एक परिष्कृत उन्नति प्रस्तुत करता है। कई क्वेरी-कुंजी इंटरैक्शन को समवर्ती रूप से एकीकृत करने के लिए दृढ़ संचालन संचालन का लाभ उठाते हुए, एमटीए जटिल प्रासंगिक निर्भरता को संभालने के लिए भाषा मॉडल की क्षमता को बढ़ाता है। ये पद्धतिगत सुधार अधिक सटीक और कुशल प्रदर्शन की सुविधा प्रदान करते हैं, विशेष रूप से जटिल टोकन इंटरैक्शन और लंबी दूरी की प्रासंगिक समझ से जुड़े परिदृश्यों में। मानक ध्यान तंत्रों के लिए लक्षित संशोधनों के माध्यम से, एमटीए अधिक परिष्कृत, सटीक और कम्प्यूटेशनल रूप से कुशल भाषा मॉडल के विकास में सार्थक योगदान देता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »