मेटा एआई ने मल्टी-टोकन ध्यान (एमटीए) का प्रस्ताव किया है: एक नया ध्यान विधि जो एलएलएम को कई क्वेरी और प्रमुख वैक्टर पर उनके ध्यान को रखने की अनुमति देता है – Gadgets Solutions

बड़े भाषा मॉडल (एलएलएम) ध्यान तंत्र से काफी लाभान्वित होते हैं, जिससे प्रासंगिक जानकारी की प्रभावी पुनर्प्राप्ति सक्षम होती है। फिर भी, पारंपरिक ध्यान के तरीके मुख्य रूप से एकल टोकन ध्यान पर निर्भर करते हैं, जहां प्रत्येक ध्यान देने वाले वजन को क्वेरी और प्रमुख वैक्टर की एक जोड़ी से गणना की जाती है। यह डिज़ाइन स्वाभाविक रूप से मॉडल की क्षमता को समझने के लिए कई टोकन संकेतों के एकीकरण की आवश्यकता है, जिससे जटिल भाषाई निर्भरता पर इसकी प्रभावशीलता को सीमित किया जाता है। उदाहरण के लिए, “ऐलिस” और “खरगोश” दोनों युक्त वाक्यों की पहचान करना चुनौतीपूर्ण है क्योंकि पारंपरिक ध्यान तंत्र मॉडल जटिलता को बढ़ाने के बिना कुशलता से कई अलग -अलग ध्यान संकेतों को एकीकृत करने के लिए संघर्ष करते हैं।

मेटा एआई मल्टी-टोकन ध्यान (एमटीए) को पेश करके इस सीमा को संबोधित करता है, एक उन्नत ध्यान तंत्र जो कई क्वेरी और प्रमुख वैक्टर पर एक साथ वजन का ध्यान रखता है। एमटीए प्रश्नों, चाबियों और ध्यान प्रमुखों पर कन्वेंशन संचालन को एकीकृत करता है, इस प्रकार प्रासंगिक सूचना पुनर्प्राप्ति की सटीकता और दक्षता को बढ़ाता है। विशेष रूप से, एमटीए फ्रेमवर्क में दो कन्फ्यूशनल घटक होते हैं: की-क्वेरी कन्व्यूशन, जो व्यक्तिगत ध्यान देने वाले सिर के भीतर कई टोकन सिग्नल को एकत्र करता है, और हेड मिक्सिंग कन्व्यूशन, जो विभिन्न ध्यान प्रमुखों के बीच सूचना साझा करने की सुविधा प्रदान करता है। इसके अतिरिक्त, कार्यान्वयन ग्रेडिएंट फ्लो को स्थिर करने के लिए गहराई से निर्भर स्केलिंग के साथ समूह सामान्यीकरण को नियोजित करता है, जिससे मॉडल प्रशिक्षण स्थिरता और प्रभावकारिता में सुधार होता है।

मेटा एआई ने मल्टी-टोकन ध्यान (एमटीए) का प्रस्ताव किया है: एक नया ध्यान विधि जो एलएलएम को कई क्वेरी और प्रमुख वैक्टर पर उनके ध्यान को रखने की अनुमति देता है
– Gadgets Solutions

एक तकनीकी स्तर पर, एमटीए सॉफ्टमैक्स सामान्यीकरण से पहले ध्यान लॉग्स पर दो-आयामी दृढ़ संकल्प संचालन को शामिल करके पारंपरिक ध्यान गणना को संशोधित करता है। यह दृढ़ संकल्प आसन्न प्रश्नों और कुंजी को ध्यान स्कोर को पारस्परिक रूप से प्रभावित करने की अनुमति देता है, इस प्रकार ध्यान तंत्र को कई टोकन को अधिक सटीक रूप से शामिल करने के लिए प्रासंगिक संबंधों की पहचान करने में सक्षम बनाता है। नतीजतन, मॉडल कुशलता से स्थानीय टोकन इंटरैक्शन को एकत्र करता है, जो मापदंडों की संख्या या ध्यान वैक्टर की आयामीता को काफी हद तक बढ़ाता है। इसके अलावा, हेड कन्वंट्रेशन कम प्रासंगिक जानकारी को कम करते हुए प्रासंगिक संदर्भ संकेतों को चुनिंदा रूप से बढ़ाते हुए, ध्यान प्रमुखों के बीच प्रभावी ज्ञान हस्तांतरण को बढ़ावा देता है। सामूहिक रूप से, इन संवर्द्धन जटिल बहु-टोकन इंटरैक्शन को कैप्चर करने में सक्षम एक अधिक मजबूत ध्यान तंत्र प्राप्त करते हैं।

अनुभवजन्य मूल्यांकन कई बेंचमार्क में एमटीए की प्रभावकारिता को मान्य करता है। एक संरचित प्रेरक कार्य में स्पष्ट रूप से एकल-टोकन ध्यान तंत्र की कमियों को चित्रित करने के लिए डिज़ाइन किया गया है, एमटीए ने लगभग 0.1%की त्रुटि दर को प्राप्त करते हुए, मानक ट्रांसफार्मर मॉडल के विपरीत, जो 50%से ऊपर त्रुटि दर का प्रदर्शन किया। 105 बिलियन टोकन पर प्रशिक्षित 880 मीटर-पैरामीटर मॉडल को शामिल करने वाले बड़े पैमाने पर प्रयोगों ने एमटीए को लगातार बेसलाइन आर्किटेक्चर से बेहतर प्रदर्शन किया। MTA ने Arxiv, GitHub और Wikipedia जैसे डेटासेट में बेहतर सत्यापन पेरप्लेक्सिटी स्कोर हासिल किया। विशेष रूप से, विस्तारित संदर्भ समझ की आवश्यकता वाले कार्यों में, जैसे कि सुई-इन-द-हेस्टैक और बाबिलोंग बेंचमार्क, एमटीए मानक ट्रांसफार्मर मॉडल के प्रदर्शन से काफी अधिक थे। कई सुइयों वाले 4K टोकन संदर्भों के साथ सुई-इन-द-हेटैक कार्य में, एमटीए ने 67% से 97.6% तक सटीकता प्राप्त की, जिसमें पर्याप्त मार्जिन द्वारा मानक मॉडल को पार किया गया।

सारांश में, मल्टी-टोकन ध्यान (एमटीए) पारंपरिक एकल-टोकन ध्यान की मूलभूत सीमाओं को संबोधित करके ध्यान तंत्र में एक परिष्कृत उन्नति प्रस्तुत करता है। कई क्वेरी-कुंजी इंटरैक्शन को समवर्ती रूप से एकीकृत करने के लिए दृढ़ संचालन संचालन का लाभ उठाते हुए, एमटीए जटिल प्रासंगिक निर्भरता को संभालने के लिए भाषा मॉडल की क्षमता को बढ़ाता है। ये पद्धतिगत सुधार अधिक सटीक और कुशल प्रदर्शन की सुविधा प्रदान करते हैं, विशेष रूप से जटिल टोकन इंटरैक्शन और लंबी दूरी की प्रासंगिक समझ से जुड़े परिदृश्यों में। मानक ध्यान तंत्रों के लिए लक्षित संशोधनों के माध्यम से, एमटीए अधिक परिष्कृत, सटीक और कम्प्यूटेशनल रूप से कुशल भाषा मॉडल के विकास में सार्थक योगदान देता है।

चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US