बड़े भाषा मॉडल (एलएलएम) ध्यान तंत्र से काफी लाभान्वित होते हैं, जिससे प्रासंगिक जानकारी की प्रभावी पुनर्प्राप्ति सक्षम होती है। फिर भी, पारंपरिक ध्यान के तरीके मुख्य रूप से एकल टोकन ध्यान पर निर्भर करते हैं, जहां प्रत्येक ध्यान देने वाले वजन को क्वेरी और प्रमुख वैक्टर की एक जोड़ी से गणना की जाती है। यह डिज़ाइन स्वाभाविक रूप से मॉडल की क्षमता को समझने के लिए कई टोकन संकेतों के एकीकरण की आवश्यकता है, जिससे जटिल भाषाई निर्भरता पर इसकी प्रभावशीलता को सीमित किया जाता है। उदाहरण के लिए, “ऐलिस” और “खरगोश” दोनों युक्त वाक्यों की पहचान करना चुनौतीपूर्ण है क्योंकि पारंपरिक ध्यान तंत्र मॉडल जटिलता को बढ़ाने के बिना कुशलता से कई अलग -अलग ध्यान संकेतों को एकीकृत करने के लिए संघर्ष करते हैं।
मेटा एआई मल्टी-टोकन ध्यान (एमटीए) को पेश करके इस सीमा को संबोधित करता है, एक उन्नत ध्यान तंत्र जो कई क्वेरी और प्रमुख वैक्टर पर एक साथ वजन का ध्यान रखता है। एमटीए प्रश्नों, चाबियों और ध्यान प्रमुखों पर कन्वेंशन संचालन को एकीकृत करता है, इस प्रकार प्रासंगिक सूचना पुनर्प्राप्ति की सटीकता और दक्षता को बढ़ाता है। विशेष रूप से, एमटीए फ्रेमवर्क में दो कन्फ्यूशनल घटक होते हैं: की-क्वेरी कन्व्यूशन, जो व्यक्तिगत ध्यान देने वाले सिर के भीतर कई टोकन सिग्नल को एकत्र करता है, और हेड मिक्सिंग कन्व्यूशन, जो विभिन्न ध्यान प्रमुखों के बीच सूचना साझा करने की सुविधा प्रदान करता है। इसके अतिरिक्त, कार्यान्वयन ग्रेडिएंट फ्लो को स्थिर करने के लिए गहराई से निर्भर स्केलिंग के साथ समूह सामान्यीकरण को नियोजित करता है, जिससे मॉडल प्रशिक्षण स्थिरता और प्रभावकारिता में सुधार होता है।

एक तकनीकी स्तर पर, एमटीए सॉफ्टमैक्स सामान्यीकरण से पहले ध्यान लॉग्स पर दो-आयामी दृढ़ संकल्प संचालन को शामिल करके पारंपरिक ध्यान गणना को संशोधित करता है। यह दृढ़ संकल्प आसन्न प्रश्नों और कुंजी को ध्यान स्कोर को पारस्परिक रूप से प्रभावित करने की अनुमति देता है, इस प्रकार ध्यान तंत्र को कई टोकन को अधिक सटीक रूप से शामिल करने के लिए प्रासंगिक संबंधों की पहचान करने में सक्षम बनाता है। नतीजतन, मॉडल कुशलता से स्थानीय टोकन इंटरैक्शन को एकत्र करता है, जो मापदंडों की संख्या या ध्यान वैक्टर की आयामीता को काफी हद तक बढ़ाता है। इसके अलावा, हेड कन्वंट्रेशन कम प्रासंगिक जानकारी को कम करते हुए प्रासंगिक संदर्भ संकेतों को चुनिंदा रूप से बढ़ाते हुए, ध्यान प्रमुखों के बीच प्रभावी ज्ञान हस्तांतरण को बढ़ावा देता है। सामूहिक रूप से, इन संवर्द्धन जटिल बहु-टोकन इंटरैक्शन को कैप्चर करने में सक्षम एक अधिक मजबूत ध्यान तंत्र प्राप्त करते हैं।

अनुभवजन्य मूल्यांकन कई बेंचमार्क में एमटीए की प्रभावकारिता को मान्य करता है। एक संरचित प्रेरक कार्य में स्पष्ट रूप से एकल-टोकन ध्यान तंत्र की कमियों को चित्रित करने के लिए डिज़ाइन किया गया है, एमटीए ने लगभग 0.1%की त्रुटि दर को प्राप्त करते हुए, मानक ट्रांसफार्मर मॉडल के विपरीत, जो 50%से ऊपर त्रुटि दर का प्रदर्शन किया। 105 बिलियन टोकन पर प्रशिक्षित 880 मीटर-पैरामीटर मॉडल को शामिल करने वाले बड़े पैमाने पर प्रयोगों ने एमटीए को लगातार बेसलाइन आर्किटेक्चर से बेहतर प्रदर्शन किया। MTA ने Arxiv, GitHub और Wikipedia जैसे डेटासेट में बेहतर सत्यापन पेरप्लेक्सिटी स्कोर हासिल किया। विशेष रूप से, विस्तारित संदर्भ समझ की आवश्यकता वाले कार्यों में, जैसे कि सुई-इन-द-हेस्टैक और बाबिलोंग बेंचमार्क, एमटीए मानक ट्रांसफार्मर मॉडल के प्रदर्शन से काफी अधिक थे। कई सुइयों वाले 4K टोकन संदर्भों के साथ सुई-इन-द-हेटैक कार्य में, एमटीए ने 67% से 97.6% तक सटीकता प्राप्त की, जिसमें पर्याप्त मार्जिन द्वारा मानक मॉडल को पार किया गया।

सारांश में, मल्टी-टोकन ध्यान (एमटीए) पारंपरिक एकल-टोकन ध्यान की मूलभूत सीमाओं को संबोधित करके ध्यान तंत्र में एक परिष्कृत उन्नति प्रस्तुत करता है। कई क्वेरी-कुंजी इंटरैक्शन को समवर्ती रूप से एकीकृत करने के लिए दृढ़ संचालन संचालन का लाभ उठाते हुए, एमटीए जटिल प्रासंगिक निर्भरता को संभालने के लिए भाषा मॉडल की क्षमता को बढ़ाता है। ये पद्धतिगत सुधार अधिक सटीक और कुशल प्रदर्शन की सुविधा प्रदान करते हैं, विशेष रूप से जटिल टोकन इंटरैक्शन और लंबी दूरी की प्रासंगिक समझ से जुड़े परिदृश्यों में। मानक ध्यान तंत्रों के लिए लक्षित संशोधनों के माध्यम से, एमटीए अधिक परिष्कृत, सटीक और कम्प्यूटेशनल रूप से कुशल भाषा मॉडल के विकास में सार्थक योगदान देता है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
