ट्रांसफार्मर आर्किटेक्चर ने अपने आत्म-संयोग तंत्र के साथ प्राकृतिक भाषा प्रसंस्करण में क्रांति ला दी, जो समानांतर गणना और प्रभावी संदर्भ पुनर्प्राप्ति को सक्षम करती है। हालांकि, ट्रांसफॉर्मर अपने द्विघात कम्प्यूटेशनल जटिलता के कारण लंबे अनुक्रमों को संसाधित करते समय महत्वपूर्ण सीमाओं का सामना करते हैं। रैखिक आवर्तक तंत्रिका नेटवर्क (आरएनएन) एक आशाजनक विकल्प के रूप में उभरे हैं, जो रैखिक निष्कर्ष-समय जटिलता को बनाए रखते हुए समानांतर प्रशिक्षण क्षमताओं की पेशकश करते हैं। इन मॉडलों की अभिव्यक्ति उनके राज्य-संक्रमण मैट्रिस पर मौलिक रूप से निर्भर करती है। रैखिक RNNs का विकास टोकन-स्वतंत्र राज्य-संक्रमण मैट्रिसेस के साथ शुरुआती मॉडलों से अधिक शक्तिशाली टोकन-निर्भर डिजाइनों के लिए आगे बढ़ा है। इस क्षेत्र में गैर-डायगोनल संरचनाओं के साथ आगे बढ़ गया है जो टोकन और चैनलों दोनों में एक साथ सूचना के मिश्रण की अनुमति देते हैं, जिससे अधिक अभिव्यंजक आर्किटेक्चर बनते हैं। ये घटनाक्रम कम्प्यूटेशनल व्यवहार्यता को बनाए रखते हुए लंबे अनुक्रमों को कुशलता से प्रसंस्करण की महत्वपूर्ण चुनौती को संबोधित करते हैं।
रैखिक RNNs प्रशिक्षण दक्षता और अभिव्यक्ति के बीच एक मौलिक व्यापार-बंद का सामना करते हैं, जो उनके राज्य-संक्रमण मैट्रिक्स संरचना द्वारा निर्धारित किया जाता है। MAMBA और GLA ट्रेन जैसे विकर्ण राज्य-संक्रमण मैट्रिस के साथ मॉडल कुशलता से, लेकिन महत्वपूर्ण अभिव्यक्ति सीमाओं से पीड़ित हैं, जो परिमित सटीकता में मनमानी-लंबाई अनुक्रमों पर अतिरिक्त मोडुलो 3 जैसे बुनियादी संचालन करने में असमर्थ हैं। ट्रांसफॉर्मर समान बाधाओं का सामना करते हैं, क्योंकि वे प्रभावी रूप से पहचान राज्य-संक्रमण मैट्रिसेस और अनंत-आयामी राज्यों के साथ विशेष रैखिक आरएनएन के रूप में कार्य करते हैं। Deltanet आंशिक रूप से इन सीमाओं को सामान्यीकृत गृहस्थ मैट्रिस के माध्यम से संबोधित करता है, मामूली प्रशिक्षण लागत में वृद्धि के साथ अधिक से अधिक अभिव्यक्ति प्राप्त करता है, हालांकि अभी भी कुछ कार्यों के लिए कई परतों की आवश्यकता होती है। स्पेक्ट्रम के विपरीत छोर पर, पूर्ण राज्य-संक्रमण मैट्रिस के साथ रैखिक आरएनएन अधिकतम अभिव्यक्ति प्रदान करते हैं और किसी भी नियमित भाषा को एक ही परत के साथ पहचान सकते हैं, लेकिन उनकी प्रशिक्षण लागत निषेधात्मक रूप से महंगी हो जाती है। यह दक्षता-व्यक्तित्व व्यापार-बंद अनुक्रम मॉडल के डिजाइन में एक केंद्रीय चुनौती का प्रतिनिधित्व करता है जो मॉडल क्षमता के साथ कम्प्यूटेशनल व्यवहार्यता को संतुलित करना चाहिए।
फ्रीबर्ग विश्वविद्यालय के शोधकर्ता, एलिस इंस्टीट्यूट ट्यूबिंगेन, माइक्रोसॉफ्ट रिसर्च, सीएसएमएल, इस्टिटुटो इटालियन डी टेकनोलोगिया, एआई सेंटर, यूनिवर्सिटी कॉलेज लंदन वर्तमान डेलटाप्रोडक्ट यह एक अद्वितीय दृष्टिकोण के माध्यम से रैखिक आरएनएन में दक्षता-व्यक्तित्व व्यापार-बंद को संबोधित करता है जो मॉडल क्षमता के साथ कम्प्यूटेशनल व्यवहार्यता को संतुलित करता है। जबकि डेल्टनेट एक रैखिक की-टू-वैल्यू मैपिंग पर प्रति टोकन प्रति एक एकल ढाल कदम प्रदर्शन करता है, डेल्टप्रोडक्ट अतिरिक्त कुंजियों और मूल्यों का उपयोग करके कई (एनएच) ग्रेडिएंट स्टेप्स लेता है, राज्य-संक्रमण मैट्रिसेस बनाता है जो कई सामान्यीकृत गृहस्थ मैट्रिस के उत्पाद हैं। अनुकूलन चरणों और मैट्रिक्स संरचना के बीच यह सुरुचिपूर्ण संबंध विकर्ण और घने मैट्रिसेस के बीच प्रक्षेपित करने के लिए एक ट्यून करने योग्य तंत्र प्रदान करता है – बढ़ते ग्रेडिएंट स्टेप्स स्वचालित रूप से उत्पाद में गृहस्थ मैट्रिसेस की संख्या को बढ़ाता है, कम्प्यूटेशनल दक्षता को बनाए रखते हुए अभिव्यक्ति को बढ़ाता है। विधि, 1 पर बने रहने के लिए राज्य संक्रमण मैट्रिसेस के मानदंड को नियंत्रित करके लंबे अनुक्रमों पर प्रशिक्षण के दौरान स्थिरता सुनिश्चित करती है। डेल्टप्रोडक्ट केवल दो परतों के साथ डायहेड्रल समूहों के लिए शब्द समस्याओं को हल करने में सक्षम, अभिव्यक्ति में सैद्धांतिक प्रगति की पेशकश करते हुए डेल्टनेट को सामान्य करता है। अनुभवजन्य सत्यापन जटिल राज्य-ट्रैकिंग कार्यों, चॉम्स्की पदानुक्रम बेंचमार्क, और भाषा मॉडलिंग में बढ़ी हुई लंबाई एक्सट्रपलेशन क्षमताओं के साथ डेल्टप्रोडक्ट के बेहतर प्रदर्शन को प्रदर्शित करता है।
Deltaproduct सामान्यीकृत गृहस्थ मैट्रिसेस के उत्पादों के रूप में गठित राज्य संक्रमण मैट्रिसेस के माध्यम से अपनी अभिव्यक्ति को बढ़ाकर डेल्टनेट को सामान्य करता है। जबकि डेल्टनेट प्रति टोकन प्रति ऑनलाइन ग्रेडिएंट वंश का एक चरण करता है, डेल्टप्रोडक्ट प्रति टोकन में कई बार छिपी हुई स्थिति को परिष्कृत करता है, स्वाभाविक रूप से अधिक अभिव्यंजक राज्य-संक्रमण मैट्रिसेस के लिए अग्रणी होता है जहां प्रत्येक अतिरिक्त कदम प्राप्त करने योग्य रैखिक परिवर्तनों की सीमा का विस्तार करता है।
प्रति टोकन प्रति ग्रेडिएंट चरणों की संख्या में वृद्धि से परे, डेल्टनेट की अभिव्यक्ति (एनएच = 1 के साथ डेल्टप्रोडक्ट के बराबर) को भी परतों की संख्या में वृद्धि करके बढ़ाया जा सकता है, हालांकि इसकी सैद्धांतिक सीमाएं आंशिक रूप से अस्पष्टीकृत रहती हैं। हाल के शोध से यह प्रदर्शित करने के लिए पिछले निष्कर्षों का विस्तार किया गया है कि विस्तारित eigenvalue रेंज के साथ एक दो-परत डेल्टनेट न केवल चक्रीय समूह की समस्याओं को हल कर सकता है, बल्कि किसी भी m and N. dihedral समूहों के लिए अधिक जटिल डायहेड्रल समूह शब्द समस्याओं को भी नियमित बहुभुज के रोटेशन और प्रतिबिंबों का प्रतिनिधित्व करता है, D3 समरूपता समूह S3 के लिए समरूपता है। इस क्षमता को पहली परत में दो सिर के साथ दो-परत डेल्टनेट का उपयोग करके लागू किया जा सकता है। पहली परत अलग -अलग रूप से घुमाव और प्रतिबिंबों के लिए समता की गणना करती है, जबकि दूसरी परत की आवर्तक स्थिति प्रतिबिंब समता के आधार पर अलग -अलग रूप से अलग -अलग संभावित मूल्यों को बनाए रखती है। यह निर्माण दर्शाता है कि यहां तक कि न्यूनतम वास्तुकला जटिलता के साथ, डेल्टनेट के पास पहले से स्थापित होने वाले महत्वपूर्ण सैद्धांतिक अभिव्यक्ति के पास है, जब कई परतों को नियोजित किया जाता है तो मॉडल की क्षमताओं में अंतर्दृष्टि प्रदान करता है।
व्यापक मूल्यांकन के आधार पर, डेल्टप्रोडक्ट लगातार कई बेंचमार्क कार्यों में मौजूदा मॉडल को बेहतर बनाता है। चॉम्स्की पदानुक्रम प्रयोगों में, एनएच and 2 के साथ डेल्टप्रोडक्टन्ह डेल्टनेट और अन्य बेसलाइन की तुलना में बेहतर अभिव्यक्ति को प्रदर्शित करता है, ब्रैकेट के साथ मॉड्यूलर अंकगणित जैसे जटिल कार्यों में सबसे स्पष्ट सुधार के साथ। विस्तारित eigenvalue रेंज (, 1, 1) का उपयोग करते समय यह प्रदर्शन लाभ विशेष रूप से स्पष्ट है। मॉडल के व्यवहार के विश्लेषण से पता चलता है कि Deltaproduct2 (, 1, 1) सफलतापूर्वक दो प्रतिबिंबों को मिलाकर घुमाव का अनुमान लगाता है, 2 के पास बीटा मान क्लस्टरिंग के साथ, इसके परिचालन तंत्र के बारे में सैद्धांतिक भविष्यवाणियों की पुष्टि करता है। इसके अलावा, प्रमुख वैक्टर का पीसीए विश्लेषण मॉडल को मुख्य रूप से एक त्रि-आयामी उप-समूह में संचालित करता है, जो अपेक्षित संरचना के साथ संरेखित करता है। भाषा मॉडलिंग कार्यों के लिए, एनएच बढ़ते समय बेंचमार्क में अपने बेसलाइन समकक्षों को डेल्टाप्रोडक्ट और गेटेड डेल्टप्रोडक्ट दोनों से बेहतर ढंग से। विशेष रूप से, deltaproduct3 (−1, 1) एक भूल गेट तंत्र की कमी के बावजूद गेटेड डेल्टनेट (−1, 1) के लिए तुलनीय प्रदर्शन प्राप्त करता है। Deltaproduct भी उच्च NH मूल्यों के साथ काफी बेहतर लंबाई के एक्सट्रपलेशन को प्रदर्शित करता है, जो 32k टोकन तक अनुक्रम लंबाई में न्यूनतम प्रदर्शन गिरावट को दर्शाता है।
डेलटाप्रोडक्ट राज्य-संक्रमण मैट्रिसेस के रूप में गृहस्थ परिवर्तनों के उत्पादों का उपयोग करके डेल्टनेट का विस्तार करता है, प्रभावी रूप से संरचित और घने मैट्रिस के बीच की खाई को कम करता है। प्रत्येक पुनरावृत्ति कदम डेल्टेनेट के एकल-चरण दृष्टिकोण की तुलना में एक साहचर्य रिकॉल नुकसान पर कई ढाल वंश चरण करता है। गृहस्थ मैट्रिसेस (एनएच) की संख्या एक ट्यून करने योग्य पैरामीटर के रूप में कार्य करती है जो सुरुचिपूर्ण ढंग से अभिव्यक्ति और कम्प्यूटेशनल दक्षता को संतुलित करती है। प्रायोगिक परिणाम विशेष रूप से प्रभावशाली लंबाई एक्सट्रपलेशन क्षमताओं के साथ राज्य ट्रैकिंग कार्यों, औपचारिक भाषा मान्यता और भाषा मॉडलिंग में डेल्टप्रोडक्ट के बेहतर प्रदर्शन को प्रदर्शित करते हैं। आर्किटेक्चर अनुक्रम मॉडल विकसित करने की दिशा में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है जो अधिक सक्षम और स्केलेबल दोनों हैं। अपने फायदों के बावजूद, डेल्टप्रोडक्ट की सीमाएं हैं, जिनमें कम्प्यूटेशनल संसाधनों और मेमोरी आवश्यकताओं में वृद्धि शामिल है जो एनएच के साथ रैखिक रूप से पैमाने पर हैं।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।
