ट्रांसफार्मर आर्किटेक्चर ने प्राकृतिक भाषा प्रसंस्करण में क्रांति ला दी है, जो जीपीटी जैसे मॉडल को कुशलता से अनुक्रम में अगले टोकन की भविष्यवाणी करने में सक्षम बनाता है। हालांकि, ये मॉडल अगले टोकन की भविष्यवाणी करने के लिए सभी पिछले टोकन के एक-पास प्रक्षेपण करने की एक मौलिक सीमा से पीड़ित हैं, जो पुनरावृत्त शोधन के लिए उनकी क्षमता को प्रतिबंधित करता है। ट्रांसफार्मर अनुमानित टोकन की जटिलता या अस्पष्टता की परवाह किए बिना निरंतर कम्प्यूटेशनल प्रयास लागू करते हैं, जिसमें उनकी भविष्यवाणियों पर पुनर्विचार करने या परिष्कृत करने के लिए तंत्र की कमी होती है। पारंपरिक तंत्रिका नेटवर्क, जिसमें ट्रांसफॉर्मर, मैप इनपुट अनुक्रम शामिल हैं, एक एकल फॉरवर्ड पास में भविष्यवाणी करने के लिए, आंतरिक अभ्यावेदन को परिष्कृत करने के लिए कई परतों के माध्यम से इनपुट को प्रसंस्करण।
यूनिवर्सल ट्रांसफॉर्मर ने ट्रांसफॉर्मर परतों के आवर्तक अनुप्रयोग को पुनरावृत्त रूप से परिष्कृत अभ्यावेदन द्वारा अल्पकालिक और दीर्घकालिक निर्भरता को कैप्चर करने के लिए पेश किया। हालांकि, प्रयोग GPT-2 जैसे बड़े पैमाने पर भाषा मॉडल के बजाय छोटे मॉडल और डेटासेट तक सीमित थे। अनुकूली संगणना समय मॉडल ने प्रति इनपुट कम्प्यूटेशनल चरणों के गतिशील निर्धारण की अनुमति दी, लेकिन मुख्य रूप से सरल आरएनएन आर्किटेक्चर पर लागू होते हैं और ट्रांसफॉर्मर आर्किटेक्चर या बड़े पैमाने पर प्रीट्रेनिंग का उपयोग किए बिना छोटे पैमाने पर कार्यों पर परीक्षण किया जाता है। गहराई-अनुकूली ट्रांसफार्मर इनपुट के आधार पर नेटवर्क की गहराई को समायोजित करते हैं, प्रति इनपुट अनुक्रम को लागू करने के लिए परतों की संख्या का चयन करके गतिशील निष्कर्ष को सक्षम करते हैं। हालांकि, इन दृष्टिकोणों में अधिक उन्नत आर्किटेक्चर में पाए जाने वाले पूर्वानुमान अवशिष्ट डिजाइन का अभाव है।
एचकेयू के शोधकर्ताओं ने एक उपन्यास लूप-अवशिष्ट तंत्रिका नेटवर्क का प्रस्ताव किया है जो कई बार इनपुट को फिर से दर्शाता है, अवशिष्ट कनेक्शन के साथ मॉडल के एक सबसेट पर पुनरावृत्त रूप से लूपिंग द्वारा भविष्यवाणियों को परिष्कृत करता है। यह अवशिष्ट भविष्यवाणी के साथ एक उपन्यास लूप आर्किटेक्चर का उपयोग करके लंबे समय तक समय के साथ ट्रांसफार्मर प्रदर्शन में सुधार करता है। यह दृष्टिकोण अतिरिक्त प्रशिक्षण डेटा की आवश्यकता के बिना बड़े तंत्रिका नेटवर्क के लिए प्रभावी ढंग से काम करता है, मॉडल की सन्निकटन क्षमता का विस्तार करता है। इसकी प्रभावशीलता को लूप-अवशिष्ट मॉडल के साथ मानक जीपीटी -2 संस्करणों की तुलना करने वाले प्रयोगों के माध्यम से दिखाया गया है। विशेष रूप से, उनका GPT-2-81M मॉडल GPT-2-124M मॉडल के 3.12 के नुकसान की तुलना में OpenWebText डेटासेट पर 3.11 का सत्यापन हानि प्राप्त करता है।
लूप-अवशिष्ट में दो प्रयोग शामिल हैं। सबसे पहले, 81M मापदंडों (GPT2-81M) के साथ एक लूप-अवशिष्ट GPT-2 मॉडल की तुलना 124m मापदंडों (GPT2-124M) के साथ GPT-2 मॉडल के साथ की जाती है। जबकि GPT2-124M में बेसलाइन के रूप में 12 ट्रांसफार्मर परतें होती हैं, लूप-अवशिष्ट GPT2-81M 6 ट्रांसफॉर्मर परतों पर 6 लूप का उपयोग करता है। दूसरा प्रयोग 45 मीटर मापदंडों (GPT2-45M) के साथ एक लूप-अवशिष्ट GPT-2 की तुलना समान आकार (GPT2-45M-LITE) के एक लाइट GPT-2 मॉडल से करता है। GPT2-45M-LITE में एक-पास भविष्यवाणी के लिए एक एकल ट्रांसफार्मर ब्लॉक परत है, जबकि लूप-अवशिष्ट संस्करण एक एकल ट्रांसफार्मर ब्लॉक पर दो बार लूप करता है। दोनों प्रयोग GPT2-45M-Lite के लिए 150ms के मापा प्रशिक्षण एपोच टाइम्स के साथ OpenWebText डेटासेट का उपयोग करते हैं, लूप-अवशिष्ट GPT2-45M के लिए 177ms, और GPT2-81M के लिए 1,377ms।
पहले प्रयोग में, लूप-अवशिष्ट GPT2-81M मॉडल OpenWebText डेटासेट पर 3.11 का सत्यापन हानि प्राप्त करता है, जो GPT2-124M मॉडल के 3.12 के नुकसान की तुलना में है। यह परिणाम महत्वपूर्ण है क्योंकि लूप-अवशिष्ट मॉडल GPT2-124M मॉडल की तुलना में 35% कम मापदंडों और आधी अद्वितीय परतों की संख्या का उपयोग करता है। इससे पता चलता है कि लूप-अवशिष्ट तंत्र के माध्यम से पुनरावृत्ति शोधन मॉडल की सन्निकटन क्षमता को बढ़ाता है। दूसरे प्रयोग में, लूप-अवशिष्ट मॉडल 3.98 की तुलना में 3.67 की सत्यापन हानि और 3.96 की तुलना में 3.65 का प्रशिक्षण हानि प्राप्त करता है। एकल ट्रांसफार्मर ब्लॉक पर दो बार लूपिंग करके, मॉडल प्रभावी रूप से एक गहरे नेटवर्क का अनुकरण करता है, जिसके परिणामस्वरूप मॉडल आकार बढ़ाने के बिना एक-पास बेसलाइन पर पर्याप्त प्रदर्शन लाभ होता है।
अंत में, शोधकर्ताओं ने लूप-अवशिष्ट तंत्रिका नेटवर्क की शुरुआत की, जो छोटे तंत्रिका नेटवर्क मॉडल को पुनरावृत्त शोधन के माध्यम से लंबे समय तक अनुमानित समय का उपयोग करके कम-अंत उपकरणों पर बेहतर परिणाम प्राप्त करने में सक्षम बनाता है। यह विधि पारंपरिक एक-पास मॉडल की तुलना में जटिल पैटर्न और निर्भरता को अधिक प्रभावी ढंग से कैप्चर करती है। प्रयोगों से पता चलता है कि लूप-अवशिष्ट मॉडल समान आकार के बेसलाइन मॉडल और कम मापदंडों के साथ बड़े मॉडल के लिए तुलनीय प्रदर्शन पर बेहतर प्रदर्शन प्राप्त कर सकते हैं। भविष्य की दिशा में तंत्रिका नेटवर्क आर्किटेक्चर के लिए नई संभावनाएं शामिल हैं, विशेष रूप से उन कार्यों के लिए जो संसाधन-विवश उपकरणों पर गहरे कम्प्यूटेशनल तर्क से लाभान्वित होते हैं।
यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।
