एलएलएम अक्सर एक अजीब व्यवहार दिखाते हैं जहां एक अनुक्रम में पहला टोकन असामान्य रूप से उच्च ध्यान आकर्षित करता है – जिसे “ध्यान सिंक” के रूप में जाना जाता है। प्रतीत होता है कि महत्वहीन होने के बावजूद, यह टोकन अक्सर ट्रांसफार्मर मॉडल में कई सिर पर ध्यान केंद्रित करता है। जबकि पूर्व शोध ने पता लगाया है कि कब और कैसे ध्यान डूब जाता है, उनके उद्भव और कार्यात्मक भूमिका के पीछे के कारण अस्पष्ट रहते हैं। ये ध्यान पैटर्न एलएलएम में चुनौतियों और अनुकूलन से जुड़े हुए हैं, जैसे कि परिमाणीकरण, कुंजी-मूल्य कैशिंग, स्ट्रीमिंग ध्यान, और यहां तक कि सुरक्षा कमजोरियों, उनके महत्व को उजागर करते हुए और गहरी समझ की आवश्यकता को उजागर करते हैं।
ऑक्सफोर्ड विश्वविद्यालय, एनयूएस, और Google डीपमाइंड के शोधकर्ताओं ने यह पता लगाया कि ध्यान क्यों बढ़ता है – जहां मॉडल एलएलएमएस में पहले टोकन पर बहुत अधिक ध्यान केंद्रित करते हैं। उन्हें कम करने के पिछले प्रयासों के विपरीत, वे तर्क देते हैं कि ये सिंक टोकन अभ्यावेदन के अधिक-मिशन को रोककर एक कार्यात्मक भूमिका निभाते हैं, जिससे गहरे ट्रांसफार्मर में पतन या अस्थिरता हो सकती है। ⟨Bos⟩ टोकन अक्सर ध्यान के बहुमत को आकर्षित करता है, गड़बड़ी के प्रसार को सीमित करता है और मॉडल को स्थिर करता है। Gemma 7B और Llama 3.1 405b जैसे मॉडल पर प्रयोग इस बात की पुष्टि करते हैं कि ध्यान सिंक गहरे मॉडल और लंबे समय तक संदर्भों में अधिक प्रमुख हो जाते हैं, उनके सिद्धांत का समर्थन करते हैं।
अध्ययन में पता चलता है कि कैसे डिकोडर-ओनली ट्रांसफॉर्मर, अधिकांश आधुनिक भाषा मॉडल के पीछे की वास्तुकला, टोकन द्वारा अनुक्रम टोकन को संसाधित करने के लिए ध्यान तंत्र का उपयोग करती है। ऐसे मॉडलों में, प्रत्येक टोकन केवल कारण मास्किंग के कारण पिछले टोकन में भाग ले सकता है। इन मॉडलों में एक आवर्ती घटना “ध्यान सिंक” का उद्भव है-जो कि शुरुआती-अनुक्रम (⟩bos⟩) की तरह है, जो कि कई सिर और परतों में ध्यान आकर्षित करते हैं। जबकि इन सिंक को पहले बड़ी कुंजी और क्वेरी सक्रियणों की कलाकृतियों के रूप में देखा गया था, इस काम का तर्क है कि वे स्थिर प्रतिनिधित्व बनाए रखने में महत्वपूर्ण हैं, विशेष रूप से लंबे अनुक्रमों में। ध्यान केंद्रित करके, सिंक परतों में जानकारी के अत्यधिक मिश्रण को रोकता है, टोकन अभ्यावेदन की विशिष्टता को बनाए रखने में मदद करता है।
अध्ययन रैंक ढहने और ओवर-स्क्वैशिंग जैसी समस्याओं से ध्यान सिंक को जोड़ता है, जो विविध इनपुटों को अविवेकी अभ्यावेदन में संपीड़ित करके मॉडल प्रदर्शन को नीचा दिखाता है। यह जैकबियन मानदंडों जैसे गणितीय उपकरणों का उपयोग करता है, यह दिखाने के लिए कि कैसे ध्यान आकर्षित करता है, गड़बड़ी के प्रति संवेदनशीलता को कम करता है, प्रभावी रूप से स्टेबलाइजर्स के रूप में कार्य करता है जो प्रतिनिधित्वात्मक पतन को रोकता है। Gemma 7B जैसे मॉडल पर प्रयोग इस बात की पुष्टि करते हैं कि ध्यान सिंक को हटाने से सूचना प्रसार बढ़ जाती है, जबकि उनकी उपस्थिति तेज, अधिक स्थानीयकृत ध्यान पैटर्न को बनाए रखती है। इस प्रकार, ध्यान सिंक केवल एक साइड इफेक्ट नहीं है, बल्कि एक संरचनात्मक विशेषता है जो ट्रांसफार्मर की गहरी और लंबी दूरी की निर्भरता को संभालने की क्षमता का समर्थन करती है।
अध्ययन जांच करता है कि क्या शुरुआती-अनुक्रम (⟨BOS⟩) टोकन भाषा मॉडल में ध्यान देने के लिए कोई विशेष भूमिका निभाता है। विभिन्न डेटा पैकिंग और मास्किंग रणनीतियों का उपयोग करके प्रयोगों की एक श्रृंखला के माध्यम से, शोधकर्ताओं ने पाया कि ध्यान लगातार इनपुट के पहले टोकन में बनता है, चाहे यह स्पष्ट रूप से ⟩BOS⟩ के रूप में चिह्नित हो या नहीं। हालांकि, जब ⟨bos⟩ को प्रीट्रेनिंग के दौरान हर अनुक्रम की शुरुआत में तय किया जाता है, तो मॉडल ध्यान को स्थिर करने और टोकन अभ्यावेदन के ओवर-मिक्सिंग को रोकने के लिए इस पर अधिक भारी भरोसा करना सीखता है। इस तरह के मॉडलों में अनुमान के दौरान ⟩bos⟩ को हटाने से सिंक गठन में पतन होता है और प्रदर्शन में एक महत्वपूर्ण गिरावट होती है। यह इस बात पर प्रकाश डालता है कि यद्यपि पहला टोकन हमेशा ध्यान आकर्षित करने में एक भूमिका निभाता है, प्रशिक्षण सेटअप – विशेष रूप से ⟩Bos⟩ की लगातार उपस्थिति – गंभीर रूप से इस प्रभाव को मजबूत करता है।
अंत में, अध्ययन का तर्क है कि ध्यान सिंक गहरे ट्रांसफॉर्मर में अति-स्क्वैशिंग और अत्यधिक मिश्रण जैसी चुनौतियों के लिए एक संरचनात्मक समाधान है। प्रारंभिक टोकन की ओर ध्यान केंद्रित करना -आमतौर पर ⟨bos⟩ -belps मॉडल इनपुट शोर के लिए अपनी संवेदनशीलता को कम करता है और लंबे संदर्भों पर अलग -अलग टोकन अभ्यावेदन को बनाए रखता है। निष्कर्ष यह भी बताते हैं कि संदर्भ लंबाई, मॉडल की गहराई और प्रशिक्षण कॉन्फ़िगरेशन काफी प्रभावित करते हैं कि कैसे और कहां सिंक फॉर्म होते हैं। सैद्धांतिक अंतर्दृष्टि और अनुभवजन्य सत्यापन की पेशकश करके, कार्य ध्यान आकर्षित करता है, जो कि क्वर्क के रूप में नहीं बल्कि बड़े भाषा मॉडल की स्थिरता और दक्षता में योगदान करने वाले घटकों के रूप में है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
