बड़ी भाषा MDOELS LLM ने विविध पाठ और मल्टीमॉडल कार्यों में उल्लेखनीय प्रदर्शन दिखाया है। हालांकि, कई एप्लिकेशन, जैसे कि दस्तावेज़ और वीडियो समझ, इन-संदर्भ सीखने, और अनुमान-समय स्केलिंग, टोकन के लंबे अनुक्रमों पर प्रक्रिया और तर्क की क्षमता की मांग करते हैं। LLMS की सीमित संदर्भ विंडो इन स्थितियों में एक महत्वपूर्ण चुनौती है, क्योंकि लंबे दस्तावेजों पर फैली महत्वपूर्ण जानकारी को अनदेखा किया जा सकता है। व्यापक दस्तावेजों या वीडियो को संसाधित करते समय मॉडल अक्सर महत्वपूर्ण जानकारी को याद करते हैं, उनके निश्चित-संदर्भ खिड़कियों के बाहर गिरते हैं। यह सीमा उन मॉडलों की आवश्यकता पैदा करती है जो मानक कार्यों पर प्रदर्शन का त्याग किए बिना अल्ट्रा-लॉन्ग संदर्भों को कुशलता से संभाल सकते हैं।
लंबे समय से संदर्भ भाषा मॉडल के लिए मौजूदा संदर्भ विस्तार रणनीतियाँ तीन श्रेणियों में आती हैं: सटीक ध्यान तरीके, अनुमानित ध्यान विधियाँ, और अतिरिक्त मॉड्यूल को शामिल करने वाले दृष्टिकोण। स्थिति प्रक्षेप, एनटीके-जागरूक, गतिशील एनटीके, यार्न, और सीएलएक्स जैसे तरीके पुन: डिज़ाइन की गई स्थिति एम्बेडिंग के माध्यम से ध्यान तंत्र को बढ़ाते हैं। हाल की प्रगति में GPT-4O, मिथुन, और क्लाउड जैसे मॉडल शामिल हैं जो सैकड़ों हजारों टोकन के व्यापक संदर्भ खिड़कियों का समर्थन करते हैं, लेकिन उनकी बंद-स्रोत प्रकृति प्रजनन क्षमता को सीमित करती है। ओपन-सोर्स प्रयास जैसे कि लंबे समय तक एनटीके-अवेयर स्केलिंग का उपयोग करते हैं, लेकिन महंगी गणना की आवश्यकता होती है, जबकि ढाल का उपयोग जारी है जिसमें मानक कार्य प्रदर्शन होता है।
UIUC और NVIDIA के शोधकर्ताओं ने संरेखित निर्देश मॉडल से अल्ट्रा-लॉन्ग संदर्भ LLM के निर्माण के लिए एक कुशल प्रशिक्षण नुस्खा प्रस्तावित किया है, जो संदर्भ लंबाई की सीमाओं को 128k से 1m, 2m और 4m टोकन तक बढ़ाता है। विधि निर्देश-निम्नलिखित और तर्क क्षमताओं को बनाए रखने के लिए निर्देश ट्यूनिंग का उपयोग करते हुए संदर्भ विंडो का विस्तार करने के लिए कुशल, निरंतर दिखावा रणनीतियों का उपयोग करती है। इसके अलावा, उनका अल्ट्रालॉन्ग -8 बी मॉडल विविध लंबे समय से संदर्भ बेंचमार्क में अत्याधुनिक प्रदर्शन को प्राप्त करता है। इस दृष्टिकोण के साथ प्रशिक्षित मॉडल मानक बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन को बनाए रखते हैं, जो लंबे और छोटे संदर्भ कार्यों के लिए संतुलित सुधार दिखाते हैं। अनुसंधान प्रमुख डिजाइन विकल्पों का गहन विश्लेषण प्रदान करता है, स्केलिंग रणनीतियों और डेटा रचना के प्रभावों को उजागर करता है।
प्रस्तावित विधि में दो प्रमुख चरण होते हैं: निरंतर प्रीट्रेनिंग और इंस्ट्रक्शन ट्यूनिंग। साथ में, ये चरण कार्यों में मजबूत प्रदर्शन को बनाए रखते हुए अल्ट्रा-लॉन्ग इनपुट के प्रभावी प्रसंस्करण को सक्षम करते हैं। एक यार्न-आधारित स्केलिंग दृष्टिकोण NTK-अवेयर स्केलिंग रणनीतियों के बजाय α = 1 और β = 4 के रूप में निश्चित हाइपरपैमीटर के साथ संदर्भ विस्तार के लिए अपनाया जाता है। स्केल कारकों को लक्ष्य संदर्भ लंबाई के आधार पर गणना की जाती है और विस्तारित अनुक्रमों को समायोजित करने और अधिकतम लंबाई पर प्रदर्शन गिरावट को कम करने के लिए रस्सी एम्बेडिंग के लिए बड़े स्केलिंग कारकों को नियोजित किया जाता है। शोधकर्ताओं ने प्रशिक्षण डेटा के लिए सामान्य, गणित और कोड डोमेन के फैले हुए उच्च गुणवत्ता वाले SFT डेटासेट को सब्सक्राइब किया और आगे GPT-4O और GPT-4O-MINI का उपयोग प्रतिक्रियाओं को परिष्कृत करने और कठोर डेटा decontamination करने के लिए किया।
प्रस्तावित मॉडल एक हेस्टैक पास्की रिट्रीवल टेस्ट में सुई में बेहतर लंबी-कॉन-कॉन्टेक्स्ट रिट्रीवल क्षमताओं को दिखाते हैं। LLAMA-3-8B-Instruct-Gradient-1048K जैसे बेसलाइन मॉडल परीक्षण पास करते हैं, लेकिन llama3.1-8b-instruct और llama-3-8b-prolong-512k-Instruct शो त्रुटियां। इसके विपरीत, अल्ट्रालॉन्ग मॉडल सभी इनपुट लंबाई और गहराई में 100% सटीकता प्राप्त करते हैं, जो मजबूत पुनर्प्राप्ति क्षमता दिखाते हैं। अल्ट्रालॉन्ग 512K और 1M टोकन तक के इनपुट के लिए शासक पर उच्चतम औसत स्कोर प्राप्त करता है, 128K और 256K टोकन लंबाई के भीतर LV-EVAL पर उच्चतम F1 स्कोर, और अनंत पर सबसे अच्छा प्रदर्शन। इसके अलावा, मॉडल 62.47, 61.06, और 60.95 के औसत स्कोर के साथ सामान्य, गणित और कोड डोमेन में मजबूत प्रदर्शन बनाए रखते हैं, जो बेस मॉडल के 61.45 से अधिक है।
यह शोध पत्र मानक बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन को बनाए रखते हुए, अल्ट्रा-लॉन्ग संदर्भ भाषा मॉडल के लिए एक कुशल और व्यवस्थित प्रशिक्षण नुस्खा का परिचय देता है, जो संदर्भ विंडो को 1M, 2M और 4M टोकन तक बढ़ाता है। दृष्टिकोण लंबे समय से संदर्भ समझ और निर्देश-निम्नलिखित क्षमताओं को बढ़ाने के लिए निर्देश ट्यूनिंग के साथ कुशल निरंतर दिखावा को जोड़ती है। हालांकि, यह दृष्टिकोण केवल सुदृढीकरण सीखने या वरीयता अनुकूलन की खोज के बिना निर्देश ट्यूनिंग चरण के दौरान निर्देश डेटासेट पर केवल एसएफटी पर केंद्रित है। इसके अलावा, यह सुरक्षा संरेखण को संबोधित नहीं करता है। भविष्य के अनुसंधान में सुरक्षा संरेखण तंत्र को एकीकृत करना और उन्नत ट्यूनिंग रणनीतियों की खोज करना, प्रदर्शन और विश्वसनीयता को और बढ़ाना शामिल है।
चेक आउट चेहरे पर गले लगाने पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।
