Wednesday, April 16, 2025

NVIDIA A रिलीज़ अल्ट्रालॉन्ग -8 बी का परिचय देता है: अल्ट्रा-लॉन्ग संदर्भ भाषा मॉडल की एक श्रृंखला जो पाठ के व्यापक अनुक्रमों को संसाधित करने के लिए डिज़ाइन की गई है (1M, 2M और 4M टोकन तक) – Gadgets Solutions

-

बड़ी भाषा MDOELS LLM ने विविध पाठ और मल्टीमॉडल कार्यों में उल्लेखनीय प्रदर्शन दिखाया है। हालांकि, कई एप्लिकेशन, जैसे कि दस्तावेज़ और वीडियो समझ, इन-संदर्भ सीखने, और अनुमान-समय स्केलिंग, टोकन के लंबे अनुक्रमों पर प्रक्रिया और तर्क की क्षमता की मांग करते हैं। LLMS की सीमित संदर्भ विंडो इन स्थितियों में एक महत्वपूर्ण चुनौती है, क्योंकि लंबे दस्तावेजों पर फैली महत्वपूर्ण जानकारी को अनदेखा किया जा सकता है। व्यापक दस्तावेजों या वीडियो को संसाधित करते समय मॉडल अक्सर महत्वपूर्ण जानकारी को याद करते हैं, उनके निश्चित-संदर्भ खिड़कियों के बाहर गिरते हैं। यह सीमा उन मॉडलों की आवश्यकता पैदा करती है जो मानक कार्यों पर प्रदर्शन का त्याग किए बिना अल्ट्रा-लॉन्ग संदर्भों को कुशलता से संभाल सकते हैं।

लंबे समय से संदर्भ भाषा मॉडल के लिए मौजूदा संदर्भ विस्तार रणनीतियाँ तीन श्रेणियों में आती हैं: सटीक ध्यान तरीके, अनुमानित ध्यान विधियाँ, और अतिरिक्त मॉड्यूल को शामिल करने वाले दृष्टिकोण। स्थिति प्रक्षेप, एनटीके-जागरूक, गतिशील एनटीके, यार्न, और सीएलएक्स जैसे तरीके पुन: डिज़ाइन की गई स्थिति एम्बेडिंग के माध्यम से ध्यान तंत्र को बढ़ाते हैं। हाल की प्रगति में GPT-4O, मिथुन, और क्लाउड जैसे मॉडल शामिल हैं जो सैकड़ों हजारों टोकन के व्यापक संदर्भ खिड़कियों का समर्थन करते हैं, लेकिन उनकी बंद-स्रोत प्रकृति प्रजनन क्षमता को सीमित करती है। ओपन-सोर्स प्रयास जैसे कि लंबे समय तक एनटीके-अवेयर स्केलिंग का उपयोग करते हैं, लेकिन महंगी गणना की आवश्यकता होती है, जबकि ढाल का उपयोग जारी है जिसमें मानक कार्य प्रदर्शन होता है।

UIUC और NVIDIA के शोधकर्ताओं ने संरेखित निर्देश मॉडल से अल्ट्रा-लॉन्ग संदर्भ LLM के निर्माण के लिए एक कुशल प्रशिक्षण नुस्खा प्रस्तावित किया है, जो संदर्भ लंबाई की सीमाओं को 128k से 1m, 2m और 4m टोकन तक बढ़ाता है। विधि निर्देश-निम्नलिखित और तर्क क्षमताओं को बनाए रखने के लिए निर्देश ट्यूनिंग का उपयोग करते हुए संदर्भ विंडो का विस्तार करने के लिए कुशल, निरंतर दिखावा रणनीतियों का उपयोग करती है। इसके अलावा, उनका अल्ट्रालॉन्ग -8 बी मॉडल विविध लंबे समय से संदर्भ बेंचमार्क में अत्याधुनिक प्रदर्शन को प्राप्त करता है। इस दृष्टिकोण के साथ प्रशिक्षित मॉडल मानक बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन को बनाए रखते हैं, जो लंबे और छोटे संदर्भ कार्यों के लिए संतुलित सुधार दिखाते हैं। अनुसंधान प्रमुख डिजाइन विकल्पों का गहन विश्लेषण प्रदान करता है, स्केलिंग रणनीतियों और डेटा रचना के प्रभावों को उजागर करता है।

NVIDIA A रिलीज़ अल्ट्रालॉन्ग -8 बी का परिचय देता है: अल्ट्रा-लॉन्ग संदर्भ भाषा मॉडल की एक श्रृंखला जो पाठ के व्यापक अनुक्रमों को संसाधित करने के लिए डिज़ाइन की गई है (1M, 2M और 4M टोकन तक)
 – Gadgets Solutions

प्रस्तावित विधि में दो प्रमुख चरण होते हैं: निरंतर प्रीट्रेनिंग और इंस्ट्रक्शन ट्यूनिंग। साथ में, ये चरण कार्यों में मजबूत प्रदर्शन को बनाए रखते हुए अल्ट्रा-लॉन्ग इनपुट के प्रभावी प्रसंस्करण को सक्षम करते हैं। एक यार्न-आधारित स्केलिंग दृष्टिकोण NTK-अवेयर स्केलिंग रणनीतियों के बजाय α = 1 और β = 4 के रूप में निश्चित हाइपरपैमीटर के साथ संदर्भ विस्तार के लिए अपनाया जाता है। स्केल कारकों को लक्ष्य संदर्भ लंबाई के आधार पर गणना की जाती है और विस्तारित अनुक्रमों को समायोजित करने और अधिकतम लंबाई पर प्रदर्शन गिरावट को कम करने के लिए रस्सी एम्बेडिंग के लिए बड़े स्केलिंग कारकों को नियोजित किया जाता है। शोधकर्ताओं ने प्रशिक्षण डेटा के लिए सामान्य, गणित और कोड डोमेन के फैले हुए उच्च गुणवत्ता वाले SFT डेटासेट को सब्सक्राइब किया और आगे GPT-4O और GPT-4O-MINI का उपयोग प्रतिक्रियाओं को परिष्कृत करने और कठोर डेटा decontamination करने के लिए किया।

प्रस्तावित मॉडल एक हेस्टैक पास्की रिट्रीवल टेस्ट में सुई में बेहतर लंबी-कॉन-कॉन्टेक्स्ट रिट्रीवल क्षमताओं को दिखाते हैं। LLAMA-3-8B-Instruct-Gradient-1048K जैसे बेसलाइन मॉडल परीक्षण पास करते हैं, लेकिन llama3.1-8b-instruct और llama-3-8b-prolong-512k-Instruct शो त्रुटियां। इसके विपरीत, अल्ट्रालॉन्ग मॉडल सभी इनपुट लंबाई और गहराई में 100% सटीकता प्राप्त करते हैं, जो मजबूत पुनर्प्राप्ति क्षमता दिखाते हैं। अल्ट्रालॉन्ग 512K और 1M टोकन तक के इनपुट के लिए शासक पर उच्चतम औसत स्कोर प्राप्त करता है, 128K और 256K टोकन लंबाई के भीतर LV-EVAL पर उच्चतम F1 स्कोर, और अनंत पर सबसे अच्छा प्रदर्शन। इसके अलावा, मॉडल 62.47, 61.06, और 60.95 के औसत स्कोर के साथ सामान्य, गणित और कोड डोमेन में मजबूत प्रदर्शन बनाए रखते हैं, जो बेस मॉडल के 61.45 से अधिक है।

यह शोध पत्र मानक बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन को बनाए रखते हुए, अल्ट्रा-लॉन्ग संदर्भ भाषा मॉडल के लिए एक कुशल और व्यवस्थित प्रशिक्षण नुस्खा का परिचय देता है, जो संदर्भ विंडो को 1M, 2M और 4M टोकन तक बढ़ाता है। दृष्टिकोण लंबे समय से संदर्भ समझ और निर्देश-निम्नलिखित क्षमताओं को बढ़ाने के लिए निर्देश ट्यूनिंग के साथ कुशल निरंतर दिखावा को जोड़ती है। हालांकि, यह दृष्टिकोण केवल सुदृढीकरण सीखने या वरीयता अनुकूलन की खोज के बिना निर्देश ट्यूनिंग चरण के दौरान निर्देश डेटासेट पर केवल एसएफटी पर केंद्रित है। इसके अलावा, यह सुरक्षा संरेखण को संबोधित नहीं करता है। भविष्य के अनुसंधान में सुरक्षा संरेखण तंत्र को एकीकृत करना और उन्नत ट्यूनिंग रणनीतियों की खोज करना, प्रदर्शन और विश्वसनीयता को और बढ़ाना शामिल है।


चेक आउट चेहरे पर गले लगाने पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »