Monday, April 21, 2025

SUPERBPE: क्रॉस-वर्ड टोकनाइजेशन के साथ भाषा मॉडल को आगे बढ़ाना – Gadgets Solutions

-

भाषा के मॉडल (LMS) को एक मौलिक चुनौती का सामना करना पड़ता है कि कैसे टोकन के माध्यम से पाठ्य डेटा का अनुभव किया जाए। वर्तमान सबवर्ड टोकनिज़र्स सेगमेंट पाठ शब्दावली टोकन में पाठ जो व्हाट्सएप को पुल नहीं कर सकते हैं, एक कृत्रिम बाधा का पालन करते हैं जो अंतरिक्ष को एक शब्दार्थ सीमा के रूप में मानता है। यह अभ्यास इस वास्तविकता को नजरअंदाज करता है कि अर्थ अक्सर व्यक्तिगत शब्दों से अधिक होता है-बहु-शब्द अभिव्यक्तियाँ जैसे “बहुत सारे” एकल अर्थ इकाइयों के रूप में कार्य करते हैं, अंग्रेजी बोलने वालों के साथ मानसिक रूप से ऐसे हजारों वाक्यांशों को संग्रहीत करते हैं। क्रॉस-लिंगुइस्टिक रूप से, एक ही अवधारणाओं को भाषा के आधार पर एकल या कई शब्दों के रूप में व्यक्त किया जा सकता है। विशेष रूप से, चीनी और जापानी जैसी कुछ भाषाएं कोई व्हाट्सएप का उपयोग नहीं करती हैं, जिससे टोकन स्पष्ट प्रदर्शन में गिरावट के बिना कई शब्दों या वाक्यों को फैलाने की अनुमति देते हैं।

पिछले शोध ने पारंपरिक सबवर्ड टोकन से परे कई दृष्टिकोणों का पता लगाया है। कुछ अध्ययनों ने कई ग्रैन्युलैरिटी स्तरों पर पाठ प्रसंस्करण पाठ की जांच की या आवृत्ति-आधारित एन-ग्राम पहचान के माध्यम से मल्टी-वर्ड टोकन बनाया। अन्य शोधकर्ताओं ने मल्टी-टोकन भविष्यवाणी (एमटीपी) की खोज की है, जिससे भाषा मॉडल एक ही चरण में विभिन्न टोकन की भविष्यवाणी करने की अनुमति देते हैं, जो एक साथ एक से अधिक उप-पाठ्यक्रम को संसाधित करने के लिए मॉडल की क्षमता की पुष्टि करता है। हालांकि, इन दृष्टिकोणों को वास्तुशिल्प संशोधनों की आवश्यकता होती है और प्रति कदम अनुमानित टोकन की संख्या को ठीक किया जाता है। कुछ शोधकर्ताओं ने टोकनराइज़र-मुक्त दृष्टिकोणों का पीछा किया है, पाठ पाठ सीधे बाइट अनुक्रम के रूप में। हालांकि, यह अनुक्रम लंबाई और कम्प्यूटेशनल आवश्यकताओं को काफी बढ़ाता है, जिससे जटिल वास्तुशिल्प समाधान होते हैं।

वाशिंगटन विश्वविद्यालय, एनवीडिया, और एलन इंस्टीट्यूट फॉर एआई के शोधकर्ताओं ने शानदार प्रदर्शन किया है, एक टोकनकरण एल्गोरिथ्म है जो एक शब्दावली बनाता है जिसमें पारंपरिक सबवर्ड टोकन और अभिनव “सुपरवर्ड” टोकन दोनों शामिल हैं जो कई शब्दों का विस्तार करते हैं। यह दृष्टिकोण लोकप्रिय बाइट-पेयर एन्कोडिंग (BPE) एल्गोरिथ्म को बढ़ाता है, जो कि एक प्रेटेज़ेशन पाठ्यक्रम को लागू करके शुरू में व्हॉट्सपेस सीमाओं को बनाए रखने के लिए सबवर्ड टोकन सीखने के लिए, फिर सुपरवर्ड टोकन गठन के लिए अनुमति देने के लिए इन बाधाओं को दूर करता है। जबकि मानक BPE जल्दी से कम हो जाने वाले रिटर्न तक पहुंच जाता है और शब्दावली आकार बढ़ने के साथ तेजी से दुर्लभ उप-शब्द का उपयोग करना शुरू कर देता है, सुपरबाई ने एकल टोकन के रूप में एन्कोड करने के लिए सामान्य बहु-शब्द अनुक्रमों की खोज जारी रखी, एन्कोडिंग दक्षता में सुधार किया।

SUPERBPE: क्रॉस-वर्ड टोकनाइजेशन के साथ भाषा मॉडल को आगे बढ़ाना
 – Gadgets Solutions

SuperBPE एक दो-चरण प्रशिक्षण प्रक्रिया के माध्यम से संचालित होता है जो ऊपर उल्लिखित पारंपरिक BPE के प्रीटोकलाइज़ेशन चरण को संशोधित करता है। यह दृष्टिकोण सहज रूप से शब्दार्थ इकाइयों का निर्माण करता है और अधिक दक्षता के लिए उन्हें सामान्य अनुक्रमों में जोड़ता है। T = T (T संक्रमण बिंदु है और T लक्ष्य आकार है) सेटिंग मानक BPE का उत्पादन करता है, जबकि T = 0 एक भोले व्हॉट्सपेस-मुक्त BPE बनाता है। प्रशिक्षण शानदार को मानक BPE की तुलना में अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, क्योंकि व्हॉट्सपेस प्रीटोकलाइज़ेशन के बिना, प्रशिक्षण डेटा में न्यूनतम कटौती के साथ बहुत लंबे “शब्द” होते हैं। हालांकि, इस प्रशिक्षण में 100 सीपीयू पर कुछ घंटों की लागत बढ़ती है और केवल एक बार होता है, जो भाषा मॉडल प्रीट्रेनिंग के लिए आवश्यक संसाधनों की तुलना में नगण्य है।

Superbe ज्ञान, तर्क, कोडिंग, पढ़ने की समझ आदि में फैले 30 बेंचमार्क में प्रभावशाली प्रदर्शन दिखाता है। सभी शानदार मॉडल BPE बेसलाइन से बेहतर प्रदर्शन करते हैं, जिसमें सबसे मजबूत 8B मॉडल 4.0% का औसत सुधार प्राप्त करता है और 30 में से 25 में से 25 पर बेसलाइन को पार करता है। बहु-पसंद के कार्य पर्याप्त लाभ दिखाते हैं, जिसमें +9.7% सुधार होता है। केवल सांख्यिकीय रूप से महत्वपूर्ण अंडरपरफॉर्मेंस लाम्बदा कार्य में होता है, जहां सुपरबैप 75.8% से 70.6% तक अंतिम सटीकता की गिरावट का अनुभव करता है। इसके अलावा, सभी उचित संक्रमण बिंदु बेसलाइन की तुलना में मजबूत परिणाम प्राप्त करते हैं। सबसे एन्कोडिंग-कुशल संक्रमण बिंदु 35% तक कम्प्यूटिंग कम्प्यूटिंग को कम करते हुए +3.1% प्रदर्शन में सुधार करता है।

निष्कर्ष में, शोधकर्ताओं ने सुपरबर्ड टोकन को शामिल करने के लिए मानक बीपीई एल्गोरिथ्म को बढ़ाकर विकसित एक अधिक प्रभावी टोकनकरण दृष्टिकोण को शानदार तरीके से पेश किया। भाषा मॉडल और पाठ के बीच मौलिक इंटरफ़ेस के रूप में कार्य करने के बावजूद, टोकन एल्गोरिदम अपेक्षाकृत स्थिर बना हुआ है। Superbe इस स्थिति को चुनौती देता है कि यह पहचानते हुए कि टोकन बहु-शब्द अभिव्यक्तियों को शामिल करने के लिए पारंपरिक उप-सीमा सीमाओं से परे विस्तार कर सकते हैं। SuperBPE टोकनर भाषा मॉडल को कम्प्यूटेशनल लागतों को कम करते हुए कई डाउनस्ट्रीम कार्यों में बेहतर प्रदर्शन प्राप्त करने में सक्षम बनाते हैं। इन लाभों को अंतर्निहित मॉडल आर्किटेक्चर में कोई संशोधन करने की आवश्यकता नहीं है, जो सुपरबैप को आधुनिक भाषा मॉडल विकास पाइपलाइनों में पारंपरिक बीपीई के लिए एक सहज प्रतिस्थापन बनाता है।


चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »