भाषा के मॉडल (LMS) को एक मौलिक चुनौती का सामना करना पड़ता है कि कैसे टोकन के माध्यम से पाठ्य डेटा का अनुभव किया जाए। वर्तमान सबवर्ड टोकनिज़र्स सेगमेंट पाठ शब्दावली टोकन में पाठ जो व्हाट्सएप को पुल नहीं कर सकते हैं, एक कृत्रिम बाधा का पालन करते हैं जो अंतरिक्ष को एक शब्दार्थ सीमा के रूप में मानता है। यह अभ्यास इस वास्तविकता को नजरअंदाज करता है कि अर्थ अक्सर व्यक्तिगत शब्दों से अधिक होता है-बहु-शब्द अभिव्यक्तियाँ जैसे “बहुत सारे” एकल अर्थ इकाइयों के रूप में कार्य करते हैं, अंग्रेजी बोलने वालों के साथ मानसिक रूप से ऐसे हजारों वाक्यांशों को संग्रहीत करते हैं। क्रॉस-लिंगुइस्टिक रूप से, एक ही अवधारणाओं को भाषा के आधार पर एकल या कई शब्दों के रूप में व्यक्त किया जा सकता है। विशेष रूप से, चीनी और जापानी जैसी कुछ भाषाएं कोई व्हाट्सएप का उपयोग नहीं करती हैं, जिससे टोकन स्पष्ट प्रदर्शन में गिरावट के बिना कई शब्दों या वाक्यों को फैलाने की अनुमति देते हैं।
पिछले शोध ने पारंपरिक सबवर्ड टोकन से परे कई दृष्टिकोणों का पता लगाया है। कुछ अध्ययनों ने कई ग्रैन्युलैरिटी स्तरों पर पाठ प्रसंस्करण पाठ की जांच की या आवृत्ति-आधारित एन-ग्राम पहचान के माध्यम से मल्टी-वर्ड टोकन बनाया। अन्य शोधकर्ताओं ने मल्टी-टोकन भविष्यवाणी (एमटीपी) की खोज की है, जिससे भाषा मॉडल एक ही चरण में विभिन्न टोकन की भविष्यवाणी करने की अनुमति देते हैं, जो एक साथ एक से अधिक उप-पाठ्यक्रम को संसाधित करने के लिए मॉडल की क्षमता की पुष्टि करता है। हालांकि, इन दृष्टिकोणों को वास्तुशिल्प संशोधनों की आवश्यकता होती है और प्रति कदम अनुमानित टोकन की संख्या को ठीक किया जाता है। कुछ शोधकर्ताओं ने टोकनराइज़र-मुक्त दृष्टिकोणों का पीछा किया है, पाठ पाठ सीधे बाइट अनुक्रम के रूप में। हालांकि, यह अनुक्रम लंबाई और कम्प्यूटेशनल आवश्यकताओं को काफी बढ़ाता है, जिससे जटिल वास्तुशिल्प समाधान होते हैं।
वाशिंगटन विश्वविद्यालय, एनवीडिया, और एलन इंस्टीट्यूट फॉर एआई के शोधकर्ताओं ने शानदार प्रदर्शन किया है, एक टोकनकरण एल्गोरिथ्म है जो एक शब्दावली बनाता है जिसमें पारंपरिक सबवर्ड टोकन और अभिनव “सुपरवर्ड” टोकन दोनों शामिल हैं जो कई शब्दों का विस्तार करते हैं। यह दृष्टिकोण लोकप्रिय बाइट-पेयर एन्कोडिंग (BPE) एल्गोरिथ्म को बढ़ाता है, जो कि एक प्रेटेज़ेशन पाठ्यक्रम को लागू करके शुरू में व्हॉट्सपेस सीमाओं को बनाए रखने के लिए सबवर्ड टोकन सीखने के लिए, फिर सुपरवर्ड टोकन गठन के लिए अनुमति देने के लिए इन बाधाओं को दूर करता है। जबकि मानक BPE जल्दी से कम हो जाने वाले रिटर्न तक पहुंच जाता है और शब्दावली आकार बढ़ने के साथ तेजी से दुर्लभ उप-शब्द का उपयोग करना शुरू कर देता है, सुपरबाई ने एकल टोकन के रूप में एन्कोड करने के लिए सामान्य बहु-शब्द अनुक्रमों की खोज जारी रखी, एन्कोडिंग दक्षता में सुधार किया।
SuperBPE एक दो-चरण प्रशिक्षण प्रक्रिया के माध्यम से संचालित होता है जो ऊपर उल्लिखित पारंपरिक BPE के प्रीटोकलाइज़ेशन चरण को संशोधित करता है। यह दृष्टिकोण सहज रूप से शब्दार्थ इकाइयों का निर्माण करता है और अधिक दक्षता के लिए उन्हें सामान्य अनुक्रमों में जोड़ता है। T = T (T संक्रमण बिंदु है और T लक्ष्य आकार है) सेटिंग मानक BPE का उत्पादन करता है, जबकि T = 0 एक भोले व्हॉट्सपेस-मुक्त BPE बनाता है। प्रशिक्षण शानदार को मानक BPE की तुलना में अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, क्योंकि व्हॉट्सपेस प्रीटोकलाइज़ेशन के बिना, प्रशिक्षण डेटा में न्यूनतम कटौती के साथ बहुत लंबे “शब्द” होते हैं। हालांकि, इस प्रशिक्षण में 100 सीपीयू पर कुछ घंटों की लागत बढ़ती है और केवल एक बार होता है, जो भाषा मॉडल प्रीट्रेनिंग के लिए आवश्यक संसाधनों की तुलना में नगण्य है।
Superbe ज्ञान, तर्क, कोडिंग, पढ़ने की समझ आदि में फैले 30 बेंचमार्क में प्रभावशाली प्रदर्शन दिखाता है। सभी शानदार मॉडल BPE बेसलाइन से बेहतर प्रदर्शन करते हैं, जिसमें सबसे मजबूत 8B मॉडल 4.0% का औसत सुधार प्राप्त करता है और 30 में से 25 में से 25 पर बेसलाइन को पार करता है। बहु-पसंद के कार्य पर्याप्त लाभ दिखाते हैं, जिसमें +9.7% सुधार होता है। केवल सांख्यिकीय रूप से महत्वपूर्ण अंडरपरफॉर्मेंस लाम्बदा कार्य में होता है, जहां सुपरबैप 75.8% से 70.6% तक अंतिम सटीकता की गिरावट का अनुभव करता है। इसके अलावा, सभी उचित संक्रमण बिंदु बेसलाइन की तुलना में मजबूत परिणाम प्राप्त करते हैं। सबसे एन्कोडिंग-कुशल संक्रमण बिंदु 35% तक कम्प्यूटिंग कम्प्यूटिंग को कम करते हुए +3.1% प्रदर्शन में सुधार करता है।
निष्कर्ष में, शोधकर्ताओं ने सुपरबर्ड टोकन को शामिल करने के लिए मानक बीपीई एल्गोरिथ्म को बढ़ाकर विकसित एक अधिक प्रभावी टोकनकरण दृष्टिकोण को शानदार तरीके से पेश किया। भाषा मॉडल और पाठ के बीच मौलिक इंटरफ़ेस के रूप में कार्य करने के बावजूद, टोकन एल्गोरिदम अपेक्षाकृत स्थिर बना हुआ है। Superbe इस स्थिति को चुनौती देता है कि यह पहचानते हुए कि टोकन बहु-शब्द अभिव्यक्तियों को शामिल करने के लिए पारंपरिक उप-सीमा सीमाओं से परे विस्तार कर सकते हैं। SuperBPE टोकनर भाषा मॉडल को कम्प्यूटेशनल लागतों को कम करते हुए कई डाउनस्ट्रीम कार्यों में बेहतर प्रदर्शन प्राप्त करने में सक्षम बनाते हैं। इन लाभों को अंतर्निहित मॉडल आर्किटेक्चर में कोई संशोधन करने की आवश्यकता नहीं है, जो सुपरबैप को आधुनिक भाषा मॉडल विकास पाइपलाइनों में पारंपरिक बीपीई के लिए एक सहज प्रतिस्थापन बनाता है।
चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।