Tuesday, April 8, 2025

यह एआई पेपर एक छोटी केएल+एमएसई फाइन-ट्यूनिंग रणनीति का परिचय देता है: व्याख्या के लिए एंड-टू-एंड स्पार्स ऑटोकोडर प्रशिक्षण के लिए एक कम लागत वाला विकल्प – Gadgets Solutions

-

विरल ऑटोएन्कोडर्स यह विश्लेषण करने में केंद्रीय उपकरण हैं कि बड़े भाषा मॉडल आंतरिक रूप से कैसे कार्य करते हैं। जटिल आंतरिक राज्यों को व्याख्यात्मक घटकों में अनुवाद करने से शोधकर्ताओं को उन भागों में तंत्रिका सक्रियता को तोड़ने की अनुमति मिलती है जो मनुष्यों को समझ में आते हैं। ये विधियाँ तर्क पथों का पता लगाने और यह पहचानने का समर्थन करती हैं कि विशेष टोकन या वाक्यांश मॉडल व्यवहार को कैसे प्रभावित करते हैं। विरल ऑटोएन्कोडर्स सर्किट विश्लेषण सहित व्याख्यात्मक अनुप्रयोगों के लिए विशेष रूप से मूल्यवान हैं, जहां यह समझना कि प्रत्येक न्यूरॉन क्या योगदान देता है, भरोसेमंद मॉडल व्यवहार को सुनिश्चित करने के लिए महत्वपूर्ण है।

विरल ऑटोकेनोडर प्रशिक्षण के साथ एक दबाव मुद्दा प्रशिक्षण उद्देश्यों को संरेखित करने में निहित है कि मॉडल के अनुमान के दौरान प्रदर्शन को कैसे मापा जाता है। परंपरागत रूप से, प्रशिक्षण प्रीकंप्यूटेड मॉडल सक्रियणों पर माध्य चुकता त्रुटि (एमएसई) का उपयोग करता है। हालांकि, यह क्रॉस-एंट्रॉपी लॉस के लिए अनुकूलन नहीं करता है, जिसका उपयोग प्रदर्शन को जज करने के लिए किया जाता है जब पुनर्निर्मित सक्रियण मूल को बदलते हैं। इस बेमेल के परिणामस्वरूप पुनर्निर्माण होता है जो वास्तविक अनुमान सेटिंग्स में खराब प्रदर्शन करते हैं। एमएसई और केएल दोनों पर प्रशिक्षण देने वाले अधिक प्रत्यक्ष तरीके इस मुद्दे को हल करते हैं, लेकिन वे काफी गणना की मांग करते हैं, जो व्यवहार में उनके गोद लेने को सीमित करता है।

कई दृष्टिकोणों ने विरल ऑटोएन्कोडर प्रशिक्षण को बेहतर बनाने का प्रयास किया है। केएल डाइवर्जेंस और एमएसई घाटे के संयोजन से पूर्ण एंड-टू-एंड प्रशिक्षण बेहतर पुनर्निर्माण की गुणवत्ता प्रदान करता है। फिर भी, यह कई फॉरवर्ड पास और सक्रियण परिशोधन की कमी के कारण 48 × अधिक तक की उच्च कम्प्यूटेशनल लागत के साथ आता है। एक विकल्प में लोरा एडेप्टर का उपयोग एक निश्चित ऑटोएन्कोडर के आसपास बेस लैंग्वेज मॉडल को ठीक करने के लिए किया जाता है। कुशल होते हुए, यह विधि स्वयं मॉडल को संशोधित करती है, जो उन अनुप्रयोगों के लिए आदर्श नहीं है जिन्हें अनलॉक्ड आर्किटेक्चर का विश्लेषण करने की आवश्यकता होती है।

यह एआई पेपर एक छोटी केएल+एमएसई फाइन-ट्यूनिंग रणनीति का परिचय देता है: व्याख्या के लिए एंड-टू-एंड स्पार्स ऑटोकोडर प्रशिक्षण के लिए एक कम लागत वाला विकल्प
 – Gadgets Solutions

दीपमाइंड के एक स्वतंत्र शोधकर्ता ने एक नया समाधान पेश किया है जो प्रशिक्षण के पूंछ के अंत में एक संक्षिप्त KL+MSE फाइन-ट्यूनिंग कदम लागू करता है, विशेष रूप से अंतिम 25 मिलियन टोकन के लिए-सामान्य प्रशिक्षण डेटा वॉल्यूम का 0.5-10%। मॉडल जेम्मा टीम और पायथिया प्रोजेक्ट से आते हैं। यह मॉडल आर्किटेक्चर को बदलने से बचता है और पूर्ण एंड-टू-एंड प्रशिक्षण के समान प्रदर्शन को प्राप्त करते हुए जटिलता को कम करता है। यह अतिरिक्त बुनियादी ढांचे या एल्गोरिथम परिवर्तनों की आवश्यकता के बिना बड़े मॉडल या परिशोधन सक्रियण संग्रह के साथ परिदृश्यों में 90% तक की प्रशिक्षण समय की बचत की अनुमति देता है।

इसे लागू करने के लिए, प्रशिक्षण में मानक एमएसई के साथ फेरबदल सक्रियण पर शुरू होता है, इसके बाद एक छोटा केएल+एमएसई फाइन-ट्यूनिंग चरण होता है। यह चरण एमएसई हानि के सापेक्ष केएल विचलन के वजन को समायोजित करने के लिए एक गतिशील संतुलन तंत्र का उपयोग करता है। मैन्युअल रूप से एक निश्चित। पैरामीटर को ट्यून करने के बजाय, सिस्टम प्रति प्रशिक्षण बैच के प्रति केएल स्केलिंग कारक को पुनर्गठित करता है। सूत्र सुनिश्चित करता है कि कुल संयुक्त नुकसान मूल एमएसई हानि के समान पैमाने को बनाए रखता है। यह गतिशील नियंत्रण अतिरिक्त हाइपरपैमेटर्स की आवश्यकता को रोकता है और मॉडल प्रकारों में स्थानांतरण को सरल बनाता है। 25 मीटर टोकन विंडो पर 5E-5 से 0 तक सीखने की दर के रैखिक क्षय के साथ फाइन-ट्यूनिंग को निष्पादित किया जाता है, प्रक्रिया को व्यावहारिक गणना बजट के साथ संरेखित करता है और पहले के प्रशिक्षण से स्पार्सिटी सेटिंग्स को संरक्षित करता है।

प्रदर्शन मूल्यांकन से पता चलता है कि इस दृष्टिकोण ने क्रॉस-एंट्रॉपी लॉस गैप को 20% से 50% तक कम कर दिया, जो कि स्पार्सिटी सेटिंग के आधार पर है। उदाहरण के लिए, K = 80 के साथ पायथिया -160m पर, KL+MSE ठीक-ट्यून्ड मॉडल ने पूर्ण-एंड-टू-एंड मॉडल की तुलना में थोड़ा बेहतर प्रदर्शन किया, जिसमें 50% कम दीवार-घड़ी समय की आवश्यकता होती है। उच्चतर विरल (k = 160) में, ठीक-ट्यून किए गए MSE-only मॉडल ने KL+MSE की तुलना में समान या मामूली बेहतर परिणाम प्राप्त किए, संभवतः उद्देश्य की सादगी के कारण। लोरा और रैखिक एडेप्टर के साथ परीक्षणों से पता चला कि उनके लाभ ढेर नहीं होते हैं, क्योंकि प्रत्येक विधि एमएसई-प्रशिक्षित ऑटोकेन्डर्स में एक साझा त्रुटि स्रोत को सही करती है। यहां तक ​​कि बहुत कम रैंक लोरा एडेप्टर (रैंक 2) ने पूर्ण फाइन-ट्यूनिंग के आधे से अधिक प्रदर्शन लाभ पर कब्जा कर लिया।

यद्यपि क्रॉस-एंट्रॉपी परिणाम लगातार ठीक-ट्यून विधि के पक्षधर थे, व्याख्याता मेट्रिक्स ने मिश्रित रुझान दिखाए। Saebench पर, Relu- आधारित विरल ऑटोकोडर्स ने विरल प्रोबिंग और Ravel Metrics में सुधार देखा, जबकि सहज सहसंबंध और लक्षित जांच कार्यों पर प्रदर्शन गिरा। TOPK- आधारित मॉडल ने छोटे, अधिक असंगत परिवर्तन दिखाए। इन परिणामों से पता चलता है कि ठीक-ट्यूनिंग मॉडल भविष्यवाणियों के साथ बेहतर रूप से गठबंधन किए गए पुनर्निर्माण का उत्पादन कर सकता है, लेकिन विशिष्ट मूल्यांकन कार्य या वास्तुकला प्रकार के आधार पर हमेशा व्याख्या को बढ़ा सकता है।

यह शोध विरल ऑटोएन्कोडर प्रशिक्षण में एक सार्थक उन्नति को रेखांकित करता है: एक कम्प्यूटेशनल रूप से प्रकाश, तकनीकी रूप से सरल विधि जो आधार मॉडल को संशोधित किए बिना पुनर्निर्माण सटीकता में सुधार करती है। यह प्रशिक्षण उद्देश्यों में प्रमुख संरेखण मुद्दों को संबोधित करता है और मॉडल और विरल स्तरों में व्यावहारिक परिणाम प्रदान करता है। जबकि सभी व्याख्याता मेट्रिक्स में समान रूप से बेहतर नहीं है, यह सर्किट-स्तरीय विश्लेषण जैसे कार्यों के लिए प्रदर्शन और सादगी के बीच एक अनुकूल व्यापार-बंद प्रदान करता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »