Wednesday, April 23, 2025

MUON ऑप्टिमाइज़र ट्रांसफार्मर में ग्रोकिंग को काफी तेज करता है: Microsoft शोधकर्ता विलंबित सामान्यीकरण पर ऑप्टिमाइज़र प्रभाव का पता लगाते हैं – Gadgets Solutions

-

ग्रोकिंग चैलेंज को फिर से देखना

हाल के वर्षों में, की घटना घिनौना—मैंस शिक्षण मॉडल में विलंबित अभी तक अचानक संक्रमण से संक्रमण से सामान्यीकरण तक का प्रदर्शन किया गया है – ने प्रशिक्षण की गतिशीलता में नए सिरे से जांच को प्रेरित किया है। प्रारंभ में मॉड्यूलर अंकगणित जैसे छोटे एल्गोरिथम कार्यों में मनाया जाता है, ग्रोकिंग से पता चलता है कि मॉडल लगभग सही प्रशिक्षण सटीकता तक पहुंच सकते हैं जबकि सत्यापन प्रदर्शन लंबे समय तक खराब रहता है। आखिरकार, और अक्सर अचानक, मॉडल सामान्य करना शुरू कर देता है। यह समझना कि इस संक्रमण को नियंत्रित करने के लिए न केवल व्याख्या के लिए महत्वपूर्ण है, बल्कि गहरे नेटवर्क में प्रशिक्षण दक्षता का अनुकूलन करने के लिए भी महत्वपूर्ण है। पूर्व अध्ययनों ने वजन क्षय और नियमितीकरण की भूमिका पर प्रकाश डाला है। हालांकि, इस प्रक्रिया पर ऑप्टिमाइज़र के विशिष्ट प्रभाव को अनिर्दिष्ट किया गया है।

ग्रोकिंग पर ऑप्टिमाइज़र प्रभाव की जांच करना

Microsoft का यह AI पेपर ग्रोकिंग व्यवहार पर ऑप्टिमाइज़र पसंद के प्रभाव की जांच करता है। विशेष रूप से, यह MUON के साथ व्यापक रूप से अपनाए गए ADAMW ऑप्टिमाइज़र के प्रदर्शन के विपरीत है, जो एक नया अनुकूलन एल्गोरिथ्म है जो वर्णक्रमीय मानदंड बाधाओं और दूसरे क्रम की जानकारी को शामिल करता है। अध्ययन जांच करता है कि क्या ये विशेषताएं MUON को सामान्यीकरण चरण में तेजी लाने में सक्षम बनाती हैं।

प्रयोगों में सात एल्गोरिथम कार्यों का विस्तार होता है – मुख्य रूप से मॉड्यूलर अंकगणितीय संचालन और समता वर्गीकरण – एक आधुनिक ट्रांसफार्मर वास्तुकला का उपयोग करते हुए। प्रत्येक कार्य को उचित प्रशिक्षण स्थितियों के तहत मज़बूती से ग्रॉकिंग प्रदर्शित करने के लिए डिज़ाइन किया गया है। अनुसंधान में सॉफ्टमैक्स वेरिएंट (स्टैंडर्ड सॉफ्टमैक्स, स्टेबेलमैक्स, और स्पार्समैक्स) का एक तुलनात्मक विश्लेषण भी शामिल है, यह मूल्यांकन करने के लिए कि क्या आउटपुट सामान्यीकरण प्रशिक्षण गतिशीलता को संशोधित करने में एक माध्यमिक भूमिका निभाता है। हालांकि, ऑप्टिमाइज़र पर मुख्य जांच केंद्र।

MUON ऑप्टिमाइज़र ट्रांसफार्मर में ग्रोकिंग को काफी तेज करता है: Microsoft शोधकर्ता विलंबित सामान्यीकरण पर ऑप्टिमाइज़र प्रभाव का पता लगाते हैं
 – Gadgets Solutions

वास्तुशिल्प और अनुकूलन डिजाइन

अंतर्निहित मॉडल आर्किटेक्चर पिटोर्च में लागू मानक ट्रांसफार्मर घटकों को अपनाता है। इसमें मल्टी-हेड सेल्फ-एब्जीशन, रोटरी पोजिशनल एम्बेडिंग (रस्सी), आरएमएस सामान्यीकरण, एसआईएलयू सक्रियण और ड्रॉपआउट-आधारित नियमितीकरण शामिल हैं। इनपुट टोकन- न्यूमेरिकल वैल्यूज़ या ऑपरेटर्स- सिंपल आइडेंटिटी एम्बेडिंग के माध्यम से एन्कोडेड होते हैं।

ऑप्टिमाइज़र व्यवहार में प्रमुख भेद निहित है:

  • एडमवसमकालीन गहरे सीखने के वर्कफ़्लोज़ में एक आधार रेखा, डिकॉउडेड वेट क्षय के साथ अनुकूली सीखने की दरों का उपयोग करता है।
  • म्योनइसके विपरीत, ऑर्थोगोनलाइज्ड ग्रेडिएंट्स को लागू करता है, प्रशिक्षण को स्थिर करने के लिए वर्णक्रमीय मानदंड बाधाओं को लागू करता है, और अधिक जानकारीपूर्ण अपडेट के लिए दूसरे क्रम की वक्रता का अनुमान लगाता है।

इन तंत्रों का उद्देश्य अनुकूलन के दौरान व्यापक अन्वेषण को बढ़ावा देना है, अस्थिरता को कम करना है (जैसे, “सॉफ्टमैक्स पतन”), और परतों में सीखने की प्रगति को सिंक्रनाइज़ करें। परत के आयामों के अनुसार अपडेट परिमाण को विनियमित करने की MUON की क्षमता अक्षम संस्मरण मार्गों से बचने में विशेष रूप से प्रासंगिक है।

तीन सॉफ्टमैक्स कॉन्फ़िगरेशन- SoftMax, StableMax, और SparseMax- का आकलन करने के लिए शामिल हैं कि क्या संख्यात्मक स्थिरता या आउटपुट वितरण की स्पार्सिटी ग्रोकिंग को प्रभावित करती है। यह सुनिश्चित करने में मदद करता है कि मनाया गया प्रभाव मुख्य रूप से आउटपुट सक्रियण बारीकियों के बजाय ऑप्टिमाइज़र डायनेमिक्स से स्टेम करता है।

अनुभवजन्य मूल्यांकन और परिणाम

अध्ययन के अनुभवजन्य प्रोटोकॉल को व्यवस्थित रूप से डिज़ाइन किया गया है। प्रत्येक ऑप्टिमाइज़र-सॉफ्टमैक्स-टास्क संयोजन का मूल्यांकन सांख्यिकीय मजबूती सुनिश्चित करने के लिए कई बीजों में किया जाता है। ग्रोकिंग को परिचालन रूप से पहले युग के रूप में परिभाषित किया गया है जहां सत्यापन सटीकता प्रशिक्षण सटीकता स्थिरीकरण के बाद 95% से आगे निकल जाती है।

परिणाम MUON के लिए एक सुसंगत और सांख्यिकीय रूप से महत्वपूर्ण लाभ का संकेत देते हैं। एडमव के लिए 153.09 युगों की तुलना में औसतन, म्यूओन 102.89 युगों में ग्रोकिंग थ्रेशोल्ड तक पहुंचता है। यह अंतर न केवल संख्यात्मक रूप से बड़ा है, बल्कि सांख्यिकीय रूप से कठोर भी है (टी = 5.0175, पी, 6.33e) 8)। इसके अतिरिक्त, MUON सभी स्थितियों में ग्रोकिंग एपोच के एक तंग वितरण को प्रदर्शित करता है, अधिक पूर्वानुमानित प्रशिक्षण प्रक्षेपवक्र का सुझाव देता है।

सभी कार्यों को एक एकीकृत कोडबेस और मानकीकृत कॉन्फ़िगरेशन का उपयोग करके NVIDIA H100 GPU पर आयोजित किया गया था। कार्यों में मॉड्यूलर जोड़, गुणा, विभाजन, घातांक, जीसीडी और 10-बिट समता कार्य शामिल हैं। डेटासेट का आकार 1,024 से 9,409 उदाहरणों तक था, जिसमें स्थिरता बनाए रखने के लिए प्रति कार्य समायोजित प्रशिक्षण-सत्यापन विभाजन के साथ।

निष्कर्ष

निष्कर्ष इस बात का पुख्ता सबूत प्रदान करते हैं कि ऑप्टिमाइज़र ज्यामिति अधिक रूप से अधिक समय के लिए सामान्यीकरण के उद्भव को प्रभावित करती है। दूसरे-क्रम-जागरूक अपडेट और वर्णक्रमीय मानदंडों के माध्यम से अनुकूलन पथ को स्टीयरिंग करके, म्यूऑन लंबे समय तक ओवरफिटिंग चरणों को दरकिनार करते हुए, अंतर्निहित डेटा संरचना की खोज करने की दिशा में एक अधिक प्रत्यक्ष मार्ग की सुविधा प्रदान करता है।

यह अध्ययन तंत्रिका प्रशिक्षण डिजाइन में प्रथम श्रेणी के कारक के रूप में अनुकूलन रणनीति पर विचार करने की व्यापक आवश्यकता को रेखांकित करता है। जबकि पूर्व कार्य ने डेटा और नियमितीकरण पर जोर दिया, ये परिणाम बताते हैं कि ऑप्टिमाइज़र आर्किटेक्चर स्वयं प्रशिक्षण की गतिशीलता को आकार देने में एक महत्वपूर्ण भूमिका निभा सकता है।


इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


ओपन-सोर्स टीटीएस नई ऊंचाइयों तक पहुंचता है: नारी लैब्स डीआईए रिलीज़ करता है, वास्तविक समय की आवाज क्लोनिंग के लिए एक 1.6 बी पैरामीटर मॉडल और उपभोक्ता उपकरण पर अभिव्यंजक भाषण संश्लेषण
 – Gadgets Solutions

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »