Saturday, April 19, 2025

यूबी-मेश: बड़े पैमाने पर एलएलएम प्रशिक्षण के लिए एक लागत-कुशल, स्केलेबल नेटवर्क आर्किटेक्चर – Gadgets Solutions

-

एलएलएमएस स्केल के रूप में, उनकी कम्प्यूटेशनल और बैंडविड्थ मांगों में काफी वृद्धि हुई है, एआई प्रशिक्षण बुनियादी ढांचे के लिए चुनौतियां हैं। स्केलिंग कानूनों के बाद, LLMs मापदंडों और डेटासेट का विस्तार करके समझ, तर्क और पीढ़ी में सुधार करते हैं, मजबूत कंप्यूटिंग सिस्टम की आवश्यकता होती है। बड़े पैमाने पर एआई समूहों को अब दसियों हजारों जीपीयू या एनपीयू की आवश्यकता होती है, जैसा कि लामा -3 के 16K जीपीयू प्रशिक्षण सेटअप में देखा गया था, जिसमें 54 दिन लगते थे। AI डेटा केंद्रों के साथ 100k GPUs की तैनाती के साथ, स्केलेबल इन्फ्रास्ट्रक्चर आवश्यक है। इसके अतिरिक्त, इंटरकनेक्ट बैंडविड्थ आवश्यकताएं 3.2 टीबीपीएस प्रति नोड से पार करती हैं, जो पारंपरिक सीपीयू-आधारित प्रणालियों से अधिक है। सममित क्लोज नेटवर्क आर्किटेक्चर की बढ़ती लागत ऊर्जा और रखरखाव जैसे परिचालन खर्चों के अनुकूलन के साथ-साथ लागत प्रभावी समाधानों को महत्वपूर्ण बनाती है। इसके अलावा, उच्च उपलब्धता एक महत्वपूर्ण चिंता है, क्योंकि बड़े पैमाने पर प्रशिक्षण क्लस्टर बार-बार हार्डवेयर विफलताओं का अनुभव करते हैं, गलती-सहिष्णु नेटवर्क डिजाइनों की मांग करते हैं।

इन चुनौतियों को संबोधित करने के लिए AI डेटा सेंटर आर्किटेक्चर पर पुनर्विचार करने की आवश्यकता है। सबसे पहले, नेटवर्क टोपोलॉजी को एलएलएम प्रशिक्षण के संरचित ट्रैफ़िक पैटर्न के साथ संरेखित करना चाहिए, जो पारंपरिक कार्यभार से भिन्न होता है। टेंसर समानता, अधिकांश डेटा ट्रांसफर के लिए जिम्मेदार, छोटे समूहों के भीतर संचालित होता है, जबकि डेटा समानता में न्यूनतम लेकिन लंबी दूरी के संचार शामिल होते हैं। दूसरा, कंप्यूटिंग और नेटवर्किंग सिस्टम को सह-अनुकूलित किया जाना चाहिए, जिससे भीड़ और कम करने से बचने के लिए प्रभावी समानतावाद रणनीतियों और संसाधन वितरण को सुनिश्चित किया जा सके। अंत में, एआई क्लस्टर्स को गलती सहिष्णुता के लिए स्व-हीलिंग तंत्र की सुविधा होनी चाहिए, स्वचालित रूप से ट्रैफ़िक को फिर से शुरू करना या असफलता होने पर बैकअप एनपीयू को सक्रिय करना। ये सिद्धांत-स्थानीयकृत नेटवर्क आर्किटेक्चर, टोपोलॉजी-अवेयर कम्प्यूटेशन, और सेल्फ-हीलिंग सिस्टम-कुशल, लचीला एआई प्रशिक्षण इन्फ्रास्ट्रक्चर के निर्माण के लिए आवश्यक हैं।

Huawei शोधकर्ताओं ने UB-MESH, AI डेटा सेंटर नेटवर्क आर्किटेक्चर को स्केलेबिलिटी, दक्षता और विश्वसनीयता के लिए डिज़ाइन किया गया। पारंपरिक सममित नेटवर्क के विपरीत, यूबी-एमईएसएच एक पदानुक्रमित रूप से स्थानीयकृत एनडी-फुलमेश टोपोलॉजी को नियुक्त करता है, जो स्विच निर्भरता को कम करने के लिए लघु-श्रेणी के इंटरकनेक्ट्स का अनुकूलन करता है। 4 डी-फुलमेश डिज़ाइन के आधार पर, इसका यूबी-मेश-पॉड विशेष हार्डवेयर और लचीले बैंडविड्थ आवंटन के लिए एक एकीकृत बस (यूबी) तकनीक को एकीकृत करता है। ऑल-पाथ रूटिंग (एपीआर) तंत्र डेटा ट्रैफ़िक प्रबंधन को बढ़ाता है, जबकि 64+1 बैकअप सिस्टम गलती सहिष्णुता सुनिश्चित करता है। क्लोज नेटवर्क की तुलना में, यूबी-मेश ने एलएलएम प्रशिक्षण में न्यूनतम प्रदर्शन ट्रेड-ऑफ के साथ 2.04 × लागत दक्षता प्राप्त करते हुए, 93% तक स्विच उपयोग और ऑप्टिकल मॉड्यूल रिलायंस को 93% तक कम कर दिया।

यूबी-मेश एक उच्च-आयामी पूर्ण-मेष इंटरकनेक्ट आर्किटेक्चर है जिसे बड़े पैमाने पर एआई प्रशिक्षण में दक्षता बढ़ाने के लिए डिज़ाइन किया गया है। यह एक एनडी-फुलमेश टोपोलॉजी को नियुक्त करता है, जो प्रत्यक्ष विद्युत कनेक्शन को अधिकतम करके महंगा स्विच और ऑप्टिकल मॉड्यूल पर निर्भरता को कम करता है। सिस्टम एक यूबी इंटरकनेक्ट के माध्यम से जुड़े मॉड्यूलर हार्डवेयर घटकों पर बनाया गया है, जो कि सीपीयू, एनपीयू और स्विच में संचार को सुव्यवस्थित करता है। एक 2 डी पूर्ण-मेष संरचना एक रैक के भीतर 64 एनपीयू को जोड़ती है, जो पॉड स्तर पर 4 डी फुल-मेश तक फैली हुई है। स्केलेबिलिटी के लिए, एक सुपरपॉड संरचना हाइब्रिड क्लोजल टोपोलॉजी का उपयोग करके कई फली को एकीकृत करती है, एआई डेटा सेंटरों में प्रदर्शन, लचीलापन और लागत-दक्षता को संतुलित करती है।

यूबी-मेश: बड़े पैमाने पर एलएलएम प्रशिक्षण के लिए एक लागत-कुशल, स्केलेबल नेटवर्क आर्किटेक्चर
 – Gadgets Solutions

बड़े पैमाने पर एआई प्रशिक्षण में यूबी-मेष की दक्षता बढ़ाने के लिए, हम सामूहिक संचार और समानांतरकरण के अनुकूलन के लिए टोपोलॉजी-जागरूक रणनीतियों को नियोजित करते हैं। Allreduce के लिए, एक मल्टी-रिंग एल्गोरिथ्म कुशलता से मैपिंग पथों और बैंडविड्थ को बढ़ाने के लिए निष्क्रिय लिंक का उपयोग करके भीड़ को कम करता है। सभी-से-सभी संचार में, एक बहु-पथ दृष्टिकोण डेटा ट्रांसमिशन दरों को बढ़ाता है, जबकि पदानुक्रमित तरीके प्रसारण के लिए बैंडविड्थ का अनुकूलन करते हैं और संचालन को कम करते हैं। इसके अतिरिक्त, अध्ययन एक व्यवस्थित खोज के माध्यम से समानांतरकरण को परिष्कृत करता है, उच्च-बैंडविड्थ कॉन्फ़िगरेशन को प्राथमिकता देता है। क्लोज आर्किटेक्चर के साथ तुलना से पता चलता है कि यूबी-एमईएसएच हार्डवेयर लागत को कम करते हुए प्रतिस्पर्धी प्रदर्शन को बनाए रखता है, जिससे यह बड़े पैमाने पर मॉडल प्रशिक्षण के लिए लागत प्रभावी विकल्प बन जाता है।

अंत में, यूबी IO नियंत्रक सामूहिक संचार कार्यों को अनुकूलित करने के लिए एक विशेष सह-प्रोसेसर, सामूहिक संचार इकाई (CCU) को शामिल करता है। CCU डेटा ट्रांसफर, इंटर-एनपीयू ट्रांसमिशन और इन-लाइन डेटा में कमी का उपयोग करता है, जो कि ऑन-चिप SRAM बफर का उपयोग करके, निरर्थक स्मृति प्रतियों को कम करता है और HBM बैंडविड्थ की खपत को कम करता है। यह कंप्यूटर-संचार ओवरलैप को भी बढ़ाता है। इसके अतिरिक्त, UB-MESH कुशलता से पदानुक्रमित ऑल-टू-ऑल-टू-ऑल ऑप्टिमाइज़ेशन और लोड/स्टोर-आधारित डेटा ट्रांसफर का लाभ उठाकर बड़े पैमाने पर विशेषज्ञ एमओई मॉडल का समर्थन करता है। अध्ययन में यूबी-एमईएसएच, एलएलएम प्रशिक्षण के लिए एक एनडी-फुलमेश नेटवर्क आर्किटेक्चर, लागत-कुशल, उच्च-प्रदर्शन नेटवर्किंग के साथ 95%+ रैखिकता, 7.2% बेहतर उपलब्धता, और 2.04 × बेहतर लागत दक्षता के साथ निकट नेटवर्क की तुलना में पेश किया गया है।


चेक आउट कागज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »