बड़े भाषा मॉडल ट्रांसफॉर्मर आर्किटेक्चर और पावर एप्लिकेशन जैसे चैट, कोड जनरेशन और सर्च पर बनाए जाते हैं, लेकिन अरबों मापदंडों के साथ उनके बढ़ते पैमाने को कुशल गणना तेजी से चुनौतीपूर्ण बनाता है। कम विलंबता और उच्च थ्रूपुट बनाए रखते हुए इस तरह की प्रणालियों को स्केल करना एल्गोरिथ्म डिजाइन और सिस्टम-स्तरीय अनुकूलन पर दबाव डालता है। प्रभावी रूप से इन मॉडलों की सेवा करने के लिए अब स्मृति, संचार और संसाधनों की गणना के लिए सावधानीपूर्वक ऑर्केस्ट्रेशन की आवश्यकता होती है।
इस स्थान में एक महत्वपूर्ण चुनौती यह है कि कैसे स्पर्सिटी, मिश्रण-के-विशेषज्ञों (एमओई) मॉडल के माध्यम से पेश किया गया, जो कि प्रदर्शन के प्रदर्शन को प्रभावित करता है। ये मॉडल चुनिंदा रूप से कम्प्यूटेशनल लोड को कम करते हुए, प्रति इनपुट के फीड-फॉरवर्ड नेटवर्क के एक सबसेट को सक्रिय करते हैं। हालांकि, यह चयनात्मक सक्रियण हार्डवेयर के कम होने की ओर जाता है। अनुमान के दौरान, ध्यान मॉड्यूल कुंजी-मूल्य कैश तक लगातार मेमोरी एक्सेस के कारण अड़चन बन जाते हैं, जबकि एफएफएन मॉड्यूल निष्क्रिय हो जाते हैं क्योंकि प्रत्येक को टोकन का एक छोटा सा अंश प्राप्त होता है। नतीजतन, GPU उपयोग काफी गिरता है, विशेष रूप से डिकोडिंग के दौरान, अक्षमताएं पैदा करता है और परिचालन लागतों को बढ़ाता है।
जबकि VLLM और Tensorrt-LLM जैसे कुछ तरीकों ने समानांतरवाद और अनुकूलित गुठली के माध्यम से अनुमान स्केलिंग को संबोधित करने का प्रयास किया है, ये समाधान विवश हैं। वे मॉडल को समग्र रूप से संसाधित करते हैं, जिसका अर्थ है कि वे स्वतंत्र रूप से विभिन्न घटकों के लिए स्केलिंग को समायोजित नहीं कर सकते हैं। जैसा कि एमओई मॉडल आकार और विरलता में बढ़ते हैं, यह दृष्टिकोण प्रति विशेषज्ञ छोटे सक्रिय बैचों की ओर जाता है, जो एफएफएन के लिए बैचिंग के लाभों को कमजोर करता है। इसके अलावा, टेंसर और पाइपलाइन समानता के दृष्टिकोण संचार ओवरहेड को जोड़ते हैं, विशेष रूप से नोड्स में, जो मल्टी-जीपीयू वातावरण में एक सीमित कारक बन जाता है।
बाईडेंस और पेकिंग विश्वविद्यालय के शोधकर्ताओं ने मेगास्केल-इन्फर को पेश किया है, जो एक प्रणाली है जो मो सेवारत की वास्तुकला पर पुनर्विचार करती है। मॉडल को एक अखंड ब्लॉक के रूप में सेवा करने के बजाय, शोधकर्ता ध्यान और एफएफएन मॉड्यूल को अलग करते हैं, उन्हें अलग -अलग जीपीयू पर तैनात करते हैं। यह पृथक्करण प्रत्येक मॉड्यूल की विशिष्ट आवश्यकताओं के अनुरूप अनुकूलित स्केलिंग और समानतावाद रणनीतियों को सक्षम बनाता है। ध्यान देने वाले मॉड्यूल, जो मेमोरी-इंटेंसिव होते हैं, को एकत्रित अनुरोधों के लिए दोहराया जाता है, जबकि एफएफएन मॉड्यूल को विशेषज्ञ समानता का उपयोग करके बढ़ाया जाता है। सिस्टम भी विषम GPU परिनियोजन का समर्थन करता है, लागत प्रभावी मेमोरी-भारी GPU को कार्यों पर ध्यान देने और FFNs के लिए GPU की गणना-अनुकूलित GPU प्रदान करता है। यह असहमति नाटकीय रूप से तैनाती में संसाधन उपयोग और लचीलेपन में सुधार करती है।
प्रदर्शन को और अधिक अनुकूलित करने के लिए, मेगास्केल-इन एक पिंग-पोंग पाइपलाइन समानता की रणनीति को नियुक्त करता है। यह विचार छोटे माइक्रो-बैचों में अनुरोधों के बैचों को तोड़ने के लिए है जो ध्यान और एफएफएन मॉड्यूल के बीच वैकल्पिक है, यह सुनिश्चित करते हुए कि न तो घटक बेकार बैठता है। सिस्टम उच्च उपयोग को बनाए रखने के लिए आवश्यक माइक्रो-बैचों की इष्टतम संख्या को निर्धारित करता है, गणना समय, संचार विलंबता और हार्डवेयर सेटअप पर विचार करता है। उदाहरण के लिए, यदि संचार का समय आधे से कम गणना समय है, तो कम से कम तीन माइक्रो-बैचों का उपयोग किया जाता है। इसके अलावा, सिस्टम एक उच्च-प्रदर्शन M2N संचार पुस्तकालय को एकीकृत करता है जो अनावश्यक GPU-TO-CPU डेटा प्रतियों से बचता है, विलंबता और अस्थिरता को कम करता है। यह लाइब्रेरी पारंपरिक ऑल-टू-ऑल रूटिंग को एक अधिक कुशल प्रेषक-रिसीवर मॉडल के साथ प्रतिस्थापित करती है, जिसे विशेष रूप से Moe के टोकन डिस्पैच पैटर्न के लिए डिज़ाइन किया गया है।
Megascale-Infer को कई बड़े पैमाने पर MOE मॉडल पर परीक्षण किया गया था, जिसमें मिक्सट्रल 8 × 22B, DBRX और 317 बिलियन मापदंडों के साथ एक स्केल कस्टम मॉडल शामिल है। NVIDIA AMPERE GPUs का उपयोग करते हुए सजातीय सेटअप पर प्रयोगों में, Megascale-Infer ने VLLM की तुलना में 2.56 × तक प्रति-GPU डिकोडिंग थ्रूपुट में सुधार किया और 1.28 × TENSORRT-LLM पर। स्केल किए गए मॉडल ने VLLM पर 7.11 × लाभ प्राप्त किया और Tensorrt-LLM पर 1.90 × लाभ प्राप्त किया। FFNs के लिए H20 GPU के साथ ध्यान और L40S के साथ विषम समूहों पर, सिस्टम ने आधारभूत की तुलना में 3.24 × और 1.86 × उच्च थ्रूपुट प्रति डॉलर तक प्राप्त किया। इसकी M2N संचार लाइब्रेरी ने NCCL की तुलना में 4.2 × उच्च थ्रूपुट और 68.2% कम विलंबता तक पहुंचाया।
यह पेपर एमओई इंफ़्रेंस के दौरान कम से कम जीपीयू की एक स्पष्ट समस्या प्रस्तुत करता है और आर्किटेक्चर को संशोधित करके एक व्यावहारिक समाधान प्रदान करता है। प्रस्तावित असहमति रणनीति, माइक्रो-बैच पाइपलाइनिंग और एक कस्टम संचार प्रोटोकॉल के साथ संयुक्त, दक्षता और लागत की सेवा में काफी प्रभाव डालती है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
