Saturday, April 19, 2025

मल्टीमॉडल मॉडल को देर से संलयन की आवश्यकता नहीं है: Apple शोधकर्ता दिखाते हैं – Gadgets Solutions

-

मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस एक साथ विविध डेटा प्रकारों को प्रभावी ढंग से एकीकृत और प्रसंस्करण में मौलिक चुनौतियों का सामना करता है। वर्तमान कार्यप्रणाली मुख्य रूप से देर से फ्यूजन रणनीतियों पर निर्भर करती हैं, जहां अलग-अलग पूर्व-प्रशिक्षित अनिमॉडल मॉडल को एक साथ ग्राफ्ट किया जाता है, जैसे कि दृष्टि एनकोडर को भाषा मॉडल में संलग्न करना। यह दृष्टिकोण, जबकि सुविधाजनक है, सच्ची मल्टीमॉडल समझ के लिए इष्टतमता के बारे में महत्वपूर्ण प्रश्न उठाता है। यूनीमॉडल प्री-ट्रेनिंग से अंतर्निहित पूर्वाग्रह संभावित रूप से आवश्यक क्रॉस-मॉडेलिटी निर्भरता को पकड़ने के लिए मॉडल की क्षमता को सीमित करते हैं। इसके अलावा, इन समग्र प्रणालियों को स्केल करने से महत्वपूर्ण जटिलता का परिचय होता है, क्योंकि प्रत्येक घटक इसके हाइपरप्रेमेटर्स, प्री-ट्रेनिंग आवश्यकताओं और अलग-अलग स्केलिंग गुणों को लाता है। तौर -तरीकों में कम्प्यूटेशनल संसाधनों का आवंटन इस कठोर वास्तुशिल्प प्रतिमान के साथ तेजी से मुश्किल हो जाता है, कुशल स्केलिंग में बाधा उत्पन्न करता है और संभावित रूप से गहरे मल्टीमॉडल तर्क और प्रतिनिधित्व सीखने की आवश्यकता वाले कार्यों में प्रदर्शन को सीमित करता है।

शोधकर्ताओं ने मल्टीमॉडल एकीकरण के लिए विभिन्न दृष्टिकोणों का पता लगाया है, जिसमें लेट-फ्यूजन रणनीतियों के साथ वर्तमान कार्यान्वयन पर हावी है। ये विधियाँ भाषा मॉडल के साथ पूर्व-प्रशिक्षित विज़न एन्कोडर्स को जोड़ती हैं, स्थापित सर्वोत्तम प्रथाओं के साथ एक अच्छी तरह से समझा हुआ प्रतिमान स्थापित करती हैं। प्रारंभिक-फ्यूजन मॉडल, जो पहले के प्रसंस्करण चरणों में तौर-तरीकों को जोड़ते हैं, उनके संभावित लाभों के बावजूद तुलनात्मक रूप से अस्पष्टीकृत रहते हैं। सभी तौर -तरीकों पर खरोंच से प्रशिक्षित मूल मल्टीमॉडल मॉडल एक साथ एक अन्य दृष्टिकोण का प्रतिनिधित्व करते हैं। हालांकि, कुछ पूर्व-प्रशिक्षित छवि टोकनर पर भरोसा करते हैं ताकि दृश्य डेटा को असतत टोकन में टेक्स्ट वोकैबुलरीज़ के साथ संगत किया जा सके। कुशल पैरामीटर स्केलिंग को सक्षम करने के लिए भाषा मॉडल के लिए विशेषज्ञों (एमओई) आर्किटेक्चर के मिश्रण का बड़े पैमाने पर अध्ययन किया गया है, लेकिन मल्टीमॉडल सिस्टम के लिए उनका आवेदन सीमित रहता है। जबकि स्केलिंग कानूनों को अनिमॉडल मॉडल के लिए अच्छी तरह से स्थापित किया गया है, गणना संसाधनों के आधार पर प्रदर्शन में सुधार की भविष्यवाणी करते हुए, कुछ अध्ययनों ने वास्तव में मल्टीमॉडल सिस्टम में इन संबंधों की जांच की है, विशेष रूप से उन शुरुआती-संलयन आर्किटेक्चर का उपयोग करते हैं जो कच्चे इनपुट को संसाधित करते हैं।

सोरबोन विश्वविद्यालय और ऐप्पल के शोधकर्ताओं ने आर्किटेक्चरल विकल्पों के बारे में पारंपरिक ज्ञान को चुनौती देते हुए, मल्टीमॉडल डेटा पर खरोंच से प्रशिक्षित देशी मल्टीमॉडल मॉडल के स्केलिंग गुणों की जांच की। शुरुआती-संलयन मॉडल की तुलना करके, जो पारंपरिक देर से फ्यूजन दृष्टिकोणों के खिलाफ सीधे कच्चे मल्टीमॉडल इनपुटों को संसाधित करते हैं, शोधकर्ताओं ने प्रदर्शित किया कि देर से फ्यूजन दोनों आर्किटेक्चर को खरोंच से प्रशिक्षित होने पर कोई अंतर्निहित लाभ प्रदान नहीं करता है। वर्तमान प्रथाओं के विपरीत, प्रारंभिक-संलयन मॉडल अधिक कुशल और पैमाने के लिए आसान साबित होते हैं, जो कि तरीकों और डेटासेट में गुणांक को स्केल करने में मामूली बदलाव के साथ भाषा मॉडल के समान स्केलिंग कानूनों का पालन करते हैं। विश्लेषण से पता चलता है कि इष्टतम प्रदर्शन तब होता है जब मॉडल पैरामीटर और ट्रेनिंग टोकन को लगभग समान अनुपात में बढ़ाया जाता है, जिसमें विविध मल्टीमॉडल प्रशिक्षण मिश्रणों में सामान्यीकरण होता है। मल्टीमॉडल डेटा की विषम प्रकृति को पहचानते हुए, अनुसंधान एमओई आर्किटेक्चर तक फैला हुआ है, जो एक सममित और समानांतर तरीके से तौर -तरीकों में गतिशील पैरामीटर विशेषज्ञता को सक्षम करता है। यह दृष्टिकोण मानक आर्किटेक्चर की तुलना में महत्वपूर्ण प्रदर्शन सुधार और तेजी से अभिसरण करता है, स्केलिंग कानूनों के साथ प्रशिक्षण टोकन को सक्रिय मापदंडों पर प्राथमिकता दी जानी चाहिए, विरल मॉडल में उच्च कुल पैरामीटर गिनती के कारण घने मॉडल से अलग एक पैटर्न।

मल्टीमॉडल मॉडल को देर से संलयन की आवश्यकता नहीं है: Apple शोधकर्ता दिखाते हैं
 – Gadgets Solutions

आर्किटेक्चरल जांच से मल्टीमॉडल मॉडल स्केलिंग और डिज़ाइन के बारे में कई प्रमुख निष्कर्षों का पता चलता है। देशी प्रारंभिक-फ्यूजन और लेट-फ्यूजन आर्किटेक्चर तुलनात्मक रूप से प्रदर्शन करते हैं, जब खरोंच से प्रशिक्षित होते हैं, शुरुआती फ्यूजन मॉडल के साथ कम गणना बजट में मामूली लाभ दिखाते हैं। स्केलिंग कानून विश्लेषण इस बात की पुष्टि करता है कि दोनों आर्किटेक्चर के लिए गणना-इष्टतम मॉडल समान रूप से प्रदर्शन करते हैं जैसे कि कम्प्यूट बजट में वृद्धि होती है। महत्वपूर्ण रूप से, देशी मल्टीमॉडल मॉडल (एनएमएम) पाठ-केवल भाषा मॉडल से मिलते-जुलते स्केलिंग गुणों को प्रदर्शित करते हैं, जिसमें स्केलिंग एक्सपोनर लक्ष्य डेटा प्रकारों और प्रशिक्षण मिश्रणों के आधार पर थोड़ा भिन्न होते हैं। कंप्यूट-इष्टतम लेट-फ्यूजन मॉडल को अपने शुरुआती-संलयन समकक्षों की तुलना में उच्च पैरामीटर-टू-डेटा अनुपात की आवश्यकता होती है, जो विभिन्न संसाधन आवंटन पैटर्न का संकेत देती है। विशेषज्ञों के मिश्रण का उपयोग करने वाले विरल आर्किटेक्चर काफी फ्यूजन एनएमएम को काफी लाभान्वित करते हैं, जो कि समान रूप से अनुमानित लागतों पर घने मॉडल पर पर्याप्त सुधार दिखाते हैं, जबकि अंतर्निहित रूप से मोडेलिटी-विशिष्ट भार सीखते हैं। इसके अलावा, कंप्यूट-इष्टतम विरल मॉडल तेजी से सक्रिय मापदंडों पर स्केलिंग प्रशिक्षण टोकन को प्राथमिकता देते हैं क्योंकि गणना बजट बढ़ता है। विशेष रूप से, विरल मिश्रणों में मोडलिटी-एग्नॉस्टिक रूटिंग लगातार मोडेलिटी-अवेयर रूटिंग दृष्टिकोणों से बेहतर प्रदर्शन करता है, स्पष्ट रूप से मोडेलिटी विशेषज्ञता के बारे में अंतर्ज्ञान को चुनौती देता है।

अध्ययन विभिन्न वास्तुशिल्प कॉन्फ़िगरेशन में NMM के साथ व्यापक स्केलिंग प्रयोग प्रस्तुत करता है। शोधकर्ताओं ने 0.3 बिलियन से 4 बिलियन सक्रिय मापदंडों के मॉडल को प्रशिक्षित किया, जो प्रदर्शन पैटर्न का व्यवस्थित रूप से मूल्यांकन करने के लिए चौड़ाई को स्केल करते हुए लगातार गहराई बनाए रखते हैं। प्रशिक्षण पद्धति वैरिएबल वार्म-अप अवधि के साथ एक संरचित दृष्टिकोण का अनुसरण करती है-छोटे टोकन बजट के लिए 1,000 कदम और बड़े बजट के लिए 5,000 कदम-निरंतर सीखने की दर प्रशिक्षण और एक शीतलन-डाउन चरण का उपयोग करके एक व्युत्क्रम वर्गमूल शेड्यूलर का उपयोग करके निरंतर सीखने की दर का 20% शामिल है। अपने पूर्वानुमान समीकरणों में स्केलिंग गुणांक का दृढ़ता से अनुमान लगाने के लिए, शोधकर्ताओं ने ह्यूबर लॉस (Δ = 10^-3 का उपयोग करके) के साथ जोड़े गए एल-बीएफजीएस ऑप्टिमाइज़ेशन एल्गोरिथ्म को नियोजित किया, आरंभीकरण रेंज में पूरी तरह से ग्रिड खोजों का संचालन किया।

तुलनात्मक विश्लेषण से मल्टीमॉडल प्रसंस्करण के लिए घने मॉडल पर विरल आर्किटेक्चर के महत्वपूर्ण प्रदर्शन लाभ का पता चलता है। जब समतुल्य निष्कर्ष लागतों की तुलना की जाती है, तो एमओई मॉडल लगातार अपने घने समकक्षों को बेहतर ढंग से बेहतर बनाते हैं, इस लाभ के साथ विशेष रूप से छोटे मॉडल आकारों के लिए स्पष्ट किया जाता है, जो कि मोडेलिटी विशेषज्ञता के माध्यम से विषम डेटा को संभालने के लिए बढ़ी हुई क्षमता का सुझाव देता है। जैसे -जैसे मॉडल स्केल बढ़ता है, यह प्रदर्शन अंतर धीरे -धीरे संकुचित हो जाता है। स्केलिंग कानून विश्लेषण से पता चलता है कि विरल प्रारंभिक-संलयन मॉडल तुलनीय स्केलिंग एक्सपोर्टर्स (-0.047 बनाम -0.049) के साथ घने मॉडल के समान बिजली कानून संबंधों का पालन करते हैं, लेकिन एक छोटे से गुणक स्थिरांक (26.287 बनाम 29.574) के साथ, कम समग्र नुकसान का संकेत देते हैं।

यह शोध दर्शाता है कि देशी मल्टीमॉडल मॉडल पारंपरिक वास्तुशिल्प मान्यताओं को चुनौती देते हुए भाषा मॉडल के समान स्केलिंग पैटर्न का पालन करते हैं। प्रारंभिक-फ्यूजन और लेट-फ्यूजन दृष्टिकोण तुलनात्मक रूप से प्रदर्शन करते हैं जब खरोंच से प्रशिक्षित किया जाता है, जिसमें शुरुआती-संलयन कम गणना के बजट में फायदे दिखाते हैं, जबकि ट्रेन के लिए अधिक कुशल होते हैं। विशेषज्ञों के मिश्रण का उपयोग करते हुए विरल आर्किटेक्चर स्वाभाविक रूप से मोडलिटी-विशिष्ट विशेषज्ञता का विकास करते हैं, जो कि लागत में वृद्धि के बिना प्रदर्शन में काफी सुधार करते हैं। इन निष्कर्षों से पता चलता है कि गतिशील पैरामीटर आवंटन के साथ एकीकृत, प्रारंभिक-संलयन आर्किटेक्चर कुशल मल्टीमॉडल एआई सिस्टम के लिए एक आशाजनक दिशा का प्रतिनिधित्व करते हैं जो प्रभावी रूप से विषम डेटा को संसाधित कर सकते हैं।


चेक आउट कागज़ इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »