मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस एक साथ विविध डेटा प्रकारों को प्रभावी ढंग से एकीकृत और प्रसंस्करण में मौलिक चुनौतियों का सामना करता है। वर्तमान कार्यप्रणाली मुख्य रूप से देर से फ्यूजन रणनीतियों पर निर्भर करती हैं, जहां अलग-अलग पूर्व-प्रशिक्षित अनिमॉडल मॉडल को एक साथ ग्राफ्ट किया जाता है, जैसे कि दृष्टि एनकोडर को भाषा मॉडल में संलग्न करना। यह दृष्टिकोण, जबकि सुविधाजनक है, सच्ची मल्टीमॉडल समझ के लिए इष्टतमता के बारे में महत्वपूर्ण प्रश्न उठाता है। यूनीमॉडल प्री-ट्रेनिंग से अंतर्निहित पूर्वाग्रह संभावित रूप से आवश्यक क्रॉस-मॉडेलिटी निर्भरता को पकड़ने के लिए मॉडल की क्षमता को सीमित करते हैं। इसके अलावा, इन समग्र प्रणालियों को स्केल करने से महत्वपूर्ण जटिलता का परिचय होता है, क्योंकि प्रत्येक घटक इसके हाइपरप्रेमेटर्स, प्री-ट्रेनिंग आवश्यकताओं और अलग-अलग स्केलिंग गुणों को लाता है। तौर -तरीकों में कम्प्यूटेशनल संसाधनों का आवंटन इस कठोर वास्तुशिल्प प्रतिमान के साथ तेजी से मुश्किल हो जाता है, कुशल स्केलिंग में बाधा उत्पन्न करता है और संभावित रूप से गहरे मल्टीमॉडल तर्क और प्रतिनिधित्व सीखने की आवश्यकता वाले कार्यों में प्रदर्शन को सीमित करता है।
शोधकर्ताओं ने मल्टीमॉडल एकीकरण के लिए विभिन्न दृष्टिकोणों का पता लगाया है, जिसमें लेट-फ्यूजन रणनीतियों के साथ वर्तमान कार्यान्वयन पर हावी है। ये विधियाँ भाषा मॉडल के साथ पूर्व-प्रशिक्षित विज़न एन्कोडर्स को जोड़ती हैं, स्थापित सर्वोत्तम प्रथाओं के साथ एक अच्छी तरह से समझा हुआ प्रतिमान स्थापित करती हैं। प्रारंभिक-फ्यूजन मॉडल, जो पहले के प्रसंस्करण चरणों में तौर-तरीकों को जोड़ते हैं, उनके संभावित लाभों के बावजूद तुलनात्मक रूप से अस्पष्टीकृत रहते हैं। सभी तौर -तरीकों पर खरोंच से प्रशिक्षित मूल मल्टीमॉडल मॉडल एक साथ एक अन्य दृष्टिकोण का प्रतिनिधित्व करते हैं। हालांकि, कुछ पूर्व-प्रशिक्षित छवि टोकनर पर भरोसा करते हैं ताकि दृश्य डेटा को असतत टोकन में टेक्स्ट वोकैबुलरीज़ के साथ संगत किया जा सके। कुशल पैरामीटर स्केलिंग को सक्षम करने के लिए भाषा मॉडल के लिए विशेषज्ञों (एमओई) आर्किटेक्चर के मिश्रण का बड़े पैमाने पर अध्ययन किया गया है, लेकिन मल्टीमॉडल सिस्टम के लिए उनका आवेदन सीमित रहता है। जबकि स्केलिंग कानूनों को अनिमॉडल मॉडल के लिए अच्छी तरह से स्थापित किया गया है, गणना संसाधनों के आधार पर प्रदर्शन में सुधार की भविष्यवाणी करते हुए, कुछ अध्ययनों ने वास्तव में मल्टीमॉडल सिस्टम में इन संबंधों की जांच की है, विशेष रूप से उन शुरुआती-संलयन आर्किटेक्चर का उपयोग करते हैं जो कच्चे इनपुट को संसाधित करते हैं।
सोरबोन विश्वविद्यालय और ऐप्पल के शोधकर्ताओं ने आर्किटेक्चरल विकल्पों के बारे में पारंपरिक ज्ञान को चुनौती देते हुए, मल्टीमॉडल डेटा पर खरोंच से प्रशिक्षित देशी मल्टीमॉडल मॉडल के स्केलिंग गुणों की जांच की। शुरुआती-संलयन मॉडल की तुलना करके, जो पारंपरिक देर से फ्यूजन दृष्टिकोणों के खिलाफ सीधे कच्चे मल्टीमॉडल इनपुटों को संसाधित करते हैं, शोधकर्ताओं ने प्रदर्शित किया कि देर से फ्यूजन दोनों आर्किटेक्चर को खरोंच से प्रशिक्षित होने पर कोई अंतर्निहित लाभ प्रदान नहीं करता है। वर्तमान प्रथाओं के विपरीत, प्रारंभिक-संलयन मॉडल अधिक कुशल और पैमाने के लिए आसान साबित होते हैं, जो कि तरीकों और डेटासेट में गुणांक को स्केल करने में मामूली बदलाव के साथ भाषा मॉडल के समान स्केलिंग कानूनों का पालन करते हैं। विश्लेषण से पता चलता है कि इष्टतम प्रदर्शन तब होता है जब मॉडल पैरामीटर और ट्रेनिंग टोकन को लगभग समान अनुपात में बढ़ाया जाता है, जिसमें विविध मल्टीमॉडल प्रशिक्षण मिश्रणों में सामान्यीकरण होता है। मल्टीमॉडल डेटा की विषम प्रकृति को पहचानते हुए, अनुसंधान एमओई आर्किटेक्चर तक फैला हुआ है, जो एक सममित और समानांतर तरीके से तौर -तरीकों में गतिशील पैरामीटर विशेषज्ञता को सक्षम करता है। यह दृष्टिकोण मानक आर्किटेक्चर की तुलना में महत्वपूर्ण प्रदर्शन सुधार और तेजी से अभिसरण करता है, स्केलिंग कानूनों के साथ प्रशिक्षण टोकन को सक्रिय मापदंडों पर प्राथमिकता दी जानी चाहिए, विरल मॉडल में उच्च कुल पैरामीटर गिनती के कारण घने मॉडल से अलग एक पैटर्न।
आर्किटेक्चरल जांच से मल्टीमॉडल मॉडल स्केलिंग और डिज़ाइन के बारे में कई प्रमुख निष्कर्षों का पता चलता है। देशी प्रारंभिक-फ्यूजन और लेट-फ्यूजन आर्किटेक्चर तुलनात्मक रूप से प्रदर्शन करते हैं, जब खरोंच से प्रशिक्षित होते हैं, शुरुआती फ्यूजन मॉडल के साथ कम गणना बजट में मामूली लाभ दिखाते हैं। स्केलिंग कानून विश्लेषण इस बात की पुष्टि करता है कि दोनों आर्किटेक्चर के लिए गणना-इष्टतम मॉडल समान रूप से प्रदर्शन करते हैं जैसे कि कम्प्यूट बजट में वृद्धि होती है। महत्वपूर्ण रूप से, देशी मल्टीमॉडल मॉडल (एनएमएम) पाठ-केवल भाषा मॉडल से मिलते-जुलते स्केलिंग गुणों को प्रदर्शित करते हैं, जिसमें स्केलिंग एक्सपोनर लक्ष्य डेटा प्रकारों और प्रशिक्षण मिश्रणों के आधार पर थोड़ा भिन्न होते हैं। कंप्यूट-इष्टतम लेट-फ्यूजन मॉडल को अपने शुरुआती-संलयन समकक्षों की तुलना में उच्च पैरामीटर-टू-डेटा अनुपात की आवश्यकता होती है, जो विभिन्न संसाधन आवंटन पैटर्न का संकेत देती है। विशेषज्ञों के मिश्रण का उपयोग करने वाले विरल आर्किटेक्चर काफी फ्यूजन एनएमएम को काफी लाभान्वित करते हैं, जो कि समान रूप से अनुमानित लागतों पर घने मॉडल पर पर्याप्त सुधार दिखाते हैं, जबकि अंतर्निहित रूप से मोडेलिटी-विशिष्ट भार सीखते हैं। इसके अलावा, कंप्यूट-इष्टतम विरल मॉडल तेजी से सक्रिय मापदंडों पर स्केलिंग प्रशिक्षण टोकन को प्राथमिकता देते हैं क्योंकि गणना बजट बढ़ता है। विशेष रूप से, विरल मिश्रणों में मोडलिटी-एग्नॉस्टिक रूटिंग लगातार मोडेलिटी-अवेयर रूटिंग दृष्टिकोणों से बेहतर प्रदर्शन करता है, स्पष्ट रूप से मोडेलिटी विशेषज्ञता के बारे में अंतर्ज्ञान को चुनौती देता है।
अध्ययन विभिन्न वास्तुशिल्प कॉन्फ़िगरेशन में NMM के साथ व्यापक स्केलिंग प्रयोग प्रस्तुत करता है। शोधकर्ताओं ने 0.3 बिलियन से 4 बिलियन सक्रिय मापदंडों के मॉडल को प्रशिक्षित किया, जो प्रदर्शन पैटर्न का व्यवस्थित रूप से मूल्यांकन करने के लिए चौड़ाई को स्केल करते हुए लगातार गहराई बनाए रखते हैं। प्रशिक्षण पद्धति वैरिएबल वार्म-अप अवधि के साथ एक संरचित दृष्टिकोण का अनुसरण करती है-छोटे टोकन बजट के लिए 1,000 कदम और बड़े बजट के लिए 5,000 कदम-निरंतर सीखने की दर प्रशिक्षण और एक शीतलन-डाउन चरण का उपयोग करके एक व्युत्क्रम वर्गमूल शेड्यूलर का उपयोग करके निरंतर सीखने की दर का 20% शामिल है। अपने पूर्वानुमान समीकरणों में स्केलिंग गुणांक का दृढ़ता से अनुमान लगाने के लिए, शोधकर्ताओं ने ह्यूबर लॉस (Δ = 10^-3 का उपयोग करके) के साथ जोड़े गए एल-बीएफजीएस ऑप्टिमाइज़ेशन एल्गोरिथ्म को नियोजित किया, आरंभीकरण रेंज में पूरी तरह से ग्रिड खोजों का संचालन किया।
तुलनात्मक विश्लेषण से मल्टीमॉडल प्रसंस्करण के लिए घने मॉडल पर विरल आर्किटेक्चर के महत्वपूर्ण प्रदर्शन लाभ का पता चलता है। जब समतुल्य निष्कर्ष लागतों की तुलना की जाती है, तो एमओई मॉडल लगातार अपने घने समकक्षों को बेहतर ढंग से बेहतर बनाते हैं, इस लाभ के साथ विशेष रूप से छोटे मॉडल आकारों के लिए स्पष्ट किया जाता है, जो कि मोडेलिटी विशेषज्ञता के माध्यम से विषम डेटा को संभालने के लिए बढ़ी हुई क्षमता का सुझाव देता है। जैसे -जैसे मॉडल स्केल बढ़ता है, यह प्रदर्शन अंतर धीरे -धीरे संकुचित हो जाता है। स्केलिंग कानून विश्लेषण से पता चलता है कि विरल प्रारंभिक-संलयन मॉडल तुलनीय स्केलिंग एक्सपोर्टर्स (-0.047 बनाम -0.049) के साथ घने मॉडल के समान बिजली कानून संबंधों का पालन करते हैं, लेकिन एक छोटे से गुणक स्थिरांक (26.287 बनाम 29.574) के साथ, कम समग्र नुकसान का संकेत देते हैं।
यह शोध दर्शाता है कि देशी मल्टीमॉडल मॉडल पारंपरिक वास्तुशिल्प मान्यताओं को चुनौती देते हुए भाषा मॉडल के समान स्केलिंग पैटर्न का पालन करते हैं। प्रारंभिक-फ्यूजन और लेट-फ्यूजन दृष्टिकोण तुलनात्मक रूप से प्रदर्शन करते हैं जब खरोंच से प्रशिक्षित किया जाता है, जिसमें शुरुआती-संलयन कम गणना के बजट में फायदे दिखाते हैं, जबकि ट्रेन के लिए अधिक कुशल होते हैं। विशेषज्ञों के मिश्रण का उपयोग करते हुए विरल आर्किटेक्चर स्वाभाविक रूप से मोडलिटी-विशिष्ट विशेषज्ञता का विकास करते हैं, जो कि लागत में वृद्धि के बिना प्रदर्शन में काफी सुधार करते हैं। इन निष्कर्षों से पता चलता है कि गतिशील पैरामीटर आवंटन के साथ एकीकृत, प्रारंभिक-संलयन आर्किटेक्चर कुशल मल्टीमॉडल एआई सिस्टम के लिए एक आशाजनक दिशा का प्रतिनिधित्व करते हैं जो प्रभावी रूप से विषम डेटा को संसाधित कर सकते हैं।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

ASJAD MarkTechPost में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में मैकेनिकल इंजीनियरिंग में B.Tech को बनाए रख रहे हैं। असजाद एक मशीन लर्निंग और डीप लर्निंग उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग के अनुप्रयोगों पर शोध कर रहा है।
