उच्च गुणवत्ता वाली छवियों को जल्दी से उत्पन्न करने की क्षमता यथार्थवादी नकली वातावरण का उत्पादन करने के लिए महत्वपूर्ण है जिसका उपयोग अप्रत्याशित खतरों से बचने के लिए स्व-ड्राइविंग कारों को प्रशिक्षित करने के लिए किया जा सकता है, जिससे वे वास्तविक सड़कों पर सुरक्षित हो जाते हैं।
लेकिन इस तरह की छवियों का उत्पादन करने के लिए तेजी से उपयोग की जा रही जनरेटिव आर्टिफिशियल इंटेलिजेंस तकनीकों में कमियां हैं। एक लोकप्रिय प्रकार का मॉडल, जिसे एक प्रसार मॉडल कहा जाता है, आश्चर्यजनक रूप से यथार्थवादी छवियां बना सकता है, लेकिन कई अनुप्रयोगों के लिए बहुत धीमा और कम्प्यूटेशनल रूप से गहन है। दूसरी ओर, ऑटोरेग्रेसिव मॉडल जो कि चैट की तरह एलएलएम को पावर करते हैं, बहुत तेज होते हैं, लेकिन वे खराब-गुणवत्ता वाली छवियों का उत्पादन करते हैं जो अक्सर त्रुटियों से जुड़े होते हैं।
MIT और NVIDIA के शोधकर्ताओं ने एक नया दृष्टिकोण विकसित किया जो दोनों तरीकों के सर्वश्रेष्ठ को एक साथ लाता है। उनका हाइब्रिड इमेज-जनरेशन टूल एक ऑटोरेग्रेसिव मॉडल का उपयोग करता है ताकि छवि के विवरण को परिष्कृत करने के लिए बड़ी तस्वीर और फिर एक छोटे से प्रसार मॉडल को कैप्चर किया जा सके।
उनका उपकरण, जिसे हार्ट (हाइब्रिड ऑटोरेग्रेसिव ट्रांसफार्मर के लिए छोटा) के रूप में जाना जाता है, उन छवियों को उत्पन्न कर सकता है जो अत्याधुनिक प्रसार मॉडल की गुणवत्ता से मेल खाते हैं या अधिक से अधिक हैं, लेकिन लगभग नौ गुना तेजी से ऐसा करते हैं।
पीढ़ी प्रक्रिया विशिष्ट प्रसार मॉडल की तुलना में कम कम्प्यूटेशनल संसाधनों की खपत करती है, जिससे हार्ट को एक वाणिज्यिक लैपटॉप या स्मार्टफोन पर स्थानीय रूप से चलाने में सक्षम बनाया जाता है। एक उपयोगकर्ता को केवल एक छवि उत्पन्न करने के लिए हार्ट इंटरफ़ेस में एक प्राकृतिक भाषा प्रॉम्प्ट दर्ज करने की आवश्यकता होती है।
हार्ट के पास कई प्रकार के एप्लिकेशन हो सकते हैं, जैसे कि शोधकर्ताओं को वीडियो गेम के लिए हड़ताली दृश्यों के निर्माण में जटिल वास्तविक दुनिया के कार्यों को पूरा करने और डिजाइनरों को सहायता करने के लिए रोबोट को प्रशिक्षित करने में मदद करना।
“यदि आप एक परिदृश्य को चित्रित कर रहे हैं, और आप बस एक बार पूरे कैनवास को पेंट करते हैं, तो यह बहुत अच्छा नहीं लग सकता है। लेकिन अगर आप बड़ी तस्वीर को चित्रित करते हैं और फिर छोटे ब्रश स्ट्रोक के साथ छवि को परिष्कृत करते हैं, तो आपकी पेंटिंग बहुत बेहतर लग सकती है। यह हार्ट के साथ मूल विचार है,” हाटियन तांग एसएम ’22, पीएचडी ’25, को-वय लेखक, हार्ट पर।
वह त्सिंघुआ विश्वविद्यालय में एक स्नातक छात्र, सह-प्रमुख लेखक येचेंग वू में शामिल हो गए हैं; वरिष्ठ लेखक गीत हान, एमआईटी डिपार्टमेंट ऑफ इलेक्ट्रिकल इंजीनियरिंग एंड कंप्यूटर साइंस (ईईसीएस) में एक एसोसिएट प्रोफेसर, एमआईटी-आईबीएम वॉटसन एआई लैब के सदस्य और एनवीडिया के एक प्रतिष्ठित वैज्ञानिक; साथ ही MIT, Tsinghua University, और Nvidia में अन्य। अनुसंधान को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
दोनों जहां में बेहतरीन
लोकप्रिय प्रसार मॉडल, जैसे कि स्थिर प्रसार और डल-ई, को अत्यधिक विस्तृत छवियों का उत्पादन करने के लिए जाना जाता है। ये मॉडल एक पुनरावृत्त प्रक्रिया के माध्यम से छवियों को उत्पन्न करते हैं जहां वे प्रत्येक पिक्सेल पर यादृच्छिक शोर की कुछ मात्रा की भविष्यवाणी करते हैं, शोर को घटा देते हैं, फिर कई बार भविष्यवाणी करने और “डी-नोइज़िंग” की प्रक्रिया को दोहराएं जब तक कि वे एक नई छवि उत्पन्न न करें जो पूरी तरह से शोर से मुक्त हो।
क्योंकि डिफ्यूजन मॉडल प्रत्येक चरण में एक छवि में सभी पिक्सेल को डी-नोज़ करता है, और 30 या अधिक चरण हो सकते हैं, प्रक्रिया धीमी और कम्प्यूटेशनल रूप से महंगी है। लेकिन क्योंकि मॉडल में विवरण को सही करने के लिए कई मौके हैं, इसलिए यह गलत हो गया, छवियां उच्च गुणवत्ता वाले हैं।
ऑटोरेग्रेसिव मॉडल, जो आमतौर पर पाठ की भविष्यवाणी के लिए उपयोग किया जाता है, एक समय में कुछ पिक्सेल, एक छवि के पैच की भविष्यवाणी करके छवियों को उत्पन्न कर सकता है। वे वापस नहीं जा सकते हैं और अपनी गलतियों को ठीक कर सकते हैं, लेकिन अनुक्रमिक भविष्यवाणी प्रक्रिया प्रसार की तुलना में बहुत तेज है।
ये मॉडल भविष्यवाणियों को करने के लिए टोकन के रूप में जाने जाने वाले अभ्यावेदन का उपयोग करते हैं। एक ऑटोरेसिव मॉडल एक ऑटोएन्कोडर का उपयोग कच्ची छवि पिक्सेल को असतत टोकन में संपीड़ित करने के साथ -साथ अनुमानित टोकन से छवि को फिर से संगठित करने के लिए करता है। हालांकि यह मॉडल की गति को बढ़ाता है, संपीड़न के दौरान होने वाली सूचना हानि से होने वाली जानकारी त्रुटियों का कारण बनती है जब मॉडल एक नई छवि उत्पन्न करता है।
हार्ट के साथ, शोधकर्ताओं ने एक हाइब्रिड दृष्टिकोण विकसित किया जो संपीड़ित, असतत छवि टोकन की भविष्यवाणी करने के लिए एक ऑटोरेग्रेसिव मॉडल का उपयोग करता है, फिर अवशिष्ट टोकन की भविष्यवाणी करने के लिए एक छोटा प्रसार मॉडल। अवशिष्ट टोकन असतत टोकन द्वारा छोड़े गए विवरणों को कैप्चर करके मॉडल की सूचना हानि की भरपाई करते हैं।
“हम पुनर्निर्माण की गुणवत्ता के संदर्भ में एक विशाल बढ़ावा प्राप्त कर सकते हैं। हमारे अवशिष्ट टोकन उच्च-आवृत्ति विवरण सीखते हैं, जैसे किसी वस्तु के किनारों, या किसी व्यक्ति के बाल, आंखें, या मुंह। ये ऐसे स्थान हैं जहां असतत टोकन गलतियाँ कर सकते हैं,” तांग कहते हैं।
क्योंकि प्रसार मॉडल केवल शेष विवरणों की भविष्यवाणी करता है क्योंकि ऑटोरेसिव मॉडल ने अपना काम किया है, यह कार्य को आठ चरणों में पूरा कर सकता है, बजाय सामान्य 30 या उससे अधिक मानक प्रसार मॉडल के लिए एक पूरी छवि उत्पन्न करने की आवश्यकता होती है। अतिरिक्त प्रसार मॉडल का यह न्यूनतम ओवरहेड हार्ट को ऑटोरेग्रेसिव मॉडल की गति लाभ को बनाए रखने की अनुमति देता है, जबकि जटिल छवि विवरण उत्पन्न करने की अपनी क्षमता को महत्वपूर्ण रूप से बढ़ाता है।
“प्रसार मॉडल में एक आसान काम है, जो अधिक दक्षता की ओर जाता है,” वे कहते हैं।
बड़े मॉडलों को बेहतर ढंग से
हार्ट के विकास के दौरान, शोधकर्ताओं ने ऑटोरेग्रेसिव मॉडल को बढ़ाने के लिए प्रसार मॉडल को प्रभावी ढंग से एकीकृत करने में चुनौतियों का सामना किया। उन्होंने पाया कि ऑटोरेग्रेसिव प्रक्रिया के शुरुआती चरणों में प्रसार मॉडल को शामिल करने से त्रुटियों का संचय हुआ। इसके बजाय, केवल अवशिष्ट टोकन की भविष्यवाणी करने के लिए प्रसार मॉडल को लागू करने का उनका अंतिम डिज़ाइन, अंतिम कदम ने पीढ़ी की गुणवत्ता में काफी सुधार किया।
उनकी विधि, जो 700 मिलियन मापदंडों के साथ एक ऑटोरेग्रेसिव ट्रांसफार्मर मॉडल और 37 मिलियन मापदंडों के साथ एक हल्के प्रसार मॉडल के संयोजन का उपयोग करती है, 2 बिलियन मापदंडों के साथ एक प्रसार मॉडल द्वारा बनाई गई समान गुणवत्ता की छवियां उत्पन्न कर सकती है, लेकिन यह लगभग नौ गुना तेजी से करती है। यह अत्याधुनिक मॉडल की तुलना में लगभग 31 प्रतिशत कम गणना का उपयोग करता है।
इसके अलावा, क्योंकि हार्ट काम के थोक करने के लिए एक ऑटोरेग्रेसिव मॉडल का उपयोग करता है-एक ही प्रकार का मॉडल जो एलएलएम को शक्तियां देता है-यह एकीकृत विजन-लैंग्वेज जेनरेटिव मॉडल के नए वर्ग के साथ एकीकरण के लिए अधिक संगत है। भविष्य में, कोई एक एकीकृत दृष्टि-भाषा के सामान्य मॉडल के साथ बातचीत कर सकता है, शायद यह फर्नीचर के एक टुकड़े को इकट्ठा करने के लिए आवश्यक मध्यवर्ती चरणों को दिखाने के लिए कहकर।
“एलएलएम सभी प्रकार के मॉडलों के लिए एक अच्छा इंटरफ़ेस है, जैसे कि मल्टीमॉडल मॉडल और मॉडल जो कारण हो सकते हैं। यह बुद्धिमत्ता को एक नए फ्रंटियर पर धकेलने का एक तरीका है। एक कुशल छवि-जनरेशन मॉडल बहुत सारी संभावनाओं को अनलॉक करेगा,” वे कहते हैं।
भविष्य में, शोधकर्ता इस पथ को नीचे जाना चाहते हैं और हार्ट आर्किटेक्चर के शीर्ष पर दृष्टि-भाषा मॉडल का निर्माण करना चाहते हैं। चूंकि हार्ट कई तौर -तरीकों के लिए स्केलेबल और सामान्य है, इसलिए वे इसे वीडियो जनरेशन और ऑडियो भविष्यवाणी कार्यों के लिए भी लागू करना चाहते हैं।
इस शोध को MIT-IBM वॉटसन AI लैब, MIT और Amazon Science Hub, MIT AI हार्डवेयर प्रोग्राम और यूएस नेशनल साइंस फाउंडेशन द्वारा वित्त पोषित किया गया था। इस मॉडल को प्रशिक्षित करने के लिए GPU बुनियादी ढांचा NVIDIA द्वारा दान किया गया था।
(टैगस्टोट्रांसलेट) होटियन टैंग (टी) येचेंग वू (टी) सॉन्ग हान (टी) जेनरेटिव एआई (टी) ऑटोरेग्रेसिव मशीन-लर्निंग मॉडल (टी) डिफ्यूजन मॉडल (टी) इमेजिन जेनरेशन (टी) हाइब्रिड ऑटोरेसिव ट्रांसफार्मर (टी) हार्ट