ऑटोरेग्रेसिव विजुअल जेनरेशन मॉडल छवि संश्लेषण के लिए एक ग्राउंडब्रेकिंग दृष्टिकोण के रूप में उभरे हैं, भाषा मॉडल टोकन भविष्यवाणी तंत्र से प्रेरणा लेते हैं। ये अभिनव मॉडल दृश्य सामग्री को असतत या निरंतर टोकन में बदलने के लिए छवि टोकनर का उपयोग करते हैं। दृष्टिकोण लचीले मल्टीमॉडल एकीकरण की सुविधा देता है और एलएलएम अनुसंधान से वास्तुशिल्प नवाचारों के अनुकूलन की अनुमति देता है। हालांकि, क्षेत्र में इष्टतम टोकन प्रतिनिधित्व रणनीति का निर्धारण करने की एक महत्वपूर्ण चुनौती है। असतत और निरंतर टोकन अभ्यावेदन के बीच की पसंद एक मौलिक दुविधा बनी हुई है, जो मॉडल जटिलता और पीढ़ी की गुणवत्ता को प्रभावित करती है।
मौजूदा तरीकों में दृश्य टोकनीकरण शामिल है जो दो प्राथमिक दृष्टिकोणों की पड़ताल करता है: निरंतर और असतत टोकन अभ्यावेदन। वैरिएशनल ऑटोएन्कोडर्स निरंतर अव्यक्त स्थानों को स्थापित करते हैं जो उच्च दृश्य निष्ठा बनाए रखते हैं, प्रसार मॉडल विकास में मूलभूत बन जाते हैं। VQ-VAE और VQGAN जैसे असतत तरीके सीधे ऑटोरेसिव मॉडलिंग को सक्षम करते हैं, लेकिन कोडबुक पतन और सूचना हानि सहित महत्वपूर्ण सीमाओं का सामना करते हैं। ऑटोरेग्रेसिव इमेज जेनरेशन कम्प्यूटेशनल रूप से गहन पिक्सेल-आधारित तरीकों से अधिक कुशल टोकन-आधारित रणनीतियों तक विकसित होता है। जबकि Dall-E जैसे मॉडल होनहार परिणाम दिखाते हैं, GIVT और MAR जैसे हाइब्रिड तरीके, पीढ़ी की गुणवत्ता में सुधार करने के लिए जटिल वास्तुशिल्प संशोधनों का परिचय देते हैं, जिससे पारंपरिक ऑटोरेग्रेसिव मॉडलिंग पाइपलाइन कॉम्प्लेक्स बन जाते हैं।
हांगकांग विश्वविद्यालय के शोधकर्ताओं, बाईडेंस सीड, इकोले पॉलिटेक्निक, और पेकिंग विश्वविद्यालय ने दृश्य पीढ़ी में निरंतर और असतत टोकन अभ्यावेदन के बीच महत्वपूर्ण अंतर को पाटने के लिए टोकनब्रिज का प्रस्ताव दिया है। यह असतत टोकन की मॉडलिंग सादगी को बनाए रखते हुए निरंतर टोकन की मजबूत प्रतिनिधित्व क्षमता का उपयोग करता है। Tokenbridge एक उपन्यास पोस्ट-ट्रेनिंग परिमाणीकरण तकनीक की शुरुआत करके प्रारंभिक टोकनर प्रशिक्षण से विवेकाधीन प्रक्रिया को विघटित करता है। इसके अलावा, यह एक अद्वितीय आयाम-वार परिमाणीकरण रणनीति को लागू करता है जो स्वतंत्र रूप से प्रत्येक सुविधा आयाम को विवेकाधीन करता है, जो एक हल्के ऑटोरेग्रेसिव भविष्यवाणी तंत्र द्वारा पूरक है। यह उच्च गुणवत्ता वाली दृश्य उत्पादन क्षमताओं को संरक्षित करते हुए कुशलता से विस्तारित टोकन स्थान का प्रबंधन करता है।
टोकनब्रिज एक प्रशिक्षण-मुक्त आयाम-वार परिमाणीकरण तकनीक का परिचय देता है जो प्रत्येक फीचर चैनल पर स्वतंत्र रूप से संचालित होता है, प्रभावी रूप से पिछले टोकन प्रतिनिधित्व सीमाओं को संबोधित करता है। यह दृष्टिकोण वैरिएशनल ऑटोएन्कोडर सुविधाओं के दो महत्वपूर्ण गुणों पर पूंजी लगाता है: केएल बाधाओं और निकट-गॉसियन वितरण के कारण उनकी बंधी हुई प्रकृति। ऑटोरेग्रेसिव मॉडल दो प्राथमिक कॉन्फ़िगरेशन के साथ एक ट्रांसफार्मर आर्किटेक्चर को अपनाता है: एक डिफ़ॉल्ट एल मॉडल जिसमें प्रारंभिक अध्ययन के लिए 1024 चौड़ाई (लगभग 400 मिलियन पैरामीटर) के साथ 32 ब्लॉक और 40 ब्लॉक और 1280 चौड़ाई (लगभग 910 मिलियन मापदंडों) के साथ एक बड़ा एच मॉडल शामिल है। यह डिज़ाइन विभिन्न मॉडल पैमानों में प्रस्तावित परिमाणीकरण रणनीति की विस्तृत खोज की अनुमति देता है।
परिणाम बताते हैं कि टोकनब्रिज पारंपरिक असतत टोकन मॉडल से बेहतर प्रदर्शन करता है, बेहतर फ़्रेचेट इंसेप्शन डिस्टेंस (FID) स्कोर को काफी कम मापदंडों के साथ प्राप्त करता है। उदाहरण के लिए, टोकनब्रिज-एल केवल 486 मिलियन मापदंडों के साथ 1.76 का एक एफआईडी सुरक्षित करता है, जबकि ललामेन के 2.18 की तुलना में 3.1 बिलियन मापदंडों का उपयोग करते हुए। जब निरंतर दृष्टिकोणों के खिलाफ बेंचमार्क किया जाता है, तो टोकनब्रिज-एल आउटपरफॉर्म्स GIVT, 1.76 बनाम 3.35 के एक एफआईडी को प्राप्त करता है। एच-मॉडल कॉन्फ़िगरेशन आगे विधि की प्रभावशीलता को मान्य करता है, एफआईडी (1.55) में मार-एच से मेल खाता है, जबकि बेहतर इंसेप्शन स्कोर प्रदान करता है और मामूली कम मापदंडों के साथ मैट्रिक्स को याद करता है। ये परिणाम असतत और निरंतर टोकन अभ्यावेदन को पाटने के लिए टोकनब्रिज की क्षमता दिखाते हैं।
अंत में, शोधकर्ताओं ने टोकनब्रिज की शुरुआत की, जो असतत और निरंतर टोकन अभ्यावेदन के बीच लंबे समय से अंतर को पाटता है। यह एक पोस्ट-ट्रेनिंग परिमाणीकरण दृष्टिकोण और आयाम-वार ऑटोरेसिव अपघटन को शुरू करके उल्लेखनीय दक्षता के साथ उच्च गुणवत्ता वाली दृश्य पीढ़ी को प्राप्त करता है। अनुसंधान दर्शाता है कि मानक क्रॉस-एंट्रॉपी हानि का उपयोग करके असतत टोकन दृष्टिकोण अत्याधुनिक निरंतर तरीकों के साथ प्रतिस्पर्धा कर सकते हैं, जटिल वितरण मॉडलिंग तकनीकों की आवश्यकता को समाप्त करते हैं। यह दृष्टिकोण भविष्य की जांच के लिए एक आशाजनक मार्ग प्रदान करता है, संभवतः यह बदल जाता है कि कैसे शोधकर्ता टोकन-आधारित दृश्य संश्लेषण प्रौद्योगिकियों की अवधारणा और कार्यान्वयन करते हैं।
चेक आउट पेपर, गिथब पेज और प्रोजेक्ट। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।