वीडियो पीढ़ी, कंप्यूटर विजन और मशीन लर्निंग की एक शाखा, समय के साथ गति और दृश्य यथार्थवाद का अनुकरण करने वाली छवियों के अनुक्रम बनाने पर ध्यान केंद्रित करती है। इसके लिए फ्रेम में सुसंगतता बनाए रखने, लौकिक गतिशीलता पर कब्जा करने और पूर्व फ्रेम या इनपुट पर वातानुकूलित नए दृश्य उत्पन्न करने के लिए मॉडल की आवश्यकता होती है। इस डोमेन ने तेजी से प्रगति देखी है, विशेष रूप से डीएल तकनीकों जैसे प्रसार मॉडल और ट्रांसफार्मर के एकीकरण के साथ। इन मॉडलों में तेजी से और उच्च-गुणवत्ता वाले वीडियो अनुक्रमों का उत्पादन करने के लिए सशक्त सिस्टम हैं। हालांकि, विस्तारित अनुक्रमों में सुसंगत फ्रेम उत्पन्न करना कम्प्यूटेशनल रूप से गहन रहता है और स्मृति सीमाओं और संचित भविष्यवाणी त्रुटियों जैसे मुद्दों के कारण गुणवत्ता में गिरावट की संभावना है।
वीडियो पीढ़ी में एक बड़ी चुनौती कम्प्यूटेशनल ओवरहेड को कम करते हुए दृश्य स्थिरता बनाए रख रही है। चूंकि फ्रेम क्रमिक रूप से उत्पन्न होते हैं, पहले के फ्रेम में कोई भी त्रुटि प्रचारित होती है, जिससे लंबे अनुक्रमों में ध्यान देने योग्य दृश्य बहाव होता है। इसके साथ ही, मॉडल प्रारंभिक फ्रेम की स्मृति को बनाए रखने के लिए संघर्ष करते हैं, जिससे गति और संरचना में विसंगतियां होती हैं, जिन्हें अक्सर भूलने की समस्या के रूप में संदर्भित किया जाता है। एक मुद्दे को संबोधित करने के प्रयास दूसरे को खराब करते हैं। मेमोरी की गहराई बढ़ने से अस्थायी सुसंगतता बढ़ जाती है, लेकिन त्रुटियों के प्रसार को भी तेज करता है। पूर्व फ्रेम पर निर्भरता को कम करने से त्रुटि संचय पर अंकुश लगाने में मदद मिलती है, लेकिन असंगति की संभावना बढ़ जाती है। इन परस्पर विरोधी आवश्यकताओं को संतुलित करना नेक्स्ट-फ्रेम भविष्यवाणी कार्यों में एक मौलिक बाधा है।
भूलने और बहने को कम करने के लिए विभिन्न तकनीकें उभरी हैं। शोर शेड्यूलिंग और वृद्धि के तरीके पिछले फ्रेम के प्रभाव को संशोधित करने के लिए इनपुट स्थितियों को समायोजित करते हैं, जैसा कि प्रसार और रोलिंगडिफ़्यूशन जैसे ढांचे में देखा गया है। इतिहास फ्रेम का उपयोग करके एंकर-आधारित नियोजन विधियों और मार्गदर्शन का भी परीक्षण किया गया है। इसके अलावा, आर्किटेक्चर की एक श्रृंखला का उद्देश्य दक्षता, रैखिक और विरल ध्यान तंत्र, कम-बिट गणना और आसवन दृष्टिकोण में सुधार करना संसाधन की मांगों को कम करने में मदद करना है। लॉन्ग वीडियो जेनरेशन फ्रेमवर्क जैसे फानाकी, नुवा-एक्सएल, और स्ट्रीमिंगट 2 वी ने अस्थायी सुसंगतता का विस्तार करने के लिए संरचनात्मक परिवर्तनों या उपन्यास पीढ़ी के प्रतिमानों का परिचय दिया। इन नवाचारों के बावजूद, क्षेत्र में अभी भी एक एकीकृत और कम्प्यूटेशनल रूप से कुशल दृष्टिकोण का अभाव है जो मज़बूती से स्मृति और त्रुटि नियंत्रण को संतुलित कर सकता है।
स्टैनफोर्ड विश्वविद्यालय के शोधकर्ताओं ने एक नई वास्तुकला पेश की फ्रेमपैक इन इंटरलिंक्ड चुनौतियों का समाधान करने के लिए। यह संरचना उनके अस्थायी महत्व के आधार पर इनपुट फ्रेम को संपीड़ित करती है, यह सुनिश्चित करती है कि हाल के फ्रेम उच्च निष्ठा प्रतिनिधित्व प्राप्त करते हैं जबकि पुराने उत्तरोत्तर डाउनसैम होते हैं। ऐसा करने से, विधि वीडियो की अवधि की परवाह किए बिना एक निश्चित ट्रांसफार्मर संदर्भ लंबाई बनाए रखती है। यह प्रभावी रूप से संदर्भ लंबाई की अड़चन को हटा देता है और गणना में घातीय वृद्धि के बिना कुशल स्केलिंग के लिए अनुमति देता है। समानांतर में, फ्रेमपैक में एंटी-ड्रिफ्टिंग सैंपलिंग तकनीक शामिल होती है, जो पहले से ही सामग्री को इंटरपोल करने से पहले, विशेष रूप से एक अनुक्रम की शुरुआत और अंत में एंकर फ्रेम उत्पन्न करके द्वि-दिशात्मक संदर्भ का उपयोग करती है। एक और संस्करण यहां तक कि पीढ़ी के आदेश को उलट देता है, जो अंतिम ज्ञात उच्च गुणवत्ता वाले फ्रेम से शुरू होता है और पीछे की ओर काम करता है। यह उलटा नमूना छवि-से-वीडियो पीढ़ी जैसे परिदृश्यों में विशेष रूप से प्रभावी साबित होता है, जहां एक पूर्ण गति अनुक्रम उत्पन्न करने के लिए एक स्थिर छवि का उपयोग किया जाता है।
फ्रेमपैक डिज़ाइन एक प्राथमिकता वाली संपीड़न प्रणाली के आसपास बनाया गया है जो ट्रांसफार्मर की कुल संदर्भ लंबाई को सीमित करता है। Hunyuan या WAN जैसे मानक वीडियो प्रसार मॉडल में, प्रत्येक 480p फ्रेम लगभग 1560 टोकन संदर्भ उत्पन्न करता है। जब एक प्रसार ट्रांसफार्मर (DIT) का उपयोग करके अगले फ्रेम की भविष्यवाणी की जाती है, तो कुल संदर्भ लंबाई इनपुट और आउटपुट फ्रेम की संख्या के साथ रैखिक रूप से बढ़ जाती है। उदाहरण के लिए, 100 इनपुट फ्रेम और एक अनुमानित फ्रेम के साथ, संदर्भ की लंबाई 157,000 टोकन से अधिक हो सकती है, जो कम्प्यूटेशनल रूप से अव्यवहारिक हो जाती है।

फ्रेमपैक फ्रेम महत्व के आधार पर एक प्रगतिशील संपीड़न अनुसूची को लागू करके इसे संबोधित करता है। अधिक हाल के फ्रेम को अधिक प्रासंगिक माना जाता है और उच्च रिज़ॉल्यूशन आवंटित किया जाता है, जबकि पुराने फ्रेम तेजी से कम हो जाते हैं। संपीड़न एक पैरामीटर द्वारा नियंत्रित एक ज्यामितीय प्रगति का अनुसरण करता है, जो आमतौर पर 2 पर सेट होता है, जो प्रत्येक पहले के फ्रेम के लिए संदर्भ लंबाई को आधे से कम करता है। उदाहरण के लिए, सबसे हालिया फ्रेम पूर्ण रिज़ॉल्यूशन का उपयोग कर सकता है, अगले एक आधे, फिर एक चौथाई, और इसी तरह। यह डिज़ाइन यह सुनिश्चित करता है कि कुल संदर्भ लंबाई एक निश्चित सीमा के भीतर रहे, चाहे कितने फ्रेम इनपुट हों।
संपीड़न को 3 डी पैचिफाइंग कर्नेल का उपयोग करके लागू किया जाता है, जैसे (2, 4, 4), (4, 8, 8), और (8, 16, 16), जो नियंत्रित करते हैं कि कैसे फ्रेम प्रसंस्करण से पहले छोटे पैच में टूट जाते हैं। इन गुठली को सीखने को स्थिर करने के लिए स्वतंत्र मापदंडों के साथ प्रशिक्षित किया जाता है। ऐसे मामलों के लिए जहां इनपुट अनुक्रम बहुत लंबा है, कम-महत्व वाली पूंछ के फ्रेम को या तो गिरा दिया जाता है, न्यूनतम रूप से शामिल किया जाता है, या विश्व स्तर पर अनावश्यक ओवरहेड से बचने के लिए पूल किया जाता है। यह फ्रेमपैक को उच्च मॉडल प्रदर्शन को बनाए रखते हुए मनमानी लंबाई के वीडियो को कुशलता से प्रबंधित करने की अनुमति देता है।

प्रदर्शन मेट्रिक्स फ्रेमपैक के व्यावहारिक मूल्य की पुष्टि करते हैं। जब हुनुअनविडियो और वान जैसे प्रेट्रस डिफ्यूजन मॉडल में एकीकृत किया जाता है, तो फ्रेमपैक ने बड़े बैच आकारों को सक्षम करते हुए प्रति चरण मेमोरी उपयोग को कम कर दिया, जो कि आमतौर पर छवि प्रसार प्रशिक्षण में उपयोग किए जाने वाले पैमाने तक होता है। एंटी-ड्रिफ्टिंग तकनीकों ने दृश्य गुणवत्ता में काफी सुधार किया। डिफ्यूजन शेड्यूलर की आक्रामकता को कम करके और शिफ्ट टाइमस्टेप्स को संतुलित करके, मॉडल ने कम कलाकृतियों और अधिक से अधिक फ्रेम-टू-फ्रेम सुसंगतता दिखाई। एक लक्ष्य छवि ज्ञात होने पर उच्च-निष्ठा पीढ़ी को सक्षम करने के लिए, विशेष रूप से ज्ञात फ्रेमों के बेहतर अनुमान के परिणामस्वरूप उलटा नमूनाकरण दृष्टिकोण। ये सुधार खरोंच से अतिरिक्त प्रशिक्षण के बिना हुए, मौजूदा आर्किटेक्चर के लिए प्लग-इन वृद्धि के रूप में फ्रेमपैक मॉड्यूल की अनुकूलनशीलता का प्रदर्शन किया।
यह शोध अगली-फ्रेम वीडियो पीढ़ी की मुख्य कठिनाइयों की पूरी तरह से जांच और संबोधित करता है। शोधकर्ताओं ने फ्रेमपैक विकसित किया, एक दृष्टिकोण जो स्केलेबल, उच्च गुणवत्ता वाले वीडियो पीढ़ी को सुनिश्चित करने के लिए प्रगतिशील इनपुट संपीड़न और संशोधित नमूनाकरण रणनीतियों को लागू करता है। निश्चित संदर्भ लंबाई, अनुकूली पैचिंग, और अभिनव नमूना क्रम के माध्यम से, फ्रेमपैक लंबे अनुक्रमों पर स्मृति और दृश्य स्पष्टता दोनों को संरक्षित करने में सफल होता है। प्रीट्रेड मॉडल में इसका मॉड्यूलर एकीकरण विभिन्न वीडियो पीढ़ी के अनुप्रयोगों में इसकी व्यावहारिक उपयोगिता और भविष्य की क्षमता को उजागर करता है।
फ्रेमपैक पर शोध के कई प्रमुख takeaways में शामिल हैं:
- फ्रेमपैक एक निश्चित ट्रांसफार्मर संदर्भ लंबाई सुनिश्चित करता है, जिससे मॉडल को कम्प्यूटेशनल लागत में वृद्धि के बिना वीडियो अनुक्रमों को स्केल करने की अनुमति मिलती है।
- पहले के फ्रेम को संपीड़ित करने के लिए एक ज्यामितीय प्रगति (λ = 2) का उपयोग करता है, बड़ी संख्या में इनपुट फ्रेम के लिए भी संदर्भ की लंबाई को कम करता है।
- 3 डी पैचिफाई गुठली जैसे (2, 4, 4), (4, 8, 8), और (8, 16, 16) को लागू करता है, प्रत्येक स्थिर सीखने को सुनिश्चित करने के लिए स्वतंत्र मापदंडों के साथ प्रशिक्षित होता है।
- एंटी-ड्रिफ्टिंग सैंपलिंग विधियाँ समग्र वीडियो गुणवत्ता में सुधार करते हुए, द्वि-दिशात्मक संदर्भ और प्रारंभिक समापन बिंदु पीढ़ी का लाभ उठाती हैं।
- उच्च गुणवत्ता वाले उपयोगकर्ता इनपुट फ्रेम पर एंकरिंग करके इमेज-टू-वीडियो पीढ़ी के कार्यों में उल्टे अस्थायी नमूनाकरण एक्सेल।
- प्रशिक्षण में इमेज-डिफ्यूजन स्केल बैच के आकार को सक्षम करता है, जिससे कुशल सीखने और उच्चतर थ्रूपुट होता है।
- पूर्ण रिट्रेनिंग की आवश्यकता के बिना हुनुअनविडो और वान जैसे मौजूदा मॉडलों के साथ एकीकृत होता है।
- कई टेल-हैंडलिंग रणनीतियों (जैसे, वैश्विक पूलिंग, न्यूनतम समावेशन) प्रदान करता है, दृश्य निष्ठा पर नगण्य प्रभाव दिखाता है।
इसकी जाँच पड़ताल करो कागज़ और गीथब पेज। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
