एलएलएम ने चेन-ऑफ-थॉट (सीओटी) जैसे तर्क कार्यों में प्रभावशाली क्षमताओं को दिखाया है, जो जटिल समस्या-समाधान में सटीकता और व्याख्या को बढ़ाता है। जबकि शोधकर्ता इन क्षमताओं को बहु-मोडल डोमेन तक बढ़ा रहे हैं, वीडियो अपने अस्थायी आयाम के कारण अद्वितीय चुनौतियां पेश करते हैं। स्थिर छवियों के विपरीत, वीडियो को समय के साथ गतिशील बातचीत को समझने की आवश्यकता होती है। वर्तमान दृश्य सीओटी विधियाँ स्थैतिक इनपुट के साथ उत्कृष्टता प्राप्त करती हैं, लेकिन वीडियो सामग्री के साथ संघर्ष करती हैं क्योंकि वे स्पष्ट रूप से अनुक्रमों में विशिष्ट क्षणों को स्थानीय या फिर से नहीं कर सकते हैं। मनुष्य जटिल समस्याओं को तोड़कर, प्रमुख क्षणों की पहचान करने और फिर से शुरू करके, और सुसंगत उत्तरों में टिप्पणियों को संश्लेषित करके इन चुनौतियों को पार करता है। यह दृष्टिकोण कई तर्क क्षमताओं का प्रबंधन करने के लिए एआई सिस्टम की आवश्यकता पर प्रकाश डालता है।
हाल के वीडियो समझदार अग्रिमों ने कैप्शनिंग और प्रश्न के उत्तर देने जैसे कार्यों में सुधार किया है, लेकिन मॉडल में अक्सर दृश्य-जमीन वाले पत्राचार और व्याख्याता की कमी होती है, विशेष रूप से लंबे समय के वीडियो के लिए। वीडियो टेम्पोरल ग्राउंडिंग ने इसे सटीक स्थानीयकरण की आवश्यकता से संबोधित किया। जटिल तर्क कार्यों के साथ पर्यवेक्षित निर्देश-ट्यूनिंग संघर्ष के साथ प्रशिक्षित बड़े मल्टीमॉडल मॉडल। इन सीमाओं को संबोधित करने के लिए दो प्रमुख दृष्टिकोण उभरे हैं: एजेंट-आधारित इंटरफेस और शुद्ध पाठ-आधारित तर्क प्रतिमान सीओटी प्रक्रियाओं द्वारा अनुकरणीय। इसके अलावा, अंतर्निहित वजन को बदलने के बिना मॉडल को पुनरावृत्त करने के लिए मॉडल को पुनरावृत्त करने की अनुमति देकर, रोबोटिक्स, गेम और नेविगेशन जैसे डोमेन में अनुमान-समय खोज तकनीकें मूल्यवान हैं।
हांगकांग पॉलिटेक्निक विश्वविद्यालय और शो लैब, नेशनल यूनिवर्सिटी ऑफ सिंगापुर के शोधकर्ताओं ने टेम्पोरल-ग्राउंड वीडियो समझ के लिए डिज़ाइन किए गए एक वीडियो-भाषा एजेंट, वीडियो-भाषा एजेंट का प्रस्ताव दिया है। वीडियो रीजनिंग की चुनौतियों का समाधान करने के लिए वीडोमिंड दो प्रमुख नवाचारों का परिचय देता है। सबसे पहले, यह वीडियो अस्थायी तर्क के लिए आवश्यक क्षमताओं की पहचान करता है और विशेष घटकों के साथ एक भूमिका-आधारित एजेंटिक वर्कफ़्लो को लागू करता है: एक योजनाकार, एक ग्राउंडर, एक सत्यापनकर्ता और एक उत्तरदाता। दूसरा, यह एक चेन-ऑफ-लोरा रणनीति का प्रस्ताव करता है जो दक्षता और लचीलेपन को संतुलित करते हुए कई मॉडलों के ओवरहेड से बचने के लिए हल्के लोरा एडेप्टर के माध्यम से सहज भूमिका-स्विच करने में सक्षम बनाता है। 14 सार्वजनिक बेंचमार्क के प्रयोग विविध वीडियो समझ कार्यों में अत्याधुनिक प्रदर्शन दिखाते हैं।
VideoMind QWEN2-VL पर बनाता है, एक LLM बैकबोन को एक VIT- आधारित विज़ुअल एनकोडर के साथ संयोजित करता है जो डायनेमिक रिज़ॉल्यूशन इनपुट को संभालने में सक्षम है। इसका मुख्य नवाचार इसकी चेन-ऑफ-लोरा रणनीति है, जो गतिशील रूप से आत्म-कॉलिंग के माध्यम से अनुमान के दौरान भूमिका-विशिष्ट लोरा एडेप्टर को सक्रिय करता है। इसके अलावा, इसमें चार विशिष्ट घटक शामिल हैं: (ए) प्लानर, जो अन्य सभी भूमिकाओं का समन्वय करता है और यह निर्धारित करता है कि क्वेरी, (बी) ग्राउंडर के आधार पर आगे कॉल करने के लिए कौन सा फ़ंक्शन है, जो पाठ क्वेरीज़ (सी) वेरिफायर के आधार पर स्टार्ट और एंड टाइमस्टैम्प की पहचान करके प्रासंगिक क्षणों को स्थानीय करता है, जो कि बाइनरी (“हां”/”नहीं” नहीं देता है। ग्राउंडर या पूरे वीडियो द्वारा पहचाना जाता है जब प्रत्यक्ष उत्तर अधिक उपयुक्त होता है।
ग्राउंडिंग मेट्रिक्स में, वीडोमिंड के लाइटवेट 2 बी मॉडल ने सबसे अधिक तुलना की तुलना में सबसे अधिक तुलना की, जिसमें इंटर्नवीएल 2-78 बी और क्लाउड -3.5-सोंटेट शामिल हैं, जिसमें केवल जीपीटी -4 ओ बेहतर परिणाम दिखाते हैं। हालांकि, वीडियोमाइंड का 7 बी संस्करण GPT-4O को भी पार करता है, प्रतिस्पर्धी समग्र प्रदर्शन को प्राप्त करता है। अगले-GQA बेंचमार्क पर, 2B मॉडल एजेंट-आधारित और एंड-टू-एंड दोनों दृष्टिकोणों में अत्याधुनिक 7B मॉडल से मेल खाता है, जो कि LLOVI, LANGREPO और SEVILA जैसे पाठ-समृद्ध, एजेंट-आधारित समाधानों के साथ अनुकूल है। VideOMind असाधारण शून्य-शॉट क्षमताओं को दिखाता है, सभी LLM- आधारित अस्थायी ग्राउंडिंग विधियों को बेहतर बनाता है और ठीक ट्यून किए गए अस्थायी ग्राउंडिंग विशेषज्ञों की तुलना में प्रतिस्पर्धी परिणाम प्राप्त करता है। इसके अलावा, वीडियो-एमएमई (लॉन्ग), एमएलवीयू, और एलवीबीएन्च में सामान्य वीडियो क्यूए कार्यों में एक्सेल, प्रश्नों का उत्तर देने से पहले क्यू सेगमेंट के प्रभावी स्थानीयकरण को दिखाते हुए।
इस पत्र में, शोधकर्ताओं ने वीडियोमाइंड की शुरुआत की, जो टेम्पोरल ग्राउंडेड वीडियो तर्क में एक महत्वपूर्ण उन्नति है। यह एजेंटिक वर्कफ़्लो के माध्यम से वीडियो समझ की जटिल चुनौतियों को संबोधित करता है, एक योजनाकार, ग्राउंडर, सत्यापनकर्ता, उत्तरदाता और भूमिका-स्विचिंग के लिए एक कुशल श्रृंखला-लोरा रणनीति का संयोजन करता है। तीन प्रमुख डोमेन में प्रयोग, ग्राउंडेड वीडियो प्रश्न-उत्तर, वीडियो टेम्पोरल ग्राउंडिंग, और सामान्य वीडियो प्रश्न-उत्तर, लंबे-फॉर्म वीडियो रीज़निंग कार्यों के लिए वीडियो की प्रभावशीलता की पुष्टि करते हैं, जहां यह सटीक, साक्ष्य-आधारित उत्तर प्रदान करता है। यह काम मल्टीमॉडल वीडियो एजेंटों और तर्क क्षमताओं में भविष्य के विकास के लिए एक नींव स्थापित करता है, अधिक जटिल वीडियो समझ प्रणालियों के लिए नए रास्ते खोलते हैं।
चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।