Monday, April 21, 2025

VideoMind: टेम्पोरल-ग्राउंडेड वीडियो समझ के लिए एक भूमिका-आधारित एजेंट – Gadgets Solutions

-

एलएलएम ने चेन-ऑफ-थॉट (सीओटी) जैसे तर्क कार्यों में प्रभावशाली क्षमताओं को दिखाया है, जो जटिल समस्या-समाधान में सटीकता और व्याख्या को बढ़ाता है। जबकि शोधकर्ता इन क्षमताओं को बहु-मोडल डोमेन तक बढ़ा रहे हैं, वीडियो अपने अस्थायी आयाम के कारण अद्वितीय चुनौतियां पेश करते हैं। स्थिर छवियों के विपरीत, वीडियो को समय के साथ गतिशील बातचीत को समझने की आवश्यकता होती है। वर्तमान दृश्य सीओटी विधियाँ स्थैतिक इनपुट के साथ उत्कृष्टता प्राप्त करती हैं, लेकिन वीडियो सामग्री के साथ संघर्ष करती हैं क्योंकि वे स्पष्ट रूप से अनुक्रमों में विशिष्ट क्षणों को स्थानीय या फिर से नहीं कर सकते हैं। मनुष्य जटिल समस्याओं को तोड़कर, प्रमुख क्षणों की पहचान करने और फिर से शुरू करके, और सुसंगत उत्तरों में टिप्पणियों को संश्लेषित करके इन चुनौतियों को पार करता है। यह दृष्टिकोण कई तर्क क्षमताओं का प्रबंधन करने के लिए एआई सिस्टम की आवश्यकता पर प्रकाश डालता है।

हाल के वीडियो समझदार अग्रिमों ने कैप्शनिंग और प्रश्न के उत्तर देने जैसे कार्यों में सुधार किया है, लेकिन मॉडल में अक्सर दृश्य-जमीन वाले पत्राचार और व्याख्याता की कमी होती है, विशेष रूप से लंबे समय के वीडियो के लिए। वीडियो टेम्पोरल ग्राउंडिंग ने इसे सटीक स्थानीयकरण की आवश्यकता से संबोधित किया। जटिल तर्क कार्यों के साथ पर्यवेक्षित निर्देश-ट्यूनिंग संघर्ष के साथ प्रशिक्षित बड़े मल्टीमॉडल मॉडल। इन सीमाओं को संबोधित करने के लिए दो प्रमुख दृष्टिकोण उभरे हैं: एजेंट-आधारित इंटरफेस और शुद्ध पाठ-आधारित तर्क प्रतिमान सीओटी प्रक्रियाओं द्वारा अनुकरणीय। इसके अलावा, अंतर्निहित वजन को बदलने के बिना मॉडल को पुनरावृत्त करने के लिए मॉडल को पुनरावृत्त करने की अनुमति देकर, रोबोटिक्स, गेम और नेविगेशन जैसे डोमेन में अनुमान-समय खोज तकनीकें मूल्यवान हैं।

हांगकांग पॉलिटेक्निक विश्वविद्यालय और शो लैब, नेशनल यूनिवर्सिटी ऑफ सिंगापुर के शोधकर्ताओं ने टेम्पोरल-ग्राउंड वीडियो समझ के लिए डिज़ाइन किए गए एक वीडियो-भाषा एजेंट, वीडियो-भाषा एजेंट का प्रस्ताव दिया है। वीडियो रीजनिंग की चुनौतियों का समाधान करने के लिए वीडोमिंड दो प्रमुख नवाचारों का परिचय देता है। सबसे पहले, यह वीडियो अस्थायी तर्क के लिए आवश्यक क्षमताओं की पहचान करता है और विशेष घटकों के साथ एक भूमिका-आधारित एजेंटिक वर्कफ़्लो को लागू करता है: एक योजनाकार, एक ग्राउंडर, एक सत्यापनकर्ता और एक उत्तरदाता। दूसरा, यह एक चेन-ऑफ-लोरा रणनीति का प्रस्ताव करता है जो दक्षता और लचीलेपन को संतुलित करते हुए कई मॉडलों के ओवरहेड से बचने के लिए हल्के लोरा एडेप्टर के माध्यम से सहज भूमिका-स्विच करने में सक्षम बनाता है। 14 सार्वजनिक बेंचमार्क के प्रयोग विविध वीडियो समझ कार्यों में अत्याधुनिक प्रदर्शन दिखाते हैं।

VideoMind: टेम्पोरल-ग्राउंडेड वीडियो समझ के लिए एक भूमिका-आधारित एजेंट
 – Gadgets Solutions

VideoMind QWEN2-VL पर बनाता है, एक LLM बैकबोन को एक VIT- आधारित विज़ुअल एनकोडर के साथ संयोजित करता है जो डायनेमिक रिज़ॉल्यूशन इनपुट को संभालने में सक्षम है। इसका मुख्य नवाचार इसकी चेन-ऑफ-लोरा रणनीति है, जो गतिशील रूप से आत्म-कॉलिंग के माध्यम से अनुमान के दौरान भूमिका-विशिष्ट लोरा एडेप्टर को सक्रिय करता है। इसके अलावा, इसमें चार विशिष्ट घटक शामिल हैं: (ए) प्लानर, जो अन्य सभी भूमिकाओं का समन्वय करता है और यह निर्धारित करता है कि क्वेरी, (बी) ग्राउंडर के आधार पर आगे कॉल करने के लिए कौन सा फ़ंक्शन है, जो पाठ क्वेरीज़ (सी) वेरिफायर के आधार पर स्टार्ट और एंड टाइमस्टैम्प की पहचान करके प्रासंगिक क्षणों को स्थानीय करता है, जो कि बाइनरी (“हां”/”नहीं” नहीं देता है। ग्राउंडर या पूरे वीडियो द्वारा पहचाना जाता है जब प्रत्यक्ष उत्तर अधिक उपयुक्त होता है।

ग्राउंडिंग मेट्रिक्स में, वीडोमिंड के लाइटवेट 2 बी मॉडल ने सबसे अधिक तुलना की तुलना में सबसे अधिक तुलना की, जिसमें इंटर्नवीएल 2-78 बी और क्लाउड -3.5-सोंटेट शामिल हैं, जिसमें केवल जीपीटी -4 ओ बेहतर परिणाम दिखाते हैं। हालांकि, वीडियोमाइंड का 7 बी संस्करण GPT-4O को भी पार करता है, प्रतिस्पर्धी समग्र प्रदर्शन को प्राप्त करता है। अगले-GQA बेंचमार्क पर, 2B मॉडल एजेंट-आधारित और एंड-टू-एंड दोनों दृष्टिकोणों में अत्याधुनिक 7B मॉडल से मेल खाता है, जो कि LLOVI, LANGREPO और SEVILA जैसे पाठ-समृद्ध, एजेंट-आधारित समाधानों के साथ अनुकूल है। VideOMind असाधारण शून्य-शॉट क्षमताओं को दिखाता है, सभी LLM- आधारित अस्थायी ग्राउंडिंग विधियों को बेहतर बनाता है और ठीक ट्यून किए गए अस्थायी ग्राउंडिंग विशेषज्ञों की तुलना में प्रतिस्पर्धी परिणाम प्राप्त करता है। इसके अलावा, वीडियो-एमएमई (लॉन्ग), एमएलवीयू, और एलवीबीएन्च में सामान्य वीडियो क्यूए कार्यों में एक्सेल, प्रश्नों का उत्तर देने से पहले क्यू सेगमेंट के प्रभावी स्थानीयकरण को दिखाते हुए।

इस पत्र में, शोधकर्ताओं ने वीडियोमाइंड की शुरुआत की, जो टेम्पोरल ग्राउंडेड वीडियो तर्क में एक महत्वपूर्ण उन्नति है। यह एजेंटिक वर्कफ़्लो के माध्यम से वीडियो समझ की जटिल चुनौतियों को संबोधित करता है, एक योजनाकार, ग्राउंडर, सत्यापनकर्ता, उत्तरदाता और भूमिका-स्विचिंग के लिए एक कुशल श्रृंखला-लोरा रणनीति का संयोजन करता है। तीन प्रमुख डोमेन में प्रयोग, ग्राउंडेड वीडियो प्रश्न-उत्तर, वीडियो टेम्पोरल ग्राउंडिंग, और सामान्य वीडियो प्रश्न-उत्तर, लंबे-फॉर्म वीडियो रीज़निंग कार्यों के लिए वीडियो की प्रभावशीलता की पुष्टि करते हैं, जहां यह सटीक, साक्ष्य-आधारित उत्तर प्रदान करता है। यह काम मल्टीमॉडल वीडियो एजेंटों और तर्क क्षमताओं में भविष्य के विकास के लिए एक नींव स्थापित करता है, अधिक जटिल वीडियो समझ प्रणालियों के लिए नए रास्ते खोलते हैं।


चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »