VideoMind: टेम्पोरल-ग्राउंडेड वीडियो समझ के लिए एक भूमिका-आधारित एजेंट – Gadgets Solutions

एलएलएम ने चेन-ऑफ-थॉट (सीओटी) जैसे तर्क कार्यों में प्रभावशाली क्षमताओं को दिखाया है, जो जटिल समस्या-समाधान में सटीकता और व्याख्या को बढ़ाता है। जबकि शोधकर्ता इन क्षमताओं को बहु-मोडल डोमेन तक बढ़ा रहे हैं, वीडियो अपने अस्थायी आयाम के कारण अद्वितीय चुनौतियां पेश करते हैं। स्थिर छवियों के विपरीत, वीडियो को समय के साथ गतिशील बातचीत को समझने की आवश्यकता होती है। वर्तमान दृश्य सीओटी विधियाँ स्थैतिक इनपुट के साथ उत्कृष्टता प्राप्त करती हैं, लेकिन वीडियो सामग्री के साथ संघर्ष करती हैं क्योंकि वे स्पष्ट रूप से अनुक्रमों में विशिष्ट क्षणों को स्थानीय या फिर से नहीं कर सकते हैं। मनुष्य जटिल समस्याओं को तोड़कर, प्रमुख क्षणों की पहचान करने और फिर से शुरू करके, और सुसंगत उत्तरों में टिप्पणियों को संश्लेषित करके इन चुनौतियों को पार करता है। यह दृष्टिकोण कई तर्क क्षमताओं का प्रबंधन करने के लिए एआई सिस्टम की आवश्यकता पर प्रकाश डालता है।

हाल के वीडियो समझदार अग्रिमों ने कैप्शनिंग और प्रश्न के उत्तर देने जैसे कार्यों में सुधार किया है, लेकिन मॉडल में अक्सर दृश्य-जमीन वाले पत्राचार और व्याख्याता की कमी होती है, विशेष रूप से लंबे समय के वीडियो के लिए। वीडियो टेम्पोरल ग्राउंडिंग ने इसे सटीक स्थानीयकरण की आवश्यकता से संबोधित किया। जटिल तर्क कार्यों के साथ पर्यवेक्षित निर्देश-ट्यूनिंग संघर्ष के साथ प्रशिक्षित बड़े मल्टीमॉडल मॉडल। इन सीमाओं को संबोधित करने के लिए दो प्रमुख दृष्टिकोण उभरे हैं: एजेंट-आधारित इंटरफेस और शुद्ध पाठ-आधारित तर्क प्रतिमान सीओटी प्रक्रियाओं द्वारा अनुकरणीय। इसके अलावा, अंतर्निहित वजन को बदलने के बिना मॉडल को पुनरावृत्त करने के लिए मॉडल को पुनरावृत्त करने की अनुमति देकर, रोबोटिक्स, गेम और नेविगेशन जैसे डोमेन में अनुमान-समय खोज तकनीकें मूल्यवान हैं।

हांगकांग पॉलिटेक्निक विश्वविद्यालय और शो लैब, नेशनल यूनिवर्सिटी ऑफ सिंगापुर के शोधकर्ताओं ने टेम्पोरल-ग्राउंड वीडियो समझ के लिए डिज़ाइन किए गए एक वीडियो-भाषा एजेंट, वीडियो-भाषा एजेंट का प्रस्ताव दिया है। वीडियो रीजनिंग की चुनौतियों का समाधान करने के लिए वीडोमिंड दो प्रमुख नवाचारों का परिचय देता है। सबसे पहले, यह वीडियो अस्थायी तर्क के लिए आवश्यक क्षमताओं की पहचान करता है और विशेष घटकों के साथ एक भूमिका-आधारित एजेंटिक वर्कफ़्लो को लागू करता है: एक योजनाकार, एक ग्राउंडर, एक सत्यापनकर्ता और एक उत्तरदाता। दूसरा, यह एक चेन-ऑफ-लोरा रणनीति का प्रस्ताव करता है जो दक्षता और लचीलेपन को संतुलित करते हुए कई मॉडलों के ओवरहेड से बचने के लिए हल्के लोरा एडेप्टर के माध्यम से सहज भूमिका-स्विच करने में सक्षम बनाता है। 14 सार्वजनिक बेंचमार्क के प्रयोग विविध वीडियो समझ कार्यों में अत्याधुनिक प्रदर्शन दिखाते हैं।

VideoMind: टेम्पोरल-ग्राउंडेड वीडियो समझ के लिए एक भूमिका-आधारित एजेंट
– Gadgets Solutions

VideoMind QWEN2-VL पर बनाता है, एक LLM बैकबोन को एक VIT- आधारित विज़ुअल एनकोडर के साथ संयोजित करता है जो डायनेमिक रिज़ॉल्यूशन इनपुट को संभालने में सक्षम है। इसका मुख्य नवाचार इसकी चेन-ऑफ-लोरा रणनीति है, जो गतिशील रूप से आत्म-कॉलिंग के माध्यम से अनुमान के दौरान भूमिका-विशिष्ट लोरा एडेप्टर को सक्रिय करता है। इसके अलावा, इसमें चार विशिष्ट घटक शामिल हैं: (ए) प्लानर, जो अन्य सभी भूमिकाओं का समन्वय करता है और यह निर्धारित करता है कि क्वेरी, (बी) ग्राउंडर के आधार पर आगे कॉल करने के लिए कौन सा फ़ंक्शन है, जो पाठ क्वेरीज़ (सी) वेरिफायर के आधार पर स्टार्ट और एंड टाइमस्टैम्प की पहचान करके प्रासंगिक क्षणों को स्थानीय करता है, जो कि बाइनरी (“हां”/”नहीं” नहीं देता है। ग्राउंडर या पूरे वीडियो द्वारा पहचाना जाता है जब प्रत्यक्ष उत्तर अधिक उपयुक्त होता है।

ग्राउंडिंग मेट्रिक्स में, वीडोमिंड के लाइटवेट 2 बी मॉडल ने सबसे अधिक तुलना की तुलना में सबसे अधिक तुलना की, जिसमें इंटर्नवीएल 2-78 बी और क्लाउड -3.5-सोंटेट शामिल हैं, जिसमें केवल जीपीटी -4 ओ बेहतर परिणाम दिखाते हैं। हालांकि, वीडियोमाइंड का 7 बी संस्करण GPT-4O को भी पार करता है, प्रतिस्पर्धी समग्र प्रदर्शन को प्राप्त करता है। अगले-GQA बेंचमार्क पर, 2B मॉडल एजेंट-आधारित और एंड-टू-एंड दोनों दृष्टिकोणों में अत्याधुनिक 7B मॉडल से मेल खाता है, जो कि LLOVI, LANGREPO और SEVILA जैसे पाठ-समृद्ध, एजेंट-आधारित समाधानों के साथ अनुकूल है। VideOMind असाधारण शून्य-शॉट क्षमताओं को दिखाता है, सभी LLM- आधारित अस्थायी ग्राउंडिंग विधियों को बेहतर बनाता है और ठीक ट्यून किए गए अस्थायी ग्राउंडिंग विशेषज्ञों की तुलना में प्रतिस्पर्धी परिणाम प्राप्त करता है। इसके अलावा, वीडियो-एमएमई (लॉन्ग), एमएलवीयू, और एलवीबीएन्च में सामान्य वीडियो क्यूए कार्यों में एक्सेल, प्रश्नों का उत्तर देने से पहले क्यू सेगमेंट के प्रभावी स्थानीयकरण को दिखाते हुए।

इस पत्र में, शोधकर्ताओं ने वीडियोमाइंड की शुरुआत की, जो टेम्पोरल ग्राउंडेड वीडियो तर्क में एक महत्वपूर्ण उन्नति है। यह एजेंटिक वर्कफ़्लो के माध्यम से वीडियो समझ की जटिल चुनौतियों को संबोधित करता है, एक योजनाकार, ग्राउंडर, सत्यापनकर्ता, उत्तरदाता और भूमिका-स्विचिंग के लिए एक कुशल श्रृंखला-लोरा रणनीति का संयोजन करता है। तीन प्रमुख डोमेन में प्रयोग, ग्राउंडेड वीडियो प्रश्न-उत्तर, वीडियो टेम्पोरल ग्राउंडिंग, और सामान्य वीडियो प्रश्न-उत्तर, लंबे-फॉर्म वीडियो रीज़निंग कार्यों के लिए वीडियो की प्रभावशीलता की पुष्टि करते हैं, जहां यह सटीक, साक्ष्य-आधारित उत्तर प्रदान करता है। यह काम मल्टीमॉडल वीडियो एजेंटों और तर्क क्षमताओं में भविष्य के विकास के लिए एक नींव स्थापित करता है, अधिक जटिल वीडियो समझ प्रणालियों के लिए नए रास्ते खोलते हैं।

चेक आउट कागज और परियोजना पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

होस्टिंगर क्षितिज से मिलें: एक नो-कोड एआई टूल जो आपको कोड की एक लाइन लिखे बिना कस्टम वेब ऐप बनाने, संपादित करने और प्रकाशित करने की सुविधा देता है। – Gadgets Solutions

जीडीपीआर अनुपालन के लिए कानूनी डोमेन एलएलएम आउटपुट स्कोर करने के लिए पायथन एसडीके के माध्यम से एटीएलए के मूल्यांकन मंच और सेलेन मॉडल का उपयोग करने का एक कोड कार्यान्वयन – Gadgets Solutions

VideoMind: टेम्पोरल-ग्राउंडेड वीडियो समझ के लिए एक भूमिका-आधारित एजेंट – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US