Monday, April 21, 2025

T* और LV-Haystack: कुशल लंबे-फॉर्म वीडियो समझ के लिए एक स्थानिक रूप से निर्देशित अस्थायी खोज ढांचा – Gadgets Solutions

-

लंबे समय तक वीडियो को समझना-मिनटों से घंटों तक की दूरी-कंप्यूटर दृष्टि में एक बड़ी चुनौती प्रस्तुत करता है, विशेष रूप से वीडियो समझ के कार्यों का विस्तार लघु क्लिप से परे है। प्रमुख कठिनाइयों में से एक कुशलता से किसी दिए गए क्वेरी का जवाब देने के लिए आवश्यक लंबे वीडियो के भीतर हजारों से कुछ प्रासंगिक फ्रेम की पहचान करने में निहित है। अधिकांश वीएलएम, जैसे कि ल्लावा और टारसियर, प्रति छवि सैकड़ों टोकन की प्रक्रिया करते हैं, जो लंबे वीडियो के फ्रेम-दर-फ्रेम विश्लेषण करते हैं, जो कम्प्यूटेशनल रूप से महंगे हैं। इसे संबोधित करने के लिए, एक नया प्रतिमान जिसे टेम्पोरल सर्च के रूप में जाना जाता है, ने प्रमुखता प्राप्त की है। पारंपरिक अस्थायी स्थानीयकरण के विपरीत, जो आम तौर पर एक वीडियो के भीतर निरंतर खंडों की पहचान करता है, टेम्पोरल सर्च का उद्देश्य पूरे समयरेखा में फैलाए गए अत्यधिक प्रासंगिक फ्रेमों के एक विरल सेट को पुनः प्राप्त करना है – “एक हिस्टैक में सुई” खोजने के लिए।

जबकि ध्यान तंत्र और वीडियो ट्रांसफार्मर में प्रगति ने अस्थायी मॉडलिंग में सुधार किया है, ये विधियाँ अभी भी लंबी दूरी की निर्भरता को कैप्चर करने में सीमाओं का सामना करती हैं। कुछ दृष्टिकोण वीडियो डेटा को संपीड़ित करके या इनपुट आकार को कम करने के लिए विशिष्ट फ्रेम का चयन करके इसे दूर करने का प्रयास करते हैं। यद्यपि लंबे-वीडियो समझ के लिए बेंचमार्क मौजूद हैं, वे ज्यादातर अस्थायी खोज की प्रभावशीलता का सीधे आकलन करने के बजाय डाउनस्ट्रीम प्रश्न-उत्तर कार्यों के आधार पर प्रदर्शन का मूल्यांकन करते हैं। इसके विपरीत, कीफ्रेम चयन और ठीक-ठीक दाने वाले फ्रेम रिट्रीवल पर उभरता हुआ ध्यान-नज़र-आधारित से कैप्शन-निर्देशित तरीकों तक-लंबे समय तक वीडियो सामग्री को समझने के लिए एक अधिक लक्षित और कुशल दृष्टिकोण के रूप में।

स्टैनफोर्ड, नॉर्थवेस्टर्न, और कार्नेगी मेलन के शोधकर्ताओं ने लंबे समय के वीडियो समझ के लिए अस्थायी खोज पर फिर से विचार किया, जो कि एलवी-हिस्टैक की शुरुआत करता है-480 घंटे के वास्तविक दुनिया के वीडियो और 15,000 से अधिक एनोटेट क्यूए उदाहरणों के साथ एक बड़ा बेंचमार्क। वे कार्य को हजारों से कुछ प्रमुख फ्रेम खोजने के रूप में फ्रेम करते हैं, जो वर्तमान मॉडलों की सीमाओं को उजागर करते हैं। इसे संबोधित करने के लिए, वे टी का प्रस्ताव करते हैं, एक ढांचा जो समय और स्थान पर अनुकूली ज़ूम-इन तकनीकों का उपयोग करके एक स्थानिक खोज के रूप में अस्थायी खोज को फिर से खोजता है। T कम्प्यूटेशनल लागत को कम करते हुए प्रदर्शन को बढ़ाता है, जो GPT-4O और LLAVA-OV जैसे मॉडल की सटीकता में सुधार करता है, जो कम से कम फ्रेम का उपयोग करता है।

अध्ययन लंबे समय से संदर्भ दृश्य भाषा मॉडल में वीडियो समझ को बढ़ाने के लिए एक अस्थायी खोज (टीएस) कार्य का परिचय देता है। लक्ष्य एक वीडियो से एक न्यूनतम कीफ्रेम का चयन करना है जो किसी दिए गए प्रश्न का उत्तर देने के लिए आवश्यक सभी जानकारी को बरकरार रखता है। प्रस्तावित टी फ्रेमवर्क तीन चरणों का उपयोग करके इसे करता है: प्रश्न ग्राउंडिंग, पुनरावृत्त अस्थायी खोज और कार्य पूरा होने। यह प्रश्न में प्रासंगिक वस्तुओं की पहचान करता है, एक स्थानिक खोज मॉडल का उपयोग करके उन्हें फ्रेम में ले जाता है, और विश्वास स्कोर के आधार पर एक फ्रेम नमूनाकरण रणनीति को अपडेट करता है। LV-Haystack बेंचमार्क पर मूल्यांकन किया गया, T काफी कम कम्प्यूटेशनल लागतों के साथ बेहतर दक्षता और सटीकता को दर्शाता है।

अध्ययन में कई डेटासेट और कार्यों में प्रस्तावित टी टेम्पोरल सर्च फ्रेमवर्क का मूल्यांकन किया गया है, जिसमें LV-Haystack, Longvideobench, Videomme, Next-QA, EGOSCHEMA और EGO4D LONGVIDEO QA शामिल हैं। टी को ओपन-सोर्स और मालिकाना दृष्टि-भाषा मॉडल में एकीकृत किया गया है, जो लगातार प्रदर्शन में सुधार करता है, विशेष रूप से लंबे वीडियो और सीमित फ्रेम परिदृश्यों में। यह कम कम्प्यूटेशनल लागत के साथ उच्च सटीकता प्राप्त करने के लिए कुशल कीफ्रेम चयन के लिए ध्यान, ऑब्जेक्ट डिटेक्शन, या प्रशिक्षित मॉडल का उपयोग करता है। प्रयोगों से पता चलता है कि टी उत्तरोत्तर पुनरावृत्तियों पर प्रासंगिक फ्रेम के साथ नमूने को संरेखित करता है, अधिक फ्रेम के साथ मानव-स्तरीय प्रदर्शन का दृष्टिकोण करता है, और विभिन्न मूल्यांकन बेंचमार्क में एक समान और पुनर्प्राप्ति-आधारित नमूने के तरीकों से बेहतर प्रदर्शन करता है।

T* और LV-Haystack: कुशल लंबे-फॉर्म वीडियो समझ के लिए एक स्थानिक रूप से निर्देशित अस्थायी खोज ढांचा
 – Gadgets Solutions

अंत में, यह काम अत्याधुनिक वीएलएम में उपयोग किए जाने वाले अस्थायी खोज विधियों को फिर से देखकर लंबे समय के वीडियो को समझने की चुनौती से निपटता है। लेखक कार्य को “लंबे वीडियो हेस्टैक” समस्या के रूप में फ्रेम करते हैं – दसियों हजारों से कुछ प्रासंगिक फ्रेम की पहचान करते हैं। वे LV-Haystack का परिचय देते हैं, 480 घंटे के वीडियो के साथ एक बेंचमार्क और इसका समर्थन करने के लिए 15,000 से अधिक मानव-एनोटेट इंस्टेंस। निष्कर्ष बताते हैं कि मौजूदा तरीके खराब प्रदर्शन करते हैं। वे टी का प्रस्ताव करते हैं, एक हल्का ढांचा जो इसे संबोधित करने के लिए अनुकूली ज़ूमिंग तकनीकों का उपयोग करके एक स्थानिक समस्या में अस्थायी खोज को बदल देता है। टी काफी तंग फ्रेम बजट के तहत अग्रणी वीएलएम के प्रदर्शन को बढ़ाता है, इसकी प्रभावशीलता का प्रदर्शन करता है।


चेक आउट कागज़ और प्रोजेक्ट पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »