Thursday, April 24, 2025

Nvidia ai रिलीज़ कुछ भी 3B का वर्णन करता है – Gadgets Solutions

-

दृष्टि-भाषा मॉडल के लिए स्थानीयकृत कैप्शन में चुनौतियां

छवियों या वीडियो के भीतर विशिष्ट क्षेत्रों का वर्णन करना दृष्टि-भाषा मॉडलिंग में एक लगातार चुनौती बनी हुई है। जबकि सामान्य-उद्देश्य दृष्टि-भाषा मॉडल (वीएलएम) वैश्विक कैप्शन उत्पन्न करने में अच्छा प्रदर्शन करते हैं, वे अक्सर विस्तृत, क्षेत्र-विशिष्ट विवरणों के उत्पादन में कम आते हैं। इन सीमाओं को वीडियो डेटा में प्रवर्धित किया जाता है, जहां मॉडल को अस्थायी गतिशीलता के लिए जिम्मेदार होना चाहिए। प्राथमिक बाधाओं में दृश्य सुविधा निष्कर्षण के दौरान ठीक-ठीक विस्तार का नुकसान, क्षेत्रीय विवरण के लिए निर्मित अपर्याप्त एनोटेट डेटासेट, और मूल्यांकन बेंचमार्क शामिल हैं जो अपूर्ण संदर्भ कैप्शन के कारण सटीक आउटपुट को दंडित करते हैं।

स्थानीयकृत विवरणों के लिए कुछ भी 3 बी का वर्णन करें – एक मॉडल

NVIDIA प्रस्तुत करने वाले यह AI काम 3B (DAM-3B) का वर्णन करते हैं, जो छवियों और वीडियो में विस्तृत, स्थानीयकृत कैप्शनिंग के लिए एक मल्टीमॉडल बड़े भाषा मॉडल उद्देश्य-निर्मित है। DAM-3B-Video के साथ, सिस्टम बिंदुओं, बाउंडिंग बॉक्स, स्क्रिबल्स, या मास्क के माध्यम से क्षेत्रों को निर्दिष्ट करने वाले इनपुट को स्वीकार करता है और प्रासंगिक रूप से ग्राउंडेड, वर्णनात्मक पाठ उत्पन्न करता है। यह स्थैतिक इमेजरी और डायनेमिक वीडियो इनपुट दोनों के साथ संगत है, और मॉडल सार्वजनिक रूप से हगिंग फेस के माध्यम से उपलब्ध हैं।

Nvidia ai रिलीज़ कुछ भी 3B का वर्णन करता है
 – Gadgets Solutions

कोर आर्किटेक्चरल घटक और मॉडल डिजाइन

DAM-3B में दो प्रमुख नवाचार शामिल हैं: ए फोकल प्रॉम्प्ट और एक स्थानीयकृत दृष्टि रीढ़ गेटेड क्रॉस-अटेंशन के साथ बढ़ाया। फोकल प्रॉम्प्ट लक्ष्य क्षेत्र की एक उच्च-रिज़ॉल्यूशन फसल के साथ एक पूर्ण छवि को फ़्यूज़ करता है, जो क्षेत्रीय विवरण और व्यापक संदर्भ दोनों को बनाए रखता है। यह दोहरी-दृश्य इनपुट स्थानीयकृत दृष्टि बैकबोन द्वारा संसाधित किया जाता है, जो छवि और मुखौटा इनपुट को एम्बेड करता है और एक बड़े भाषा मॉडल में पास करने से पहले वैश्विक और फोकल सुविधाओं को मिश्रित करने के लिए क्रॉस-अटेंशन लागू करता है। इन तंत्रों को टोकन लंबाई को बढ़ाए बिना एकीकृत किया जाता है, कम्प्यूटेशनल दक्षता को संरक्षित किया जाता है।

DAM-3B-Video इस वास्तुकला को फ्रेम-वार क्षेत्र मास्क को एन्कोडिंग करके और समय के साथ उन्हें एकीकृत करके अस्थायी अनुक्रमों तक बढ़ाता है। यह क्षेत्र-विशिष्ट विवरणों को वीडियो के लिए उत्पन्न करने की अनुमति देता है, यहां तक ​​कि रोड़ा या गति की उपस्थिति में भी।

प्रशिक्षण डेटा रणनीति और मूल्यांकन बेंचमार्क

डेटा की कमी को दूर करने के लिए, NVIDIA DLC-SDP पाइपलाइन-एक अर्ध-पर्यवेक्षित डेटा जनरेशन रणनीति विकसित करता है। यह दो-चरण प्रक्रिया सेगमेंटेशन डेटासेट का उपयोग करती है और 1.5 मिलियन स्थानीयकृत उदाहरणों के प्रशिक्षण कॉर्पस को क्यूरेट करने के लिए वेब-स्केल छवियों को अनलेबेल्ड वेब-स्केल छवियों का उपयोग करती है। क्षेत्र विवरण को एक स्व-प्रशिक्षण दृष्टिकोण का उपयोग करके परिष्कृत किया जाता है, उच्च गुणवत्ता वाले कैप्शन का उत्पादन किया जाता है।

मूल्यांकन के लिए, टीम डीएलसी-बेंच का परिचय देती है, जो संदर्भ कैप्शन के साथ कठोर तुलनाओं के बजाय विशेषता-स्तरीय शुद्धता के आधार पर विवरण गुणवत्ता का आकलन करती है। DAM-3B GPT-4O और Videorefer जैसी आधार रेखाओं को पार करते हुए, सात बेंचमार्क में अग्रणी प्रदर्शन प्राप्त करता है। यह कीवर्ड-स्तर (LVIS, PACO), वाक्यांश-स्तर (FlickR30K Entities), और बहु-वाक्य स्थानीयकृत कैप्शनिंग (Ref-L4, HC-STVG) में मजबूत परिणाम प्रदर्शित करता है। DLC-Bench पर, DAM-3B 67.3%की औसत सटीकता प्राप्त करता है, जो अन्य मॉडलों को विस्तार और परिशुद्धता दोनों में बेहतर बनाता है।

निष्कर्ष

कुछ भी वर्णन करें 3 बी एक स्केलेबल, उच्च गुणवत्ता वाले डेटा पाइपलाइन के साथ एक संदर्भ-जागरूक वास्तुकला को मिलाकर क्षेत्र-विशिष्ट कैप्शन में लंबे समय तक सीमाओं को संबोधित करता है। छवियों और वीडियो दोनों में स्थानीयकृत सामग्री का वर्णन करने की मॉडल की क्षमता में एक्सेसिबिलिटी टूल, रोबोटिक्स और वीडियो सामग्री विश्लेषण जैसे डोमेन में व्यापक प्रयोज्यता है। इस रिलीज के साथ, NVIDIA भविष्य के अनुसंधान के लिए एक मजबूत और प्रतिलिपि प्रस्तुत करने योग्य बेंचमार्क प्रदान करता है और अगली पीढ़ी के मल्टीमॉडल एआई सिस्टम के लिए एक परिष्कृत तकनीकी दिशा निर्धारित करता है।


इसकी जाँच पड़ताल करो कागज़, गले लगाने के लिए मॉडल और प्रोजेक्ट पेज। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


XATA एजेंट से मिलें: प्रोएक्टिव PostgreSQL मॉनिटरिंग के लिए एक ओपन सोर्स एजेंट, स्वचालित समस्या निवारण, और सीमलेस DevOps एकीकरण
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »