विज़न-लैंग्वेज मॉडलिंग में तेजी से प्रगति के बावजूद, इस क्षेत्र में प्रगति की अधिकांश प्रगति को मालिकाना डेटासेट पर प्रशिक्षित मॉडलों द्वारा आकार दिया गया है, जो अक्सर बंद-स्रोत प्रणालियों से आसवन पर भरोसा करते हैं। यह निर्भरता वैज्ञानिक पारदर्शिता और प्रतिलिपि प्रस्तुत करने योग्यता के लिए बाधाएं पैदा करती है, विशेष रूप से बारीक-दाने वाली छवि और वीडियो समझ से जुड़े कार्यों के लिए। बेंचमार्क प्रदर्शन प्रशिक्षण डेटा और ब्लैक-बॉक्स मॉडल क्षमताओं को वास्तुशिल्प या पद्धतिगत सुधारों से अधिक प्रतिबिंबित कर सकता है, जिससे सच्ची अनुसंधान प्रगति का आकलन करना मुश्किल हो जाता है।
इन सीमाओं को संबोधित करने के लिए, मेटा एआई ने धारणा भाषा मॉडल (पीएलएम), विज़न-लैंग्वेज मॉडलिंग के लिए एक पूरी तरह से खुला और प्रतिलिपि प्रस्तुत करने योग्य ढांचा पेश किया है। पीएलएम को छवि और वीडियो इनपुट दोनों का समर्थन करने के लिए डिज़ाइन किया गया है और इसे मालिकाना मॉडल आउटपुट के उपयोग के बिना प्रशिक्षित किया जाता है। इसके बजाय, यह बड़े पैमाने पर सिंथेटिक डेटा और नए एकत्र मानव-लेबल वाले डेटासेट से आकर्षित करता है, जो पारदर्शी परिस्थितियों में मॉडल व्यवहार और प्रशिक्षण गतिशीलता का विस्तृत मूल्यांकन सक्षम करता है।
पीएलएम फ्रेमवर्क एक विज़न एनकोडर (धारणा एनकोडर) को अलग -अलग आकार -1 बी, 3 बी और 8 बी मापदंडों के लामा 3 भाषा डिकोडर्स के साथ एकीकृत करता है। यह एक बहु-चरण प्रशिक्षण पाइपलाइन को नियोजित करता है: कम-रिज़ॉल्यूशन सिंथेटिक छवियों के साथ प्रारंभिक वार्म-अप, विविध सिंथेटिक डेटासेट पर बड़े पैमाने पर मिडट्रेनिंग, और सटीक एनोटेशन के साथ उच्च-रिज़ॉल्यूशन डेटा का उपयोग करके ठीक-ट्यूनिंग की निगरानी की। यह पाइपलाइन डेटा सिद्धता और सामग्री पर नियंत्रण बनाए रखते हुए प्रशिक्षण स्थिरता और स्केलेबिलिटी पर जोर देती है।

काम का एक प्रमुख योगदान दो बड़े पैमाने पर, उच्च-गुणवत्ता वाले वीडियो डेटासेट की रिलीज है जो अस्थायी और स्थानिक समझ में मौजूदा अंतराल को संबोधित करता है। पीएलएम -एफजीक्यूए डेटासेट में 2.4 मिलियन प्रश्न-उत्तर जोड़े शामिल हैं, जो मानवीय कार्यों के बारीक-दाने वाले विवरणों को कैप्चर करते हैं-जैसे कि ऑब्जेक्ट हेरफेर, आंदोलन की दिशा और स्थानिक संबंध-विविध वीडियो डोमेन। यह पूरक है पीएलएम -एसटीसी476,000 स्पैटो-टेम्पोरल कैप्शन का एक डेटासेट विभाजन मास्क से जुड़ा हुआ है जो समय के साथ विषयों को ट्रैक करता है, जिससे मॉडल को “क्या,” “,”, “और” जब “जटिल वीडियो दृश्यों में तर्क करने की अनुमति मिलती है।
तकनीकी रूप से, पीएलएम एक मॉड्यूलर आर्किटेक्चर को नियुक्त करता है जो उच्च-रिज़ॉल्यूशन इमेज टाइलिंग (36 टाइल्स तक) और मल्टी-फ्रेम वीडियो इनपुट (32 फ्रेम तक) का समर्थन करता है। एक 2-लेयर एमएलपी प्रोजेक्टर दृश्य एनकोडर को एलएलएम से जोड़ता है, और सिंथेटिक और मानव-लेबल दोनों डेटा को कैप्शनिंग, विज़ुअल प्रश्न उत्तर देने और घने क्षेत्र-आधारित तर्क सहित कई कार्यों का समर्थन करने के लिए संरचित किया जाता है। सिंथेटिक डेटा इंजन, पूरी तरह से ओपन-सोर्स मॉडल का उपयोग करके बनाया गया है, स्वाभाविक छवियों, चार्ट, दस्तावेजों और वीडियो में ~ 64.7 मिलियन नमूने उत्पन्न करता है-मालिकाना स्रोतों पर निर्भरता से बचने के दौरान विविधता का संवर्धन करता है।
मेटा एआई भी परिचय देता है पीएलएम -विडोबेंचमौजूदा बेंचमार्क द्वारा कैप्चर किए गए वीडियो समझ के पहलुओं का मूल्यांकन करने के लिए डिज़ाइन किया गया एक नया बेंचमार्क। इसमें फाइन-ग्रेन्ड एक्टिविटी रिकग्निशन (FGQA), स्मार्ट-ग्लास्स वीडियो QA (SGQA), क्षेत्र-आधारित डेंस कैप्शनिंग (RDCAP), और स्पैटियो-टेम्पोरल स्थानीयकरण (RTLOC) जैसे कार्य शामिल हैं। इन कार्यों को अस्थायी रूप से ग्राउंडेड और स्थानिक रूप से स्पष्ट तर्क में संलग्न होने के लिए मॉडल की आवश्यकता होती है।

अनुभवजन्य मूल्यांकन से पता चलता है कि पीएलएम मॉडल, विशेष रूप से 8 बी पैरामीटर पैमाने पर, 40+ छवि और वीडियो बेंचमार्क में प्रतिस्पर्धी रूप से प्रदर्शन करते हैं। वीडियो कैप्शनिंग में, पीएलएम खुले आधारों पर औसतन +39.8 साइडर का लाभ प्राप्त करता है। PLM-VideObench पर, 8B संस्करण FGQA जैसे संरचित कार्यों में मानव प्रदर्शन के साथ अंतर को बंद कर देता है और स्पैटो-टेम्पोरल स्थानीयकरण और घने कैप्शनिंग में बेहतर परिणाम दिखाता है। विशेष रूप से, सभी परिणाम बंद मॉडल से आसवन के बिना प्राप्त किए जाते हैं, खुले, पारदर्शी वीएलएम विकास की व्यवहार्यता को रेखांकित करते हैं।
सारांश में, पीएलएम प्रशिक्षण और दृष्टि-भाषा मॉडल का मूल्यांकन करने के लिए एक विधिपूर्वक कठोर और पूरी तरह से खुला ढांचा प्रदान करता है। इसकी रिलीज़ में न केवल मॉडल और कोड शामिल हैं, बल्कि ठीक-ठाक वीडियो समझ के लिए सबसे बड़ा क्यूरेट किया गया डेटासेट और एक बेंचमार्क सूट भी शामिल है जो पहले से अनिर्दिष्ट क्षमताओं को लक्षित करता है। पीएलएम को मल्टीमॉडल एआई में प्रजनन योग्य अनुसंधान के लिए एक नींव और खुली सेटिंग्स में विस्तृत दृश्य तर्क पर भविष्य के काम के लिए एक संसाधन के रूप में सेवा करने के लिए तैनात किया गया है।
यह रहा कागज़, नमूना और कोड। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
