Monday, April 21, 2025

मेटा एआई ने धारणा एनकोडर का परिचय दिया: एक बड़े पैमाने पर दृष्टि एनकोडर जो छवियों और वीडियो के लिए कई दृष्टि कार्यों में उत्कृष्टता प्राप्त करता है – Gadgets Solutions

-

सामान्य-उद्देश्य विज़न एनकोडर डिजाइन करने की चुनौती

जैसे -जैसे एआई सिस्टम तेजी से मल्टीमॉडल बढ़ता है, दृश्य धारणा मॉडल की भूमिका अधिक जटिल हो जाती है। विज़न एन्कोडर्स से न केवल वस्तुओं और दृश्यों को पहचानने के लिए, बल्कि कैप्शनिंग, प्रश्न उत्तर देने, ठीक-ठीक-ठीक मान्यता, दस्तावेज़ पार्सिंग और छवियों और वीडियो दोनों में स्थानिक तर्क जैसे कार्यों का समर्थन करने के लिए भी अपेक्षा की जाती है। मौजूदा मॉडल आम तौर पर विविध दिखावा उद्देश्यों पर निर्भर करते हैं-पुनर्प्राप्ति के लिए एक्टिविव लर्निंग, भाषा कार्यों के लिए कैप्शनिंग, और स्थानिक समझ के लिए स्व-पर्यवेक्षित तरीके। यह विखंडन स्केलेबिलिटी और मॉडल परिनियोजन को जटिल करता है, और कार्यों में प्रदर्शन में व्यापार-बंद का परिचय देता है।

जो एक महत्वपूर्ण चुनौती है वह एक एकीकृत विजन एनकोडर का डिज़ाइन है जो कार्य-विशिष्ट तरीकों से मेल खा सकता है या उससे अधिक हो सकता है, खुली दुनिया के परिदृश्यों में मजबूती से काम कर सकता है, और तरीकों से कुशलता से पैमाने पर काम कर सकता है।

एक एकीकृत समाधान: मेटा एआई की धारणा एनकोडर

मेटा एआई परिचय देता है धारणा एनकोडर (पीई)एक विज़न मॉडल परिवार ने एकल विपरीत दृष्टि-भाषा के उद्देश्य का उपयोग करके प्रशिक्षित किया और डाउनस्ट्रीम कार्यों के लिए अनुरूप संरेखण तकनीकों के साथ परिष्कृत किया। पीई पारंपरिक मल्टी-ऑब्जेक्टिव प्रीट्रेनिंग प्रतिमान से प्रस्थान करता है। इसके बजाय, यह दर्शाता है कि एक सावधानीपूर्वक ट्यून किए गए प्रशिक्षण नुस्खा और उपयुक्त संरेखण विधियों के साथ, अकेले विपरीत सीखने से अत्यधिक सामान्य दृश्य प्रतिनिधित्व हो सकता है।

धारणा एनकोडर तीन पैमानों में संचालित होता है- पेकोर्ब, पेकोरेल, और पेकोरग- 2 बी मापदंडों वाले सबसे बड़े (जी-स्केल) मॉडल के साथ। इन मॉडलों को छवि और वीडियो इनपुट दोनों के लिए सामान्य-उद्देश्य एनकोडर के रूप में कार्य करने के लिए डिज़ाइन किया गया है, जो वर्गीकरण, पुनर्प्राप्ति और मल्टीमॉडल तर्क में मजबूत प्रदर्शन की पेशकश करता है।

मेटा एआई ने धारणा एनकोडर का परिचय दिया: एक बड़े पैमाने पर दृष्टि एनकोडर जो छवियों और वीडियो के लिए कई दृष्टि कार्यों में उत्कृष्टता प्राप्त करता है
 – Gadgets Solutions

प्रशिक्षण दृष्टिकोण और वास्तुकला

पीई का प्रीट्रेनिंग एक दो-चरण प्रक्रिया का अनुसरण करता है। पहले चरण में बड़े पैमाने पर क्यूरेटेड इमेज-टेक्स्ट डेटासेट (5.4 बी जोड़े) पर मजबूत विपरीत सीखना शामिल है, जहां कई वास्तुशिल्प और प्रशिक्षण संवर्द्धन सटीकता और मजबूती दोनों में सुधार करते हैं। इनमें प्रगतिशील रिज़ॉल्यूशन स्केलिंग, बड़े बैच के आकार (131K तक), मेमने ऑप्टिमाइज़र का उपयोग, 2 डी रस्सी स्थिति एन्कोडिंग, ट्यून्ड ऑगमेंटेशन और नकाबपोश नियमितीकरण शामिल हैं।

दूसरा चरण एक का लाभ उठाकर वीडियो समझ का परिचय देता है वीडियो डेटा इंजन यह उच्च गुणवत्ता वाले वीडियो-पाठ जोड़े को संश्लेषित करता है। इस पाइपलाइन में धारणा भाषा मॉडल (पीएलएम), फ्रेम-स्तरीय विवरण और मेटाडेटा से कैप्शन शामिल हैं, जिन्हें तब लामा 3.3 का उपयोग करके संक्षेपित किया गया है। ये सिंथेटिक एनोटेशन एक ही छवि एनकोडर को फ्रेम औसत के माध्यम से वीडियो कार्यों के लिए ठीक-ठीक ट्यून करने की अनुमति देते हैं।

एक एकल विपरीत उद्देश्य का उपयोग करने के बावजूद, पीई में मध्यवर्ती परतों में वितरित सामान्य-उद्देश्य अभ्यावेदन हैं। इन्हें एक्सेस करने के लिए, मेटा दो संरेखण रणनीतियों का परिचय देता है:

  • भाषा संरेखण दृश्य प्रश्न के उत्तर और कैप्शनिंग जैसे कार्यों के लिए।
  • स्थानिक संरेखण SAM2 के माध्यम से आत्म-दूरी और स्थानिक पत्राचार आसवन का उपयोग करते हुए, ट्रैकिंग, ट्रैकिंग और गहराई के अनुमान के लिए।

तौर -तरीकों के पार अनुभवजन्य प्रदर्शन

पीई विज़न बेंचमार्क की एक विस्तृत श्रृंखला में मजबूत शून्य-शॉट सामान्यीकरण को प्रदर्शित करता है। छवि वर्गीकरण पर, Pecoreg मैच करता है या बड़े निजी डेटासेट जैसे JFT-3B पर प्रशिक्षित मालिकाना मॉडल से अधिक है। यह प्राप्त करता है:

  • 86.6% इमेजनेट-वैल पर,
  • 92.6% इमेजनेट-एडवर्सरियल पर,
  • 88.2% पूर्ण ऑब्जेक्टनेट सेट पर,
  • Inaturalist, Food101 और ऑक्सफोर्ड फूल सहित ठीक-ठीक दाने वाले डेटासेट पर प्रतिस्पर्धी परिणाम।

वीडियो कार्यों में, पीई शून्य-शॉट वर्गीकरण और पुनर्प्राप्ति बेंचमार्क पर अत्याधुनिक प्रदर्शन को प्राप्त करता है, जो केवल 22 मीटर सिंथेटिक वीडियो-कैप्शन जोड़े पर प्रशिक्षित किए जाने के दौरान इंटर्नवाइडो 2 और सिग्लिप 2-जी-ओप्ट को बेहतर बनाता है। फ़्रेमों में सरल औसत पूलिंग का उपयोग-टेम्पोरल ध्यान के बजाय-उस आर्किटेक्चरल सादगी को दर्शाता है, जब अच्छी तरह से संरेखित प्रशिक्षण डेटा के साथ जोड़ा जाता है, अभी भी उच्च गुणवत्ता वाले वीडियो अभ्यावेदन का उत्पादन कर सकता है।

एक एब्लेशन अध्ययन से पता चलता है कि वीडियो डेटा इंजन का प्रत्येक घटक प्रदर्शन में सार्थक रूप से योगदान देता है। वर्गीकरण में +3.9% का सुधार और छवि-केवल आधार रेखाओं पर पुनर्प्राप्ति में +11.1% सिंथेटिक वीडियो डेटा की उपयोगिता को उजागर करता है, यहां तक ​​कि मामूली पैमाने पर भी।

निष्कर्ष

धारणा एनकोडर एक तकनीकी रूप से सम्मोहक प्रदर्शन प्रदान करता है जो एक एकल विपरीत उद्देश्य, यदि देखभाल के साथ लागू किया जाता है और विचारशील संरेखण रणनीतियों के साथ जोड़ा जाता है, तो सामान्य-प्रयोजन दृष्टि एनकोडर बनाने के लिए पर्याप्त है। पीई न केवल अपने संबंधित डोमेन में विशेष मॉडल से मेल खाता है, बल्कि एक एकीकृत और स्केलेबल दृष्टिकोण के साथ ऐसा करता है।

पीई की रिलीज़, अपने कोडबेस और पीई वीडियो डेटासेट के साथ, अनुसंधान समुदाय को मल्टीमॉडल एआई सिस्टम के निर्माण के लिए एक प्रतिलिपि प्रस्तुत करने योग्य और कुशल नींव प्रदान करती है। जैसा कि दृश्य तर्क कार्य जटिलता और गुंजाइश में बढ़ते हैं, पीई अधिक एकीकृत और मजबूत दृश्य समझ की ओर एक मार्ग प्रदान करता है।


इसकी जाँच पड़ताल करो कागज, मॉडल, कोड और डेटासेट। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »