Tuesday, April 8, 2025

ओपन-qwen2vl से मिलें: एक पूरी तरह से खुला और गणना-कुशल मल्टीमॉडल बड़े भाषा मॉडल – Gadgets Solutions

-

मल्टीमॉडल बड़े भाषा मॉडल (एमएलएलएमएस) ने दृश्य और पाठीय तौर -तरीकों के एकीकरण को उन्नत किया है, जो छवि कैप्शनिंग, दृश्य प्रश्न उत्तर देने और दस्तावेज़ व्याख्या जैसे कार्यों में प्रगति को सक्षम करता है। हालांकि, इन मॉडलों की प्रतिकृति और आगे का विकास अक्सर पारदर्शिता की कमी से बाधित होता है। कई अत्याधुनिक MLLMS प्रशिक्षण कोड, डेटा क्यूरेशन मेथोडोलॉजी और प्रीट्रेनिंग डेटासेट सहित प्रमुख घटकों को जारी नहीं करते हैं। इसके अलावा, इन मॉडलों को प्रशिक्षित करने के लिए आवश्यक पर्याप्त कम्प्यूटेशनल संसाधन एक महत्वपूर्ण अवरोध पैदा करते हैं, विशेष रूप से सीमित बुनियादी ढांचे के साथ अकादमिक शोधकर्ताओं के लिए। पहुंच की यह कमी प्रजनन क्षमता को बाधित करती है और अनुसंधान समुदाय के भीतर नई तकनीकों के प्रसार को धीमा कर देती है।

यूसी सांता बारबरा, बाईडेंस और एनवीडिया के शोधकर्ता ओपन-क्वेन 2 वीएल, एक 2-बिलियन पैरामीटर मल्टीमॉडल बड़े भाषा मॉडल का परिचय देते हैं, जिसे लगभग 220 ए 100-40 जीपीयू घंटे का उपयोग करके 29 मिलियन छवि-पाठ जोड़े पर पूर्व-प्रशिक्षित किया गया है। यूसी सांता बारबरा, बाईडेंस और एनवीडिया रिसर्च के शोधकर्ताओं द्वारा सहयोगात्मक रूप से विकसित, ओपन-क्वेन 2 वीएल को एमएलएलएम अनुसंधान में प्रतिलिपि प्रस्तुत करने योग्यता और संसाधन बाधाओं को संबोधित करने के लिए डिज़ाइन किया गया है। परियोजना प्रशिक्षण कोडबेस, डेटा फ़िल्टरिंग स्क्रिप्ट, वेबडैटासेट-फॉर्मेटेड प्रेट्रिंग डेटा, और आधार और निर्देश-ट्यून्ड मॉडल चौकियों दोनों सहित ओपन-सोर्स संसाधनों का एक पूरा सूट प्रदान करती है। इस व्यापक रिलीज का उद्देश्य मल्टीमॉडल लर्निंग डोमेन में पारदर्शी प्रयोग और विधि विकास का समर्थन करना है।

ओपन-qwen2vl से मिलें: एक पूरी तरह से खुला और गणना-कुशल मल्टीमॉडल बड़े भाषा मॉडल
 – Gadgets Solutions

Open-Qwen2VL QWEN2.5-1.5B-Instruct LLM बैकबोन पर आधारित है, जो सिग्लिप-SO-400M विज़न एनकोडर के साथ मिलकर है। एक अनुकूली औसत-पूलिंग विजुअल प्रोजेक्टर, प्रीट्रेनिंग के दौरान 729 से 144 तक दृश्य टोकन की संख्या को कम करता है, जो कम्प्यूटेशनल दक्षता में सुधार करता है। पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) चरण के दौरान टोकन गिनती को 729 कर दिया जाता है। यह कम-से-उच्च रिज़ॉल्यूशन रणनीति संसाधन उपयोग के लिए अनुकूलन करते हुए छवि समझ क्षमताओं को बनाए रखती है।

प्रशिक्षण दक्षता को और बढ़ाने के लिए, ओपन-QWEN2VL मल्टीमॉडल अनुक्रम पैकिंग को लागू करता है, जिससे लगभग 4096 टोकन के अनुक्रमों में कई छवि-पाठ जोड़े के संयोजन की अनुमति मिलती है, जिससे पैडिंग और कम्प्यूटेशनल ओवरहेड को कम किया जाता है। विज़न एनकोडर पैरामीटर संसाधनों के संरक्षण के लिए प्रीट्रेनिंग के दौरान जमे हुए रहते हैं और डाउनस्ट्रीम प्रदर्शन में सुधार करने के लिए एसएफटी के दौरान वैकल्पिक रूप से अनफ्रोजेन हैं।

Open-Qwen2VL को Qwen2-VL में उपयोग किए जाने वाले टोकन काउंट के केवल 0.36% पर प्रशिक्षित किया जाता है, फिर भी कई बेंचमार्क में तुलनीय या बेहतर प्रदर्शन को प्रदर्शित करता है। मॉडल MMBench पर 80.9 का स्कोर प्राप्त करता है, और सीडबेंच (72.5), MMSTAR (49.7), और Mathvista (53.1) पर प्रतिस्पर्धी रूप से प्रदर्शन करता है। एब्लेशन स्टडीज से संकेत मिलता है कि एमएलएम-आधारित तकनीकों का उपयोग करके फ़िल्टर किए गए उच्च-गुणवत्ता वाली छवि-पाठ जोड़े के एक छोटे से सबसेट (5m नमूनों) को एकीकृत करने से औसत दर्जे का प्रदर्शन सुधार हो सकता है, जो वॉल्यूम पर डेटा गुणवत्ता के महत्व को उजागर करता है।

इसके अलावा, Open-Qwen2VL मजबूत कुछ-शॉट मल्टीमॉडल इन-संदर्भ सीखने की क्षमताओं को प्रदर्शित करता है। जब GQA और TextVQA जैसे डेटासेट पर मूल्यांकन किया जाता है, तो मॉडल 0-शॉट से 8-शॉट परिदृश्यों से 3% से 12% सटीकता लाभ दिखाता है। फाइन-ट्यूनिंग प्रदर्शन तराजू निर्देश ट्यूनिंग डेटासेट के आकार के साथ अनुमानित रूप से, प्रदर्शन लाभ के साथ मैमथ-वीएल -10 एम डेटासेट से 8 मीटर के उदाहरणों के साथ पठार।

Open-Qwen2VL मल्टीमॉडल बड़े भाषा मॉडल के प्रशिक्षण के लिए एक प्रतिलिपि प्रस्तुत करने योग्य और संसाधन-कुशल पाइपलाइन का परिचय देता है। खुलेपन और गणना आवश्यकताओं के संदर्भ में पूर्व मॉडल की सीमाओं को व्यवस्थित रूप से संबोधित करके, यह एमएलएलएम अनुसंधान में व्यापक भागीदारी को सक्षम बनाता है। मॉडल के डिज़ाइन विकल्प- कुशल विज़ुअल टोकन हैंडलिंग, मल्टीमॉडल अनुक्रम पैकिंग, और विवेकपूर्ण डेटा चयन सहित – क्षेत्र में योगदान करने के उद्देश्य से शैक्षणिक संस्थानों के लिए एक व्यवहार्य पथ को आगे बढ़ाते हैं। Open-Qwen2VL एक प्रतिलिपि प्रस्तुत करने योग्य बेसलाइन स्थापित करता है और विवश कम्प्यूटेशनल वातावरण के भीतर स्केलेबल, उच्च-प्रदर्शन MLLMs पर भविष्य के काम के लिए एक नींव प्रदान करता है।


चेक आउट कागज, मॉडल, डेटा और कोड। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »