Monday, April 21, 2025

NVIDIA AI बस खुला कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल – Gadgets Solutions

-

कृत्रिम बुद्धिमत्ता के दायरे में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से स्थानांतरित और अनुवाद कर सकते हैं, महत्वपूर्ण चुनौतियों को प्रस्तुत करते हैं। इन चुनौतियों में विविध भाषाई बारीकियों का प्रबंधन करना, उच्च सटीकता बनाए रखना, कम विलंबता सुनिश्चित करना और विभिन्न उपकरणों में कुशलतापूर्वक मॉडल को तैनात करना शामिल है।

इन चुनौतियों का समाधान करने के लिए, NVIDIA AI के पास दो मॉडल हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC-BY-4.0 लाइसेंस के तहत जारी, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय के भीतर नवाचार को प्रोत्साहित करते हैं।

तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर FastConformer पर आधारित है, जो कुशलता से ऑडियो सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित , , और (विराम चिह्न और पूंजीकरण), मॉडल के आउटपुट का मार्गदर्शन करें। कैनरी 1 बी फ्लैश मॉडल में 32 एनकोडर परतें और 4 डिकोडर लेयर शामिल हैं, कुल 883 मिलियन पैरामीटर हैं, जबकि कैनरी 180 मीटर फ्लैश मॉडल में 17 एनकोडर परतें और 4 डिकोडर परतें होती हैं, जिनमें 182 मिलियन पैरामीटर होते हैं। यह डिज़ाइन विभिन्न भाषाओं और कार्यों के लिए स्केलेबिलिटी और अनुकूलनशीलता सुनिश्चित करता है। ​

प्रदर्शन मेट्रिक्स से संकेत मिलता है कि कैनरी 1 बी फ्लैश मॉडल वास्तविक समय प्रसंस्करण को सक्षम करने के लिए, खुले एएसआर लीडरबोर्ड डेटासेट पर 1000 आरटीएफएक्स से अधिक की गति को प्राप्त करता है। अंग्रेजी स्वचालित भाषण मान्यता (ASR) कार्यों में, यह Librispeech स्वच्छ डेटासेट पर 1.48% का एक शब्द त्रुटि दर (WER) और Librispeech अन्य डेटासेट पर 2.87% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.36%, स्पेनिश के लिए 2.69% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.47% प्राप्त करता है। स्वचालित भाषण अनुवाद (एएसटी) कार्यों में, मॉडल अंग्रेजी के लिए जर्मन के लिए 32.27 के ब्लू स्कोर के साथ मजबूत प्रदर्शन को प्रदर्शित करता है, अंग्रेजी के लिए 22.6 स्पेनिश के लिए, और 41.22 अंग्रेजी के लिए फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर। ​

NVIDIA AI बस खुला कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल
 – Gadgets Solutions
मार्च 20 2025 तक डेटा

छोटा कैनरी 180 मीटर फ्लैश मॉडल भी प्रभावशाली परिणाम देता है, जिसमें 1200 आरटीएफएक्स को पार करने की गति होती है। यह लिब्रिस्पेच क्लीन डेटासेट पर 1.87% और अंग्रेजी एएसआर के लिए लाइब्रेसेच अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल रिकॉर्ड जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.75% है। एएसटी कार्यों में, यह अंग्रेजी के लिए जर्मन के लिए 28.18 के 28.18, अंग्रेजी के लिए स्पेनिश के लिए 20.47 और अंग्रेजी के लिए 36.66 को फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर फ्रेंच के लिए 36.66 प्राप्त करता है। ​

दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टाइमस्टैम्पिंग का समर्थन करते हैं, ऑडियो और टेक्स्ट के बीच सटीक संरेखण की आवश्यकता वाले अनुप्रयोगों में उनकी उपयोगिता को बढ़ाते हैं। उनके कॉम्पैक्ट आकार उन्हें ऑन-डिवाइस परिनियोजन के लिए उपयुक्त बनाते हैं, जो ऑफ़लाइन प्रसंस्करण को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी मजबूती अनुवाद कार्यों के दौरान कम मतिभ्रम की ओर ले जाती है, जिससे अधिक विश्वसनीय आउटपुट सुनिश्चित होता है। CC-BY-4.0 लाइसेंस के तहत ओपन-सोर्स रिलीज समुदाय द्वारा वाणिज्यिक उपयोग और आगे के विकास को प्रोत्साहित करता है।

अंत में, एनवीडिया की कैनरी 1 बी और 180 मीटर फ्लैश मॉडल की ओपन-सोर्सिंग बहुभाषी भाषण मान्यता और अनुवाद में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करती है। उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताएं, और ऑन-डिवाइस परिनियोजन के लिए अनुकूलनशीलता क्षेत्र में कई मौजूदा चुनौतियों का पता लगाती है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDIA न केवल AI अनुसंधान को आगे बढ़ाने के लिए अपनी प्रतिबद्धता को प्रदर्शित करता है, बल्कि डेवलपर्स और संगठनों को अधिक समावेशी और कुशल संचार उपकरण बनाने के लिए भी सशक्त बनाता है।


चेक आउट कैनरी 1 बी नमूना और पीतचटकी 180 मीटर फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »