NVIDIA AI बस खुला कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल – Gadgets Solutions

कृत्रिम बुद्धिमत्ता के दायरे में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से स्थानांतरित और अनुवाद कर सकते हैं, महत्वपूर्ण चुनौतियों को प्रस्तुत करते हैं। इन चुनौतियों में विविध भाषाई बारीकियों का प्रबंधन करना, उच्च सटीकता बनाए रखना, कम विलंबता सुनिश्चित करना और विभिन्न उपकरणों में कुशलतापूर्वक मॉडल को तैनात करना शामिल है।

इन चुनौतियों का समाधान करने के लिए, NVIDIA AI के पास दो मॉडल हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC-BY-4.0 लाइसेंस के तहत जारी, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय के भीतर नवाचार को प्रोत्साहित करते हैं।

तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर FastConformer पर आधारित है, जो कुशलता से ऑडियो सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित , , और (विराम चिह्न और पूंजीकरण), मॉडल के आउटपुट का मार्गदर्शन करें। कैनरी 1 बी फ्लैश मॉडल में 32 एनकोडर परतें और 4 डिकोडर लेयर शामिल हैं, कुल 883 मिलियन पैरामीटर हैं, जबकि कैनरी 180 मीटर फ्लैश मॉडल में 17 एनकोडर परतें और 4 डिकोडर परतें होती हैं, जिनमें 182 मिलियन पैरामीटर होते हैं। यह डिज़ाइन विभिन्न भाषाओं और कार्यों के लिए स्केलेबिलिटी और अनुकूलनशीलता सुनिश्चित करता है।

प्रदर्शन मेट्रिक्स से संकेत मिलता है कि कैनरी 1 बी फ्लैश मॉडल वास्तविक समय प्रसंस्करण को सक्षम करने के लिए, खुले एएसआर लीडरबोर्ड डेटासेट पर 1000 आरटीएफएक्स से अधिक की गति को प्राप्त करता है। अंग्रेजी स्वचालित भाषण मान्यता (ASR) कार्यों में, यह Librispeech स्वच्छ डेटासेट पर 1.48% का एक शब्द त्रुटि दर (WER) और Librispeech अन्य डेटासेट पर 2.87% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.36%, स्पेनिश के लिए 2.69% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.47% प्राप्त करता है। स्वचालित भाषण अनुवाद (एएसटी) कार्यों में, मॉडल अंग्रेजी के लिए जर्मन के लिए 32.27 के ब्लू स्कोर के साथ मजबूत प्रदर्शन को प्रदर्शित करता है, अंग्रेजी के लिए 22.6 स्पेनिश के लिए, और 41.22 अंग्रेजी के लिए फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर।

NVIDIA AI बस खुला कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल
– Gadgets Solutions — मार्च 20 2025 तक डेटा

छोटा कैनरी 180 मीटर फ्लैश मॉडल भी प्रभावशाली परिणाम देता है, जिसमें 1200 आरटीएफएक्स को पार करने की गति होती है। यह लिब्रिस्पेच क्लीन डेटासेट पर 1.87% और अंग्रेजी एएसआर के लिए लाइब्रेसेच अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल रिकॉर्ड जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.75% है। एएसटी कार्यों में, यह अंग्रेजी के लिए जर्मन के लिए 28.18 के 28.18, अंग्रेजी के लिए स्पेनिश के लिए 20.47 और अंग्रेजी के लिए 36.66 को फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर फ्रेंच के लिए 36.66 प्राप्त करता है।

दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टाइमस्टैम्पिंग का समर्थन करते हैं, ऑडियो और टेक्स्ट के बीच सटीक संरेखण की आवश्यकता वाले अनुप्रयोगों में उनकी उपयोगिता को बढ़ाते हैं। उनके कॉम्पैक्ट आकार उन्हें ऑन-डिवाइस परिनियोजन के लिए उपयुक्त बनाते हैं, जो ऑफ़लाइन प्रसंस्करण को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी मजबूती अनुवाद कार्यों के दौरान कम मतिभ्रम की ओर ले जाती है, जिससे अधिक विश्वसनीय आउटपुट सुनिश्चित होता है। CC-BY-4.0 लाइसेंस के तहत ओपन-सोर्स रिलीज समुदाय द्वारा वाणिज्यिक उपयोग और आगे के विकास को प्रोत्साहित करता है।

अंत में, एनवीडिया की कैनरी 1 बी और 180 मीटर फ्लैश मॉडल की ओपन-सोर्सिंग बहुभाषी भाषण मान्यता और अनुवाद में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करती है। उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताएं, और ऑन-डिवाइस परिनियोजन के लिए अनुकूलनशीलता क्षेत्र में कई मौजूदा चुनौतियों का पता लगाती है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDIA न केवल AI अनुसंधान को आगे बढ़ाने के लिए अपनी प्रतिबद्धता को प्रदर्शित करता है, बल्कि डेवलपर्स और संगठनों को अधिक समावेशी और कुशल संचार उपकरण बनाने के लिए भी सशक्त बनाता है।

चेक आउट कैनरी 1 बी नमूना और पीतचटकी 180 मीटर फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

NVIDIA AI बस खुला कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US