कृत्रिम बुद्धिमत्ता के दायरे में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से स्थानांतरित और अनुवाद कर सकते हैं, महत्वपूर्ण चुनौतियों को प्रस्तुत करते हैं। इन चुनौतियों में विविध भाषाई बारीकियों का प्रबंधन करना, उच्च सटीकता बनाए रखना, कम विलंबता सुनिश्चित करना और विभिन्न उपकरणों में कुशलतापूर्वक मॉडल को तैनात करना शामिल है।
इन चुनौतियों का समाधान करने के लिए, NVIDIA AI के पास दो मॉडल हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC-BY-4.0 लाइसेंस के तहत जारी, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय के भीतर नवाचार को प्रोत्साहित करते हैं।
तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर FastConformer पर आधारित है, जो कुशलता से ऑडियो सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित
प्रदर्शन मेट्रिक्स से संकेत मिलता है कि कैनरी 1 बी फ्लैश मॉडल वास्तविक समय प्रसंस्करण को सक्षम करने के लिए, खुले एएसआर लीडरबोर्ड डेटासेट पर 1000 आरटीएफएक्स से अधिक की गति को प्राप्त करता है। अंग्रेजी स्वचालित भाषण मान्यता (ASR) कार्यों में, यह Librispeech स्वच्छ डेटासेट पर 1.48% का एक शब्द त्रुटि दर (WER) और Librispeech अन्य डेटासेट पर 2.87% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.36%, स्पेनिश के लिए 2.69% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.47% प्राप्त करता है। स्वचालित भाषण अनुवाद (एएसटी) कार्यों में, मॉडल अंग्रेजी के लिए जर्मन के लिए 32.27 के ब्लू स्कोर के साथ मजबूत प्रदर्शन को प्रदर्शित करता है, अंग्रेजी के लिए 22.6 स्पेनिश के लिए, और 41.22 अंग्रेजी के लिए फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर।

छोटा कैनरी 180 मीटर फ्लैश मॉडल भी प्रभावशाली परिणाम देता है, जिसमें 1200 आरटीएफएक्स को पार करने की गति होती है। यह लिब्रिस्पेच क्लीन डेटासेट पर 1.87% और अंग्रेजी एएसआर के लिए लाइब्रेसेच अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल रिकॉर्ड जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 4.75% है। एएसटी कार्यों में, यह अंग्रेजी के लिए जर्मन के लिए 28.18 के 28.18, अंग्रेजी के लिए स्पेनिश के लिए 20.47 और अंग्रेजी के लिए 36.66 को फ्रेंच के लिए फ्लेयर्स टेस्ट सेट पर फ्रेंच के लिए 36.66 प्राप्त करता है।
दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टाइमस्टैम्पिंग का समर्थन करते हैं, ऑडियो और टेक्स्ट के बीच सटीक संरेखण की आवश्यकता वाले अनुप्रयोगों में उनकी उपयोगिता को बढ़ाते हैं। उनके कॉम्पैक्ट आकार उन्हें ऑन-डिवाइस परिनियोजन के लिए उपयुक्त बनाते हैं, जो ऑफ़लाइन प्रसंस्करण को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी मजबूती अनुवाद कार्यों के दौरान कम मतिभ्रम की ओर ले जाती है, जिससे अधिक विश्वसनीय आउटपुट सुनिश्चित होता है। CC-BY-4.0 लाइसेंस के तहत ओपन-सोर्स रिलीज समुदाय द्वारा वाणिज्यिक उपयोग और आगे के विकास को प्रोत्साहित करता है।
अंत में, एनवीडिया की कैनरी 1 बी और 180 मीटर फ्लैश मॉडल की ओपन-सोर्सिंग बहुभाषी भाषण मान्यता और अनुवाद में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करती है। उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताएं, और ऑन-डिवाइस परिनियोजन के लिए अनुकूलनशीलता क्षेत्र में कई मौजूदा चुनौतियों का पता लगाती है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDIA न केवल AI अनुसंधान को आगे बढ़ाने के लिए अपनी प्रतिबद्धता को प्रदर्शित करता है, बल्कि डेवलपर्स और संगठनों को अधिक समावेशी और कुशल संचार उपकरण बनाने के लिए भी सशक्त बनाता है।
चेक आउट कैनरी 1 बी नमूना और पीतचटकी 180 मीटर फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।