स्वचालित भाषण मान्यता (ASR) प्रौद्योगिकियां काफी उन्नत हुई हैं, फिर भी उल्लेखनीय असमानताएं विविध भाषाओं को सटीक रूप से पहचानने की उनकी क्षमता में बनी हुई हैं। पश्चिमी समकक्षों की तुलना में पूर्वी भाषाओं को संसाधित करते समय प्रमुख ASR सिस्टम, जैसे कि Openai’s Whisper, ने प्रदर्शन अंतराल का प्रदर्शन किया। यह विसंगति बहुभाषी क्षेत्रों में मूर्त चुनौतियों को प्रस्तुत करती है, विशेष रूप से उन लोगों की विशेषता है जो कई बोलियों और भाषाई विविधताओं की विशेषता है, जो विशेष रूप से पूर्वी भाषाओं के अनुरूप परिष्कृत बहुभाषी एएसआर प्रणालियों के लिए आवश्यकता को रेखांकित करते हैं।
DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ताओं ने डॉल्फिन की शुरुआत की है, जो एक व्यापक बहुभाषी स्वचालित भाषण मान्यता मॉडल है जो एक विस्तारित कानाफूसी वास्तुकला पर बनाया गया है, जो पूर्वी भाषाओं और बोलियों के एक व्यापक स्पेक्ट्रम को समायोजित करने के लिए अनुकूलित है। डॉल्फिन दोनों मालिकाना डेटासेट और सार्वजनिक रूप से सुलभ डेटासेट दोनों को एकीकृत करके वर्तमान बहुभाषी एएसआर मॉडल में पहचाने जाने वाली प्रमुख सीमाओं को प्रभावी ढंग से संबोधित करता है। मॉडल पूर्वी एशिया, दक्षिण एशिया, दक्षिण पूर्व एशिया और मध्य पूर्व से 40 पूर्वी भाषाओं का समर्थन करता है, साथ ही साथ चीनी की 22 अलग -अलग बोलियाँ भी।

डॉल्फिन ध्यान-आधारित तंत्र के साथ कनेक्शनिस्ट टेम्पोरल वर्गीकरण (CTC) के संयोजन के लिए एक हाइब्रिड ASR दृष्टिकोण को नियोजित करता है। इसकी वास्तुकला में एक ई-ब्रैंचफॉर्मर एनकोडर और एक ट्रांसफार्मर डिकोडर शामिल है, जो विविध भाषाओं में जटिल भाषाई पैटर्न की व्याख्या करने के लिए मॉडल की क्षमता को काफी हद तक बढ़ाता है। डॉल्फिन एक दोहरे-स्तरीय भाषा टोकनकरण प्रणाली का भी उपयोग करता है, जो सामान्य भाषा कोड को क्षेत्र-विशिष्ट बोली टोकन से अलग करता है। यह तंत्र मान्यता सटीकता और संकल्प में सुधार करता है, विशेष रूप से चीनी जैसी बोली-गहन भाषाओं के लिए। इसके अतिरिक्त, डॉल्फिन ने इनपुट अनुक्रम की लंबाई को कुशलता से कम करने के लिए 4 × सब्सक्रिप्लिंग लेयर को शामिल किया है, जो मान्यता सटीकता से समझौता किए बिना कम्प्यूटेशनल गति और प्रशिक्षण प्रभावशीलता को बढ़ाता है।
प्रायोगिक मूल्यांकन फुसफुसाते मॉडल के सापेक्ष बहुभाषी भाषण मान्यता सटीकता में डॉल्फिन के चिह्नित सुधारों को प्रदर्शित करता है। उदाहरण के लिए, डॉल्फिन के छोटे मॉडल ने बेस मॉडल की तुलना में शब्द त्रुटि दर (WER) को लगभग 24.5% तक कम कर दिया, जिससे मध्यम और बड़े वेरिएंट में और अधिक वृद्धिशील सुधार हुए। विशेष रूप से, डॉल्फिन बेस मॉडल ने 31.8% का औसत WER प्राप्त किया, विशेष रूप से व्हिस्पर के बड़े-V3 मॉडल को बेहतर ढंग से बेहतर बनाया, जिसने एक ही मूल्यांकन बेंचमार्क में 52.3% की औसत WER दर्ज की। केस्पीच सहित बोली-केंद्रित डेटासेट पर किए गए आकलन ने डॉल्फिन की क्षमता को लगातार जटिल भाषाई विविधताओं को संभालने के लिए पुष्टि की, प्रदर्शन वृद्धि के साथ मॉडल आकार में वृद्धि के साथ सकारात्मक रूप से सहसंबंधित।

अनुसंधान टीम ने डॉल्फिन बेस और छोटे मॉडल को सार्वजनिक रूप से अपाचे 2.0 लाइसेंस के तहत जारी किया, साथ ही संबद्ध निष्कर्ष कोड के साथ। डॉल्फिन के प्रशिक्षण ने एक व्यापक डेटासेट का उपयोग किया, जिसमें 21.2 मिलियन घंटे की ऑडियो रिकॉर्डिंग शामिल है, जिसमें खुली डेटासेट जैसे कि कॉमन वॉयस, रीज़ोनस्पीच और गिगस्पीच 2 से प्राप्त 7.4 मिलियन घंटे शामिल हैं, जिससे मजबूतता और प्रतिकृति सुनिश्चित होती है।
सारांश में, डॉल्फिन बहुभाषी एएसआर तकनीक में एक महत्वपूर्ण प्रगति का गठन करता है, जो पूर्वी भाषा में प्रचलित सीमाओं को व्यवस्थित रूप से संबोधित करता है और कार्यप्रणाली डेटा एकीकरण, परिष्कृत वास्तुशिल्प ढांचे और खुले-स्रोत प्रसार के लिए प्रतिबद्धता के माध्यम से बोली मान्यता है। यह काम बहुभाषी एएसआर अनुसंधान में भविष्य के विकास के लिए एक प्रभावशाली बेंचमार्क सेट करता है, भाषाई समावेशिता और सिस्टम सामान्यीकरण को आगे बढ़ाता है।
चेक आउट कागज, डॉल्फिन-स्मॉल-मॉडल और डॉल्फिन-बेस-मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
