DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ता डॉल्फिन का परिचय देते हैं: एक बहुभाषी स्वचालित भाषण मान्यता ASR मॉडल पूर्वी भाषाओं और बोलियों के लिए अनुकूलित है – Gadgets Solutions

स्वचालित भाषण मान्यता (ASR) प्रौद्योगिकियां काफी उन्नत हुई हैं, फिर भी उल्लेखनीय असमानताएं विविध भाषाओं को सटीक रूप से पहचानने की उनकी क्षमता में बनी हुई हैं। पश्चिमी समकक्षों की तुलना में पूर्वी भाषाओं को संसाधित करते समय प्रमुख ASR सिस्टम, जैसे कि Openai’s Whisper, ने प्रदर्शन अंतराल का प्रदर्शन किया। यह विसंगति बहुभाषी क्षेत्रों में मूर्त चुनौतियों को प्रस्तुत करती है, विशेष रूप से उन लोगों की विशेषता है जो कई बोलियों और भाषाई विविधताओं की विशेषता है, जो विशेष रूप से पूर्वी भाषाओं के अनुरूप परिष्कृत बहुभाषी एएसआर प्रणालियों के लिए आवश्यकता को रेखांकित करते हैं।

DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ताओं ने डॉल्फिन की शुरुआत की है, जो एक व्यापक बहुभाषी स्वचालित भाषण मान्यता मॉडल है जो एक विस्तारित कानाफूसी वास्तुकला पर बनाया गया है, जो पूर्वी भाषाओं और बोलियों के एक व्यापक स्पेक्ट्रम को समायोजित करने के लिए अनुकूलित है। डॉल्फिन दोनों मालिकाना डेटासेट और सार्वजनिक रूप से सुलभ डेटासेट दोनों को एकीकृत करके वर्तमान बहुभाषी एएसआर मॉडल में पहचाने जाने वाली प्रमुख सीमाओं को प्रभावी ढंग से संबोधित करता है। मॉडल पूर्वी एशिया, दक्षिण एशिया, दक्षिण पूर्व एशिया और मध्य पूर्व से 40 पूर्वी भाषाओं का समर्थन करता है, साथ ही साथ चीनी की 22 अलग -अलग बोलियाँ भी।

DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ता डॉल्फिन का परिचय देते हैं: एक बहुभाषी स्वचालित भाषण मान्यता ASR मॉडल पूर्वी भाषाओं और बोलियों के लिए अनुकूलित है
– Gadgets Solutions

डॉल्फिन ध्यान-आधारित तंत्र के साथ कनेक्शनिस्ट टेम्पोरल वर्गीकरण (CTC) के संयोजन के लिए एक हाइब्रिड ASR दृष्टिकोण को नियोजित करता है। इसकी वास्तुकला में एक ई-ब्रैंचफॉर्मर एनकोडर और एक ट्रांसफार्मर डिकोडर शामिल है, जो विविध भाषाओं में जटिल भाषाई पैटर्न की व्याख्या करने के लिए मॉडल की क्षमता को काफी हद तक बढ़ाता है। डॉल्फिन एक दोहरे-स्तरीय भाषा टोकनकरण प्रणाली का भी उपयोग करता है, जो सामान्य भाषा कोड को क्षेत्र-विशिष्ट बोली टोकन से अलग करता है। यह तंत्र मान्यता सटीकता और संकल्प में सुधार करता है, विशेष रूप से चीनी जैसी बोली-गहन भाषाओं के लिए। इसके अतिरिक्त, डॉल्फिन ने इनपुट अनुक्रम की लंबाई को कुशलता से कम करने के लिए 4 × सब्सक्रिप्लिंग लेयर को शामिल किया है, जो मान्यता सटीकता से समझौता किए बिना कम्प्यूटेशनल गति और प्रशिक्षण प्रभावशीलता को बढ़ाता है।

प्रायोगिक मूल्यांकन फुसफुसाते मॉडल के सापेक्ष बहुभाषी भाषण मान्यता सटीकता में डॉल्फिन के चिह्नित सुधारों को प्रदर्शित करता है। उदाहरण के लिए, डॉल्फिन के छोटे मॉडल ने बेस मॉडल की तुलना में शब्द त्रुटि दर (WER) को लगभग 24.5% तक कम कर दिया, जिससे मध्यम और बड़े वेरिएंट में और अधिक वृद्धिशील सुधार हुए। विशेष रूप से, डॉल्फिन बेस मॉडल ने 31.8% का औसत WER प्राप्त किया, विशेष रूप से व्हिस्पर के बड़े-V3 मॉडल को बेहतर ढंग से बेहतर बनाया, जिसने एक ही मूल्यांकन बेंचमार्क में 52.3% की औसत WER दर्ज की। केस्पीच सहित बोली-केंद्रित डेटासेट पर किए गए आकलन ने डॉल्फिन की क्षमता को लगातार जटिल भाषाई विविधताओं को संभालने के लिए पुष्टि की, प्रदर्शन वृद्धि के साथ मॉडल आकार में वृद्धि के साथ सकारात्मक रूप से सहसंबंधित।

अनुसंधान टीम ने डॉल्फिन बेस और छोटे मॉडल को सार्वजनिक रूप से अपाचे 2.0 लाइसेंस के तहत जारी किया, साथ ही संबद्ध निष्कर्ष कोड के साथ। डॉल्फिन के प्रशिक्षण ने एक व्यापक डेटासेट का उपयोग किया, जिसमें 21.2 मिलियन घंटे की ऑडियो रिकॉर्डिंग शामिल है, जिसमें खुली डेटासेट जैसे कि कॉमन वॉयस, रीज़ोनस्पीच और गिगस्पीच 2 से प्राप्त 7.4 मिलियन घंटे शामिल हैं, जिससे मजबूतता और प्रतिकृति सुनिश्चित होती है।

सारांश में, डॉल्फिन बहुभाषी एएसआर तकनीक में एक महत्वपूर्ण प्रगति का गठन करता है, जो पूर्वी भाषा में प्रचलित सीमाओं को व्यवस्थित रूप से संबोधित करता है और कार्यप्रणाली डेटा एकीकरण, परिष्कृत वास्तुशिल्प ढांचे और खुले-स्रोत प्रसार के लिए प्रतिबद्धता के माध्यम से बोली मान्यता है। यह काम बहुभाषी एएसआर अनुसंधान में भविष्य के विकास के लिए एक प्रभावशाली बेंचमार्क सेट करता है, भाषाई समावेशिता और सिस्टम सामान्यीकरण को आगे बढ़ाता है।

चेक आउट कागज, डॉल्फिन-स्मॉल-मॉडल और डॉल्फिन-बेस-मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US