Tuesday, April 8, 2025

DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ता डॉल्फिन का परिचय देते हैं: एक बहुभाषी स्वचालित भाषण मान्यता ASR मॉडल पूर्वी भाषाओं और बोलियों के लिए अनुकूलित है – Gadgets Solutions

-

स्वचालित भाषण मान्यता (ASR) प्रौद्योगिकियां काफी उन्नत हुई हैं, फिर भी उल्लेखनीय असमानताएं विविध भाषाओं को सटीक रूप से पहचानने की उनकी क्षमता में बनी हुई हैं। पश्चिमी समकक्षों की तुलना में पूर्वी भाषाओं को संसाधित करते समय प्रमुख ASR सिस्टम, जैसे कि Openai’s Whisper, ने प्रदर्शन अंतराल का प्रदर्शन किया। यह विसंगति बहुभाषी क्षेत्रों में मूर्त चुनौतियों को प्रस्तुत करती है, विशेष रूप से उन लोगों की विशेषता है जो कई बोलियों और भाषाई विविधताओं की विशेषता है, जो विशेष रूप से पूर्वी भाषाओं के अनुरूप परिष्कृत बहुभाषी एएसआर प्रणालियों के लिए आवश्यकता को रेखांकित करते हैं।

DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ताओं ने डॉल्फिन की शुरुआत की है, जो एक व्यापक बहुभाषी स्वचालित भाषण मान्यता मॉडल है जो एक विस्तारित कानाफूसी वास्तुकला पर बनाया गया है, जो पूर्वी भाषाओं और बोलियों के एक व्यापक स्पेक्ट्रम को समायोजित करने के लिए अनुकूलित है। डॉल्फिन दोनों मालिकाना डेटासेट और सार्वजनिक रूप से सुलभ डेटासेट दोनों को एकीकृत करके वर्तमान बहुभाषी एएसआर मॉडल में पहचाने जाने वाली प्रमुख सीमाओं को प्रभावी ढंग से संबोधित करता है। मॉडल पूर्वी एशिया, दक्षिण एशिया, दक्षिण पूर्व एशिया और मध्य पूर्व से 40 पूर्वी भाषाओं का समर्थन करता है, साथ ही साथ चीनी की 22 अलग -अलग बोलियाँ भी।

DataOcean AI और Tsinghua विश्वविद्यालय के शोधकर्ता डॉल्फिन का परिचय देते हैं: एक बहुभाषी स्वचालित भाषण मान्यता ASR मॉडल पूर्वी भाषाओं और बोलियों के लिए अनुकूलित है
 – Gadgets Solutions

डॉल्फिन ध्यान-आधारित तंत्र के साथ कनेक्शनिस्ट टेम्पोरल वर्गीकरण (CTC) के संयोजन के लिए एक हाइब्रिड ASR दृष्टिकोण को नियोजित करता है। इसकी वास्तुकला में एक ई-ब्रैंचफॉर्मर एनकोडर और एक ट्रांसफार्मर डिकोडर शामिल है, जो विविध भाषाओं में जटिल भाषाई पैटर्न की व्याख्या करने के लिए मॉडल की क्षमता को काफी हद तक बढ़ाता है। डॉल्फिन एक दोहरे-स्तरीय भाषा टोकनकरण प्रणाली का भी उपयोग करता है, जो सामान्य भाषा कोड को क्षेत्र-विशिष्ट बोली टोकन से अलग करता है। यह तंत्र मान्यता सटीकता और संकल्प में सुधार करता है, विशेष रूप से चीनी जैसी बोली-गहन भाषाओं के लिए। इसके अतिरिक्त, डॉल्फिन ने इनपुट अनुक्रम की लंबाई को कुशलता से कम करने के लिए 4 × सब्सक्रिप्लिंग लेयर को शामिल किया है, जो मान्यता सटीकता से समझौता किए बिना कम्प्यूटेशनल गति और प्रशिक्षण प्रभावशीलता को बढ़ाता है।

प्रायोगिक मूल्यांकन फुसफुसाते मॉडल के सापेक्ष बहुभाषी भाषण मान्यता सटीकता में डॉल्फिन के चिह्नित सुधारों को प्रदर्शित करता है। उदाहरण के लिए, डॉल्फिन के छोटे मॉडल ने बेस मॉडल की तुलना में शब्द त्रुटि दर (WER) को लगभग 24.5% तक कम कर दिया, जिससे मध्यम और बड़े वेरिएंट में और अधिक वृद्धिशील सुधार हुए। विशेष रूप से, डॉल्फिन बेस मॉडल ने 31.8% का औसत WER प्राप्त किया, विशेष रूप से व्हिस्पर के बड़े-V3 मॉडल को बेहतर ढंग से बेहतर बनाया, जिसने एक ही मूल्यांकन बेंचमार्क में 52.3% की औसत WER दर्ज की। केस्पीच सहित बोली-केंद्रित डेटासेट पर किए गए आकलन ने डॉल्फिन की क्षमता को लगातार जटिल भाषाई विविधताओं को संभालने के लिए पुष्टि की, प्रदर्शन वृद्धि के साथ मॉडल आकार में वृद्धि के साथ सकारात्मक रूप से सहसंबंधित।

अनुसंधान टीम ने डॉल्फिन बेस और छोटे मॉडल को सार्वजनिक रूप से अपाचे 2.0 लाइसेंस के तहत जारी किया, साथ ही संबद्ध निष्कर्ष कोड के साथ। डॉल्फिन के प्रशिक्षण ने एक व्यापक डेटासेट का उपयोग किया, जिसमें 21.2 मिलियन घंटे की ऑडियो रिकॉर्डिंग शामिल है, जिसमें खुली डेटासेट जैसे कि कॉमन वॉयस, रीज़ोनस्पीच और गिगस्पीच 2 से प्राप्त 7.4 मिलियन घंटे शामिल हैं, जिससे मजबूतता और प्रतिकृति सुनिश्चित होती है।

सारांश में, डॉल्फिन बहुभाषी एएसआर तकनीक में एक महत्वपूर्ण प्रगति का गठन करता है, जो पूर्वी भाषा में प्रचलित सीमाओं को व्यवस्थित रूप से संबोधित करता है और कार्यप्रणाली डेटा एकीकरण, परिष्कृत वास्तुशिल्प ढांचे और खुले-स्रोत प्रसार के लिए प्रतिबद्धता के माध्यम से बोली मान्यता है। यह काम बहुभाषी एएसआर अनुसंधान में भविष्य के विकास के लिए एक प्रभावशाली बेंचमार्क सेट करता है, भाषाई समावेशिता और सिस्टम सामान्यीकरण को आगे बढ़ाता है।


चेक आउट कागज, डॉल्फिन-स्मॉल-मॉडल और डॉल्फिन-बेस-मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »