टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम के विकास ने हाल के वर्षों में महत्वपूर्ण प्रगति देखी है, विशेष रूप से बड़े पैमाने पर तंत्रिका मॉडल के उदय के साथ। फिर भी, अधिकांश उच्च-निष्ठा प्रणाली मालिकाना एपीआई और वाणिज्यिक प्लेटफार्मों के पीछे बंद हैं। इस अंतर को संबोधित करते हुए, नारी लैब्स जारी किया है डीआइएअपाचे 2.0 लाइसेंस के तहत एक 1.6 बिलियन पैरामीटर टीटीएस मॉडल, जो कि इलेवनबैब और तिल जैसे बंद सिस्टम के लिए एक मजबूत ओपन-सोर्स विकल्प प्रदान करता है।
तकनीकी अवलोकन और मॉडल क्षमता
डीआईए को उच्च-निष्ठा भाषण संश्लेषण के लिए डिज़ाइन किया गया है, जिसमें एक ट्रांसफॉर्मर-आधारित वास्तुकला शामिल है जो कम्प्यूटेशनल दक्षता के साथ अभिव्यंजक प्रोसोडी मॉडलिंग को संतुलित करता है। मॉडल समर्थन करता है शून्य-शॉट वॉयस क्लोनिंगएक छोटे संदर्भ ऑडियो क्लिप से स्पीकर की आवाज को दोहराने के लिए इसे सक्षम करना। पारंपरिक प्रणालियों के विपरीत, जिन्हें प्रत्येक नए स्पीकर के लिए ठीक-ट्यूनिंग की आवश्यकता होती है, DIA रिट्रेनिंग के बिना आवाज़ों में प्रभावी ढंग से सामान्यीकृत करता है।
डीआईए की एक उल्लेखनीय तकनीकी विशेषता इसकी संश्लेषण करने की क्षमता है न ही मौखिक स्वरजैसे खांसी और हँसी। इन घटकों को आमतौर पर कई मानक टीटीएस प्रणालियों से बाहर रखा जाता है, फिर भी वे प्राकृतिक और प्रासंगिक समृद्ध ऑडियो उत्पन्न करने के लिए महत्वपूर्ण हैं। डीआईए मॉडल इन लगता है कि मूल रूप से, अधिक मानव-जैसे भाषण आउटपुट में योगदान देता है।
मॉडल भी समर्थन करता है वास्तविक समय संश्लेषणअनुकूलित अनुमान पाइपलाइनों के साथ, इसे मैकबुक सहित उपभोक्ता-ग्रेड उपकरणों पर संचालित करने की अनुमति देता है। यह प्रदर्शन विशेषता विशेष रूप से क्लाउड-आधारित GPU सर्वर पर भरोसा किए बिना कम विलंबता तैनाती की मांग करने वाले डेवलपर्स के लिए मूल्यवान है।
तैनाती और लाइसेंसिंग
Apache 2.0 लाइसेंस के तहत DIA की रिलीज़ वाणिज्यिक और शैक्षणिक दोनों उपयोग के लिए व्यापक लचीलापन प्रदान करती है। डेवलपर्स मॉडल को ठीक कर सकते हैं, इसके आउटपुट को अनुकूलित कर सकते हैं, या इसे लाइसेंसिंग बाधाओं के बिना बड़े वॉयस-आधारित सिस्टम में एकीकृत कर सकते हैं। प्रशिक्षण और निष्कर्ष पाइपलाइन पायथन में लिखी गई है और मानक ऑडियो प्रसंस्करण पुस्तकालयों के साथ एकीकृत है, जो गोद लेने के लिए बाधा को कम करती है।
मॉडल वेट सीधे गले लगाने वाले चेहरे के माध्यम से उपलब्ध हैं, और रिपॉजिटरी इनपुट टेक्स्ट-टू-ऑडियो पीढ़ी और वॉयस क्लोनिंग के उदाहरणों सहित, अनुमान के लिए एक स्पष्ट सेटअप प्रक्रिया प्रदान करता है। डिज़ाइन मॉड्यूलरिटी का पक्षधर है, जिससे वोकोडर्स, ध्वनिक मॉडल, या इनपुट प्रीप्रोसेसिंग जैसे घटकों को विस्तारित या अनुकूलित करना आसान हो जाता है।
तुलना और प्रारंभिक स्वागत
जबकि औपचारिक बेंचमार्क बड़े पैमाने पर प्रकाशित नहीं किए गए हैं, प्रारंभिक मूल्यांकन और सामुदायिक परीक्षणों से पता चलता है कि डीआईए तुलनात्मक रूप से प्रदर्शन करता है – यदि स्पीकर फिडेलिटी, ऑडियो स्पष्टता और अभिव्यंजक भिन्नता जैसे क्षेत्रों में मौजूदा वाणिज्यिक प्रणालियों के लिए अनुकूल नहीं है। गैर-मौखिक ध्वनि समर्थन और ओपन-सोर्स उपलब्धता का समावेश इसे अपने मालिकाना समकक्षों से अलग करता है।
अपनी रिलीज़ के बाद से, दीया ने ओपन-सोर्स एआई समुदाय के भीतर महत्वपूर्ण ध्यान आकर्षित किया है, जो जल्दी से फेस के ट्रेंडिंग मॉडल को गले लगाने के लिए शीर्ष रैंक तक पहुंच गया है। सामुदायिक प्रतिक्रिया सुलभ, उच्च-प्रदर्शन भाषण मॉडल की बढ़ती मांग पर प्रकाश डालती है, जिन्हें प्लेटफॉर्म निर्भरता के बिना ऑडिट, संशोधित और तैनात किया जा सकता है।
व्यापक निहितार्थ
डीआईए की रिहाई उन्नत भाषण प्रौद्योगिकियों को लोकतंत्रीकरण करने की दिशा में एक व्यापक आंदोलन के भीतर फिट बैठती है। चूंकि टीटीएस एप्लिकेशन का विस्तार होता है-एक्सेसिबिलिटी टूल्स और ऑडियोबुक से लेकर इंटरैक्टिव एजेंटों और गेम डेवलपमेंट तक- खुले, उच्च गुणवत्ता वाले वॉयस मॉडल की उपलब्धता तेजी से महत्वपूर्ण हो जाती है।
प्रयोज्य, प्रदर्शन और पारदर्शिता पर जोर देने के साथ डीआईए को जारी करके, नारी लैब्स टीटीएस अनुसंधान और विकास पारिस्थितिकी तंत्र में सार्थक योगदान देता है। मॉडल शून्य-शॉट वॉयस मॉडलिंग, मल्टी-स्पीकर संश्लेषण और वास्तविक समय ऑडियो पीढ़ी में भविष्य के काम के लिए एक मजबूत आधार रेखा प्रदान करता है।
निष्कर्ष
डीआईए ओपन-सोर्स टीटीएस स्पेस में एक परिपक्व और तकनीकी रूप से ध्वनि योगदान का प्रतिनिधित्व करता है। अभिव्यंजक, उच्च-गुणवत्ता वाले भाषण को संश्लेषित करने की इसकी क्षमता-जिसमें गैर-मौखिक ऑडियो शामिल हैं-शून्य-शॉट क्लोनिंग और स्थानीय परिनियोजन क्षमताओं के साथ संयुक्त, यह डेवलपर्स और शोधकर्ताओं के लिए एक व्यावहारिक और अनुकूलनीय उपकरण बनाती है। जैसे -जैसे क्षेत्र विकसित होता जा रहा है, डीआईए जैसे मॉडल अधिक खुले, लचीले और कुशल भाषण प्रणालियों को आकार देने में एक केंद्रीय भूमिका निभाएंगे।
इसकी जाँच पड़ताल करो गले लगाने के लिए मॉडल, गीथब पेज और डेमो। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
