स्टेप बाय स्टेप गाइड को टेक्स्ट को उच्च-गुणवत्ता वाले ऑडियो में परिवर्तित करने पर एक ओपन सोर्स टीटीएस मॉडल का उपयोग करके हगिंग फेस का उपयोग करना: पायथन में विस्तृत ऑडियो फाइल विश्लेषण और डायग्नोस्टिक टूल्स सहित – Gadgets Solutions

इस ट्यूटोरियल में, हम एक ओपन-सोर्स टेक्स्ट-टू-स्पीच (टीटीएस) मॉडल का उपयोग करके ऑडियो में टेक्स्ट को बदलने के लिए एक पूर्ण एंड-टू-एंड समाधान प्रदर्शित करते हैं। Coqui TTS लाइब्रेरी की क्षमताओं का लाभ उठाते हुए, ट्यूटोरियल आपको एक अत्याधुनिक TTS मॉडल (हमारे मामले में, “TTS_MODELS/EN/LJSPEECH/TACOTRON2-DDC”) के माध्यम से शुरू करता है, अपने इनपुट पाठ को संसाधित करता है, और परिणामी संश्लेषण को उच्च-योग्यता WAV ऑडियो फ़ाइल के रूप में सहेजता है। इसके अलावा, हम अवधि, नमूना दर, नमूना चौड़ाई और चैनल कॉन्फ़िगरेशन जैसे प्रमुख ऑडियो फ़ाइल विशेषताओं का विश्लेषण करने के लिए, वेव मॉड्यूल और संदर्भ प्रबंधकों सहित पायथन के ऑडियो प्रोसेसिंग टूल को एकीकृत करते हैं। यह चरण-दर-चरण गाइड शुरुआती और उन्नत डेवलपर्स को पूरा करने के लिए डिज़ाइन किया गया है जो समझना चाहते हैं कि पाठ से भाषण कैसे उत्पन्न करें और आउटपुट पर बुनियादी नैदानिक विश्लेषण करें।

PIP स्थापित TTS COQUI TTS लाइब्रेरी को स्थापित करता है, जिससे आप पाठ को उच्च गुणवत्ता वाले ऑडियो में बदलने के लिए ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल का लाभ उठाते हैं। यह सुनिश्चित करता है कि सभी आवश्यक निर्भरताएं आपके पायथन वातावरण में उपलब्ध हैं, जिससे आप विभिन्न टीटीएस कार्यात्मकताओं के साथ जल्दी से प्रयोग कर सकते हैं।

from TTS.api import TTS
import contextlib
import wave

हम आवश्यक मॉड्यूल आयात करते हैं: TTS API से TTS API से टेक्स्ट-टू-स्पीच सिंथेसिस के लिए हगिंग फेस मॉडल और बिल्ट-इन संदर्भ और वेव ऑडियो फाइलों को सुरक्षित रूप से खोलने और विश्लेषण करने के लिए वेव मॉड्यूल का उपयोग करते हुए।

def text_to_speech(text: str, output_path: str = "output.wav", use_gpu: bool = False):
    """
    Converts input text to speech and saves the result to an audio file.


    Parameters:
        text (str): The text to convert.
        output_path (str): Output WAV file path.
        use_gpu (bool): Use GPU for inference if available.
    """
    model_name = "tts_models/en/ljspeech/tacotron2-DDC"
   
    tts = TTS(model_name=model_name, progress_bar=True, gpu=use_gpu)
   
    tts.tts_to_file(text=text, file_path=output_path)
    print(f"Audio file generated successfully: {output_path}")

Text_to_speech फ़ंक्शन एक वैकल्पिक आउटपुट फ़ाइल पथ और एक GPU उपयोग ध्वज के साथ पाठ की एक स्ट्रिंग को स्वीकार करता है, और Coqui TTS मॉडल (“TTS_MODELS/EN/LJSPEECH/TACOTRON2-DDC” के रूप में निर्दिष्ट) का उपयोग करता है। सफल रूपांतरण पर, यह एक पुष्टिकरण संदेश को प्रिंट करता है जो दर्शाता है कि ऑडियो फ़ाइल कहां सहेजा गया है।

def analyze_audio(file_path: str):
    """
    Analyzes the WAV audio file and prints details about it.
   
    Parameters:
        file_path (str): The path to the WAV audio file.
    """
    with contextlib.closing(wave.open(file_path, 'rb')) as wf:
        frames = wf.getnframes()
        rate = wf.getframerate()
        duration = frames / float(rate)
        sample_width = wf.getsampwidth()
        channels = wf.getnchannels()
   
    print("\nAudio Analysis:")
    print(f" - Duration      : {duration:.2f} seconds")
    print(f" - Frame Rate    : {rate} frames per second")
    print(f" - Sample Width  : {sample_width} bytes")
    print(f" - Channels      : {channels}")

ANALYZE_AUDIO फ़ंक्शन एक निर्दिष्ट WAV फ़ाइल को खोलता है और पायथन के वेव मॉड्यूल का उपयोग करते हुए, अवधि, फ्रेम दर, नमूना चौड़ाई और चैनलों की संख्या जैसे प्रमुख ऑडियो पैरामीटर निकालता है। यह तब इन विवरणों को बड़े करीने से स्वरूपित सारांश में प्रिंट करता है, जिससे आपको संश्लेषित ऑडियो आउटपुट की तकनीकी विशेषताओं को सत्यापित और समझने में मदद मिलती है।

if __name__ == "__main__":
    sample_text = (
        "Marktechpost is an AI News Platform providing easy-to-consume, byte size updates in machine learning, deep learning, and data science research. Our vision is to showcase the hottest research trends in AI from around the world using our innovative method of search and discovery"
    )
   
    output_file = "output.wav"
    text_to_speech(sample_text, output_path=output_file)
   
    analyze_audio(output_file)

यदि __name__ == “__main__”: ब्लॉक सीधे निष्पादित होने पर स्क्रिप्ट के प्रवेश बिंदु के रूप में कार्य करता है। यह खंड एआई समाचार मंच का वर्णन करने वाले एक नमूना पाठ को परिभाषित करता है। Text_to_speech फ़ंक्शन को इस पाठ को “आउटपुट.डब्ल्यूएवी” नामक एक ऑडियो फ़ाइल में संश्लेषित करने के लिए कहा जाता है, और अंत में, ऑडियो के विस्तृत मापदंडों को प्रिंट करने के लिए विश्लेषण_एडियो फ़ंक्शन को लागू किया जाता है।

स्टेप बाय स्टेप गाइड को टेक्स्ट को उच्च-गुणवत्ता वाले ऑडियो में परिवर्तित करने पर एक ओपन सोर्स टीटीएस मॉडल का उपयोग करके हगिंग फेस का उपयोग करना: पायथन में विस्तृत ऑडियो फाइल विश्लेषण और डायग्नोस्टिक टूल्स सहित
– Gadgets Solutions

मुख्य कार्य आउटपुट

**COLAB पर साइड पेन से उत्पन्न ऑडियो डाउनलोड करें**

अंत में, कार्यान्वयन से पता चलता है कि परिणामी ऑडियो फ़ाइल पर नैदानिक विश्लेषण करते समय पाठ को ऑडियो में बदलने के लिए ओपन-सोर्स टीटीएस टूल और लाइब्रेरी को प्रभावी ढंग से कैसे दोहन किया जाए। पायथन की मजबूत ऑडियो प्रोसेसिंग क्षमताओं के साथ कोक्वि टीटीएस लाइब्रेरी के माध्यम से हगिंग फेस मॉडल को एकीकृत करके, आप एक व्यापक वर्कफ़्लो प्राप्त करते हैं जो भाषण को कुशलता से संश्लेषित करता है और इसकी गुणवत्ता और प्रदर्शन को सत्यापित करता है। चाहे आप संवादी एजेंटों का निर्माण करने का लक्ष्य रखते हैं, आवाज प्रतिक्रियाओं को स्वचालित करते हैं, या बस भाषण संश्लेषण की बारीकियों का पता लगाते हैं, यह ट्यूटोरियल एक ठोस आधार देता है जिसे आप आसानी से अनुकूलित और आवश्यकतानुसार विस्तार कर सकते हैं।

यह रहा कोलैब नोटबुक। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LightProf: एक हल्के एआई फ्रेमवर्क जो छोटे पैमाने पर भाषा मॉडल को ज्ञान ग्राफ़ (KGS) पर जटिल तर्क देने में सक्षम बनाता है, जो संरचित संकेतों का उपयोग कर रहा है – Gadgets Solutions

NVIDIA A रिलीज़ अल्ट्रालॉन्ग -8 बी का परिचय देता है: अल्ट्रा-लॉन्ग संदर्भ भाषा मॉडल की एक श्रृंखला जो पाठ के व्यापक अनुक्रमों को संसाधित करने के लिए डिज़ाइन की गई है (1M, 2M और 4M टोकन तक) – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US