Saturday, April 19, 2025

एआई को सिखाने के लिए कि इंसानों की तरह लगता है – Gadgets Solutions

-

चाहे आप अपने दोषपूर्ण कार इंजन की आवाज़ का वर्णन कर रहे हों या अपने पड़ोसी की बिल्ली की तरह हो, अपनी आवाज के साथ ध्वनियों की नकल करना एक अवधारणा को रिले करने का एक उपयोगी तरीका हो सकता है जब शब्द ट्रिक नहीं करते हैं।

वोकल इमिटेशन आपके द्वारा देखी गई किसी चीज़ को संप्रेषित करने के लिए एक त्वरित चित्र को डूडलिंग के समकक्ष है – सिवाय इसके कि एक छवि को चित्रित करने के लिए पेंसिल का उपयोग करने के बजाय, आप एक ध्वनि को व्यक्त करने के लिए अपने मुखर पथ का उपयोग करते हैं। यह मुश्किल लग सकता है, लेकिन यह कुछ ऐसा है जिसे हम सभी सहज रूप से करते हैं: इसे अपने लिए अनुभव करने के लिए, एक एम्बुलेंस सायरन, एक कौवा, या घंटी की आवाज़ की आवाज को प्रतिबिंबित करने के लिए अपनी आवाज का उपयोग करने का प्रयास करें।

हम कैसे संवाद करते हैं, के संज्ञानात्मक विज्ञान से प्रेरित होकर, एमआईटी कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता प्रयोगशाला (CSAIL) के शोधकर्ताओं ने एक एआई प्रणाली विकसित की है जो बिना किसी प्रशिक्षण के मानव जैसी मुखर नकल का उत्पादन कर सकती है, और पहले कभी भी “एक मानव मुखर छाप” सुनी “।

इसे प्राप्त करने के लिए, शोधकर्ताओं ने अपने सिस्टम को उत्पादन और व्याख्या करने के लिए कहा जैसे हम करते हैं जैसे हम करते हैं। उन्होंने मानव मुखर पथ के एक मॉडल का निर्माण करके शुरू किया, जो अनुकरण करता है कि वॉयस बॉक्स से कंपन गले, जीभ और होंठों द्वारा कैसे आकार लेते हैं। फिर, उन्होंने इस मुखर ट्रैक्ट मॉडल को नियंत्रित करने के लिए एक संज्ञानात्मक रूप से प्रेरित एआई एल्गोरिथ्म का उपयोग किया और यह नकल का उत्पादन करने के लिए, संदर्भ-विशिष्ट तरीकों को ध्यान में रखते हुए, जो मनुष्य ध्वनि संवाद करने के लिए चुनते हैं।

मॉडल प्रभावी रूप से दुनिया से कई ध्वनियों को ले सकता है और उनमें से एक मानव जैसी नकल उत्पन्न कर सकता है-जिसमें पत्ते की सरसराहट, एक सांप का फुफकार, और एक निकट एम्बुलेंस सायरन जैसे शोर शामिल हैं। उनके मॉडल को मानव मुखर नकल से वास्तविक दुनिया की ध्वनियों का अनुमान लगाने के लिए रिवर्स में भी चलाया जा सकता है, इसी तरह कि कैसे कुछ कंप्यूटर विजन सिस्टम स्केच के आधार पर उच्च गुणवत्ता वाली छवियों को पुनः प्राप्त कर सकते हैं। उदाहरण के लिए, मॉडल एक बिल्ली के “म्याऊ” बनाम “हिस” की नकल करने वाले मानव की ध्वनि को सही ढंग से अलग कर सकता है।

भविष्य में, यह मॉडल संभावित रूप से ध्वनि डिजाइनरों के लिए अधिक सहज ज्ञान युक्त “नकली-आधारित” इंटरफेस, आभासी वास्तविकता में अधिक मानव जैसे एआई पात्रों और यहां तक ​​कि छात्रों को नई भाषाओं को सीखने में मदद करने के तरीके का नेतृत्व कर सकता है।

सह-लीड लेखक-MIT CSAIL PHD के छात्र कार्तिक चंद्र SM ’23 और Karima Ma, और स्नातक शोधकर्ता मैथ्यू Caren-ध्यान दें कि कंप्यूटर ग्राफिक्स शोधकर्ताओं ने लंबे समय से मान्यता दी है कि यथार्थवाद शायद ही कभी दृश्य अभिव्यक्ति का अंतिम लक्ष्य है। उदाहरण के लिए, एक अमूर्त पेंटिंग या एक बच्चे का क्रेयॉन डूडल एक तस्वीर के रूप में अभिव्यंजक हो सकता है।

“पिछले कुछ दशकों में, स्केचिंग एल्गोरिदम में अग्रिमों ने कलाकारों के लिए नए उपकरण, एआई और कंप्यूटर विजन में प्रगति और यहां तक ​​कि मानव अनुभूति की गहरी समझ के लिए प्रेरित किया है,” चंद्रा ने कहा। “उसी तरह से कि एक स्केच एक छवि का एक अमूर्त, गैर-फोटोरियलिस्टिक प्रतिनिधित्व है, हमारी विधि अमूर्त, गैर-फोनो को कैप्चर करती हैयथार्थवादी तरीके मानव उन आवाज़ों को व्यक्त करते हैं जो वे सुनते हैं। यह हमें श्रवण अमूर्तता की प्रक्रिया के बारे में सिखाता है। ”

एआई को सिखाने के लिए कि इंसानों की तरह लगता है
 – Gadgets Solutions

वीडियो चलाएं

“इस परियोजना का लक्ष्य समझना और कम्प्यूटेशनल रूप से मॉडल मुखर नकल करना है, जिसे हम दृश्य डोमेन में स्केचिंग के समकक्ष श्रवण के समतुल्य होने के लिए लेते हैं,” कैरेन कहते हैं।

नकल की कला, तीन भागों में

टीम ने मानव मुखर नकल की तुलना करने के लिए मॉडल के तीन तेजी से बारीक संस्करण विकसित किए। सबसे पहले, उन्होंने एक बेसलाइन मॉडल बनाया, जिसका उद्देश्य केवल उन नकल को उत्पन्न करना था जो वास्तविक दुनिया की आवाज़ों के समान थे-लेकिन यह मॉडल मानव व्यवहार से बहुत अच्छी तरह से मेल नहीं खाता था।

शोधकर्ताओं ने तब एक दूसरा “संचार” मॉडल तैयार किया। कैरेन के अनुसार, यह मॉडल मानता है कि एक श्रोता के लिए ध्वनि के बारे में क्या विशिष्ट है। उदाहरण के लिए, आप संभवतः इसके इंजन की गड़गड़ाहट की नकल करके एक मोटरबोट की आवाज़ की नकल करेंगे, क्योंकि यह इसकी सबसे विशिष्ट श्रवण विशेषता है, भले ही यह ध्वनि का सबसे बड़ा पहलू नहीं है (तुलना में, पानी की छींटाकशी)। इस दूसरे मॉडल ने नकलें बनाईं जो बेसलाइन से बेहतर थीं, लेकिन टीम इसे और भी अधिक सुधारना चाहती थी।

उनकी विधि को एक कदम आगे बढ़ाने के लिए, शोधकर्ताओं ने मॉडल के लिए तर्क की एक अंतिम परत जोड़ी। चंद्रा कहते हैं, “मुखर नकलें आपके द्वारा लगाए गए प्रयासों की मात्रा के आधार पर अलग -अलग हो सकती हैं। यह उन ध्वनियों का उत्पादन करने के लिए समय और ऊर्जा खर्च करता है जो पूरी तरह से सटीक हैं।” शोधकर्ताओं का पूरा मॉडल बहुत तेजी से, जोर से, या उच्च या निम्न-पिच वाले उच्चारणों से बचने की कोशिश करके इसके लिए खाता है, जो लोगों को बातचीत में उपयोग करने की संभावना कम होती है। परिणाम: अधिक मानव-जैसी नकलें जो कई निर्णयों से मेल खाती हैं, जो मनुष्य एक ही ध्वनियों की नकल करते समय करते हैं।

इस मॉडल के निर्माण के बाद, टीम ने यह देखने के लिए एक व्यवहार प्रयोग किया कि क्या AI- या मानव-जनित मुखर नकल को मानव न्यायाधीशों द्वारा बेहतर माना जाता था। विशेष रूप से, प्रयोग में प्रतिभागियों ने सामान्य रूप से एआई मॉडल 25 प्रतिशत समय का समर्थन किया, और एक मोटरबोट की नकल के लिए 75 प्रतिशत और एक बंदूक की नकल के लिए 50 प्रतिशत।

अधिक अभिव्यंजक ध्वनि प्रौद्योगिकी की ओर

संगीत और कला के लिए प्रौद्योगिकी के बारे में भावुक, कैरेन ने कहा कि यह मॉडल कलाकारों को कम्प्यूटेशनल सिस्टम के लिए आवाज़ों को बेहतर ढंग से संवाद करने में मदद कर सकता है और फिल्म निर्माताओं और अन्य सामग्री रचनाकारों को एआई ध्वनियों को उत्पन्न करने में सहायता कर सकता है जो एक विशिष्ट संदर्भ के लिए अधिक बारीक हैं। यह एक संगीतकार को एक शोर डेटाबेस को तेजी से खोजने में सक्षम कर सकता है, जो एक शोर की नकल करके एक पाठ प्रॉम्प्ट का वर्णन करना मुश्किल है।

इस बीच, कैरेन, चंद्र, और एमए अन्य डोमेन में अपने मॉडल के निहितार्थ को देख रहे हैं, जिसमें भाषा का विकास, कैसे शिशु बात करना सीखते हैं, और यहां तक ​​कि तोते और गीतकारों जैसे पक्षियों में नकल व्यवहार भी।

टीम के पास अभी भी अपने मॉडल के वर्तमान पुनरावृत्ति के साथ काम करने के लिए काम है: यह कुछ व्यंजन के साथ संघर्ष करता है, जैसे “जेड”, जिसके कारण कुछ ध्वनियों के गलत छापें हुईं, जैसे मधुमक्खियों की गुलजार। वे अभी तक दोहरा नहीं सकते हैं कि कैसे मनुष्य भाषण, संगीत, या ध्वनियों की नकल करते हैं, जो कि दिल की धड़कन की तरह अलग -अलग भाषाओं में अलग -अलग नकल करते हैं।

स्टैनफोर्ड यूनिवर्सिटी लिंग्विस्टिक्स के प्रोफेसर रॉबर्ट हॉकिन्स का कहना है कि भाषा ओनोमैटोपोइया और उन शब्दों से भरी हुई है जो नकल करते हैं, लेकिन पूरी तरह से उन चीजों को दोहराते नहीं हैं जो वे वर्णित करते हैं, जैसे “म्याऊ” ध्वनि जो बहुत ही बेवजह ध्वनि का अनुमान लगाती है जो बिल्लियों को बनाती है। हॉकिन्स कहते हैं, “जो प्रक्रियाएं हमें एक वास्तविक बिल्ली की आवाज़ से मिलती हैं, जैसे कि ‘म्याऊ’ जैसे शब्द में फिजियोलॉजी, सामाजिक तर्क और भाषा के विकास में संचार के बीच जटिल अंतर के बारे में बहुत कुछ पता चलता है,” हॉकिन्स कहते हैं। “यह मॉडल उन प्रक्रियाओं के सिद्धांतों को औपचारिक और परीक्षण करने की दिशा में एक रोमांचक कदम प्रस्तुत करता है, यह दर्शाता है कि मानव मुखर पथ से दोनों भौतिक बाधाओं और संचार से सामाजिक दबावों को मुखर नकल के वितरण की व्याख्या करने के लिए आवश्यक है।”

Caren, Chandra, और Ma ने दो अन्य CSAIL सहयोगियों के साथ पेपर लिखा: जोनाथन रागन-केली, इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस एसोसिएट प्रोफेसर के एमआईटी विभाग, और जोशुआ टेनेनबाम, एमआईटी ब्रेन एंड कॉग्निटिव साइंसेज प्रोफेसर और सेंटर फॉर ब्रेन, माइंड्स और मशीन्स के सदस्य। उनके काम का समर्थन किया गया था, भाग में, हर्ट्ज फाउंडेशन और नेशनल साइंस फाउंडेशन द्वारा। इसे दिसंबर की शुरुआत में सिगग्राफ एशिया में प्रस्तुत किया गया था।

। रेंडरिंग (टी) सोर्स-फ़िल्टर मॉडल (टी) ह्यूमन वोकल ट्रैक्ट (टी) कार्तिक चंद्र (टी) करीमा मा (टी) मैथ्यू कैरेन (टी) जोनाथन रागन-केली (टी) जोशुआ टेनेनबाम

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »