मस्तिष्क में भाषा प्रसंस्करण इसके स्वाभाविक रूप से जटिल, बहुआयामी और संदर्भ-निर्भर प्रकृति के कारण एक चुनौती प्रस्तुत करता है। मनोचिकित्सकों ने डोमेन के लिए अच्छी तरह से परिभाषित प्रतीकात्मक विशेषताओं और प्रक्रियाओं का निर्माण करने का प्रयास किया है, जैसे कि भाषण विश्लेषण के लिए फोनमेस और वाक्यविन्यास संरचनाओं के लिए भाग-के-भाषण इकाइयों। कुछ क्रॉस-डोमेन इंटरैक्शन को स्वीकार करने के बावजूद, अनुसंधान ने नियंत्रित प्रयोगात्मक जोड़तोड़ के माध्यम से अलगाव में प्रत्येक भाषाई उपक्षेत्र को मॉडलिंग करने पर ध्यान केंद्रित किया है। यह विभाजन-और-विजेता रणनीति सीमाओं को दिखाती है, क्योंकि प्राकृतिक भाषा प्रसंस्करण और औपचारिक मनोचिकित्सा सिद्धांतों के बीच एक महत्वपूर्ण अंतर सामने आया है। ये मॉडल और सिद्धांत भाषाई विश्लेषण के स्तरों के भीतर और भीतर होने वाले सूक्ष्म, गैर-रैखिक, संदर्भ-निर्भर इंटरैक्शन को पकड़ने के लिए संघर्ष करते हैं।
एलएलएम में हाल के अग्रिमों ने नाटकीय रूप से संवादी भाषा प्रसंस्करण, सारांश और पीढ़ी में सुधार किया है। ये मॉडल लिखित पाठ के वाक्य रचना, अर्थ और व्यावहारिक गुणों को संभालने और ध्वनिक रिकॉर्डिंग से भाषण को पहचानने में उत्कृष्टता प्राप्त करते हैं। मल्टीमॉडल, एंड-टू-एंड मॉडल प्राकृतिक वार्तालापों के दौरान भाषण और शब्द-स्तरीय भाषाई आयामों में निरंतर श्रवण इनपुट को बदलने के लिए एक एकीकृत ढांचा प्रदान करके पाठ-केवल मॉडल पर एक महत्वपूर्ण सैद्धांतिक उन्नति का प्रतिनिधित्व करते हैं। पारंपरिक दृष्टिकोणों के विपरीत, ये गहरे ध्वनिक-से-भाषण-से-भाषा मॉडल बहुआयामी वेक्टरियल अभ्यावेदन में स्थानांतरित हो जाते हैं, जहां भाषण और भाषा के सभी तत्व सरल कंप्यूटिंग इकाइयों की आबादी में निरंतर वैक्टर में सीधे उद्देश्यों को अनुकूलित करके एम्बेडेड होते हैं।
हिब्रू विश्वविद्यालय, Google अनुसंधान, प्रिंसटन विश्वविद्यालय, मास्ट्रिच विश्वविद्यालय, मैसाचुसेट्स जनरल हॉस्पिटल और हार्वर्ड मेडिकल स्कूल, न्यूयॉर्क यूनिवर्सिटी स्कूल ऑफ मेडिसिन और हार्वर्ड यूनिवर्सिटी के शोधकर्ताओं ने एक एकीकृत कम्प्यूटेशनल ढांचा प्रस्तुत किया है जो मानव मस्तिष्क में रोजमर्रा की बातचीत के तंत्रिका आधार की जांच करने के लिए ध्वनिक, भाषण और शब्द-स्तरीय भाषाई संरचनाओं को जोड़ता है। उन्होंने प्राकृतिक भाषण उत्पादन के 100 घंटे में तंत्रिका संकेतों को रिकॉर्ड करने के लिए इलेक्ट्रोकोर्टिकोोग्राफी का उपयोग किया और खुले अंत में वास्तविक जीवन की बातचीत में लगे प्रतिभागियों के रूप में विस्तृत किया। टीम ने निम्न-स्तरीय ध्वनिक, मध्य-स्तरीय भाषण, और एक मल्टीमॉडल स्पीच-टू-टेक्स्ट मॉडल से प्रासंगिक शब्द एम्बेडिंग जैसे विभिन्न एम्बेडिंग निकाली, जिसे व्हिस्पर कहा जाता है। उनका मॉडल पहले से अनदेखी बातचीत के घंटों में भाषा प्रसंस्करण पदानुक्रम के प्रत्येक स्तर पर तंत्रिका गतिविधि की भविष्यवाणी करता है।
कानाफूसी ध्वनिक-से-भाषण-से-भाषा मॉडल के आंतरिक कामकाज को दैनिक बातचीत के दौरान तंत्रिका गतिविधि की भविष्यवाणी करने और भविष्यवाणी करने के लिए जांच की जाती है। प्रत्येक शब्द के लिए मॉडल से तीन प्रकार के एम्बेडिंग निकाले जाते हैं, जो मरीजों को बोलते हैं या सुनते हैं: श्रवण इनपुट परत से ध्वनिक एम्बेडिंग, अंतिम भाषण एनकोडर परत से भाषण एम्बेडिंग, और डिकोडर की अंतिम परतों से भाषा एम्बेडिंग। प्रत्येक एम्बेडिंग प्रकार के लिए, इलेक्ट्रोड-वार एन्कोडिंग मॉडल का निर्माण भाषण उत्पादन और समझ के दौरान तंत्रिका गतिविधि के लिए एम्बेडिंग को मैप करने के लिए किया जाता है। एन्कोडिंग मॉडल मानव मस्तिष्क गतिविधि और मॉडल के आंतरिक जनसंख्या कोड के बीच एक उल्लेखनीय संरेखण दिखाते हैं, जो संवादी डेटा में सैकड़ों हजारों शब्दों में तंत्रिका प्रतिक्रियाओं की सटीक भविष्यवाणी करते हैं।
कानाफूसी मॉडल के ध्वनिक, भाषण और भाषा एम्बेडिंग पूरे कॉर्टिकल भाषा नेटवर्क में भाषण उत्पादन और समझ के दौरान सैकड़ों हजारों शब्दों में तंत्रिका गतिविधि के लिए असाधारण भविष्य कहनेवाला सटीकता दिखाते हैं। भाषण उत्पादन के दौरान, एक पदानुक्रमित प्रसंस्करण देखा जाता है, जहां आर्टिकुलेटरी क्षेत्रों (PRECG, POSTCG, STG) को भाषण एम्बेडिंग द्वारा बेहतर भविष्यवाणी की जाती है, जबकि उच्च-स्तरीय भाषा क्षेत्र (IFG, PMTG, AG) भाषा एम्बेडिंग के साथ संरेखित होते हैं। एन्कोडिंग मॉडल अस्थायी विशिष्टता दिखाते हैं, जिसमें प्रदर्शन के दौरान शब्द की शुरुआत से पहले 300ms से अधिक का प्रदर्शन होता है और समझ के दौरान 300ms की शुरुआत के बाद 300ms, भाषण एम्बेडिंग के साथ अवधारणात्मक और कलात्मक क्षेत्रों में गतिविधि की बेहतर भविष्यवाणी होती है और उच्च-क्रम भाषा क्षेत्रों में उत्कृष्टता प्राप्त होती है।
सारांश में, ध्वनिक-से-भाषण-से-भाषा मॉडल प्राकृतिक भाषा प्रसंस्करण के तंत्रिका आधार की जांच के लिए एक एकीकृत कम्प्यूटेशनल ढांचा प्रदान करता है। यह एकीकृत दृष्टिकोण सांख्यिकीय सीखने और उच्च-आयामी एम्बेडिंग रिक्त स्थान के आधार पर गैर-प्रतीकात्मक मॉडल की ओर एक प्रतिमान बदलाव है। जैसा कि ये मॉडल प्राकृतिक भाषण को बेहतर ढंग से संसाधित करने के लिए विकसित होते हैं, संज्ञानात्मक प्रक्रियाओं के साथ उनके संरेखण में समान रूप से सुधार हो सकता है। GPT-4O जैसे कुछ उन्नत मॉडल भाषण और पाठ के साथ-साथ दृश्य मोडलिटी को शामिल करते हैं, जबकि अन्य मानव भाषण उत्पादन की नकल करने वाले सन्निहित आर्टिक्यूलेशन सिस्टम को एकीकृत करते हैं। इन मॉडलों का तेजी से सुधार एक एकीकृत भाषाई प्रतिमान के लिए एक बदलाव का समर्थन करता है जो भाषा अधिग्रहण में उपयोग-आधारित सांख्यिकीय सीखने की भूमिका पर जोर देता है क्योंकि यह वास्तविक जीवन के संदर्भों में भौतिक है।
चेक आउट कागज, और Google ब्लॉग। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।