प्रोग्रामर अब कंप्यूटर कोड को अधिक तेज़ी से उत्पन्न करने के लिए बड़े भाषा मॉडल (एलएलएम) का उपयोग कर सकते हैं। हालाँकि, यह केवल प्रोग्रामर के जीवन को आसान बनाता है यदि वह कोड प्रोग्रामिंग भाषा के नियमों का पालन करता है और कंप्यूटर को क्रैश करने का कारण नहीं बनता है।
एलएलएम यह सुनिश्चित करने के लिए कुछ तरीके मौजूद हैं कि वे जिस भी भाषा में पाठ पैदा कर रहे हैं, उसके नियमों के अनुरूप हैं, लेकिन इनमें से कई विधियाँ या तो मॉडल के इच्छित अर्थ को विकृत करती हैं या जटिल कार्यों के लिए संभव होने के लिए बहुत समय लेने वाली हैं।
एमआईटी और अन्य जगहों पर शोधकर्ताओं द्वारा विकसित एक नया दृष्टिकोण स्वचालित रूप से एक एलएलएम का मार्गदर्शन करता है जो पाठ उत्पन्न करता है जो प्रासंगिक भाषा के नियमों का पालन करता है, जैसे कि एक विशेष प्रोग्रामिंग भाषा, और त्रुटि-मुक्त भी है। उनकी विधि एक एलएलएम को आउटपुट की ओर प्रयासों को आवंटित करने की अनुमति देती है जो कि प्रक्रिया में जल्दी से अप्रभावी आउटपुट को त्यागते हुए मान्य और सटीक होने की सबसे अधिक संभावना है। यह संभाव्य दृष्टिकोण कम्प्यूटेशनल दक्षता को बढ़ाता है।
इन दक्षता लाभ के कारण, शोधकर्ताओं की वास्तुकला ने छोटे एलएलएम को आणविक जीव विज्ञान और रोबोटिक्स सहित कई वास्तविक दुनिया के उपयोग के मामलों के लिए सटीक, ठीक से संरचित आउटपुट उत्पन्न करने में बहुत बड़े मॉडल को बेहतर बनाने के लिए सक्षम किया।
लंबे समय में, यह नई आर्किटेक्चर एनएक्सपेर्ट्स को एआई-जनित सामग्री को नियंत्रित करने में मदद कर सकता है। उदाहरण के लिए, यह व्यवसायियों को SQL में जटिल प्रश्नों को लिखने की अनुमति दे सकता है, डेटाबेस हेरफेर के लिए एक भाषा, केवल प्राकृतिक भाषा संकेतों का उपयोग करके।
एमआईटी ग्रेजुएट छात्र और इस फ्रेमवर्क पर एक पेपर के सह-नेतृत्व लेखक जोओ लाउला कहते हैं, “इस काम में अनुसंधान से परे निहितार्थ हैं। यह प्रोग्रामिंग सहायकों, एआई-संचालित डेटा विश्लेषण और वैज्ञानिक खोज उपकरणों में सुधार कर सकता है, यह सुनिश्चित करके कि एआई-जनित आउटपुट उपयोगी और सही दोनों हैं,” इस ढांचे पर एक पेपर के एक पेपर के सह-नेतृत्व लेखक जोओ लोला कहते हैं।
LOULA, CO-LEAD AUTHORS BENJAMIN LEBRUN, Mila-Quebec Rartifial Intelliunial Institute में एक शोध सहायक, और Li Du, जॉन हॉपकिंस विश्वविद्यालय में एक स्नातक छात्र द्वारा कागज पर शामिल है; सह-सीनियर लेखक VIKASH MANSINGHKA ’05, MENG ’09, PHD ’09, एक प्रमुख शोध वैज्ञानिक और मस्तिष्क और संज्ञानात्मक विज्ञान के MIT विभाग में संभाव्य कंप्यूटिंग परियोजना के नेता; अलेक्जेंडर के। लेव एसएम ’20, येल विश्वविद्यालय में एक सहायक प्रोफेसर; टिम विएरा, एथ ज्यूरिख में एक पोस्टडॉक; और टिमोथी जे। ओ’डॉनेल, मैकगिल विश्वविद्यालय में एक एसोसिएट प्रोफेसर और एमआईएलए में एक कनाडा CIFAR AI अध्यक्ष, जिन्होंने अंतर्राष्ट्रीय टीम का नेतृत्व किया; साथ ही कई अन्य। अनुसंधान को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
संरचना और अर्थ लागू करना
LLMS द्वारा उत्पन्न संरचित पाठ को नियंत्रित करने के लिए एक सामान्य दृष्टिकोण में कंप्यूटर कोड के एक ब्लॉक की तरह एक संपूर्ण आउटपुट की जांच करना शामिल है, यह सुनिश्चित करने के लिए कि यह मान्य है और त्रुटि-मुक्त चलाएगा। यदि नहीं, तो उपयोगकर्ता को फिर से शुरू करना होगा, कम्प्यूटेशनल संसाधनों को रैकिंग करना चाहिए।
दूसरी ओर, एक प्रोग्रामर रास्ते में आउटपुट की जांच करना बंद कर सकता है। हालांकि यह कोड को प्रोग्रामिंग भाषा का पालन करता है और संरचनात्मक रूप से मान्य है, कोड को सही ढंग से सही करने से यह उपयोगकर्ता द्वारा इरादा किए गए अर्थ से बहाव का कारण बन सकता है, लंबे समय में इसकी सटीकता को नुकसान पहुंचाता है।
“यह अर्थ की तुलना में संरचना को लागू करने के लिए बहुत आसान है। हम जल्दी से जांच कर सकते हैं कि क्या कुछ सही प्रोग्रामिंग भाषा में है, लेकिन इसके अर्थ की जांच करने के लिए आपको कोड को निष्पादित करना होगा। हमारा काम इन विभिन्न प्रकार की जानकारी से निपटने के बारे में भी है,” लाउला कहते हैं।
शोधकर्ताओं के दृष्टिकोण में एलएलएम में इंजीनियरिंग ज्ञान शामिल है ताकि इसे सबसे होनहार आउटपुट की ओर बढ़ाया जा सके। ये आउटपुट एक उपयोगकर्ता द्वारा परिभाषित संरचनात्मक बाधाओं का पालन करने की अधिक संभावना है, और इसका अर्थ है कि उपयोगकर्ता का इरादा है।
“हम ऐसा करने के लिए एक एलएलएम को प्रशिक्षित करने की कोशिश नहीं कर रहे हैं। इसके बजाय, हम कुछ ज्ञान इंजीनियरिंग कर रहे हैं जो एक विशेषज्ञ के पास एलएलएम के ज्ञान के साथ इसे और संयोजन होगा, जो स्केलिंग के लिए एक बहुत अलग दृष्टिकोण प्रदान करता है, जितना कि आप गहरी शिक्षा में देखते हैं,” मंसिंघा कहते हैं।
वे अनुक्रमिक मोंटे कार्लो नामक एक तकनीक का उपयोग करके इसे पूरा करते हैं, जो एक एलएलएम से समानांतर पीढ़ी को एक दूसरे के साथ प्रतिस्पर्धा करने में सक्षम बनाता है। मॉडल गतिशील रूप से संसाधनों को समानांतर संगणना के विभिन्न धागों के लिए आवंटित करता है कि उनका आउटपुट कैसे दिखाई देता है।
प्रत्येक आउटपुट को एक वजन दिया जाता है जो यह दर्शाता है कि यह संरचनात्मक रूप से मान्य और शब्दार्थ सटीक होने की कितनी संभावना है। गणना में प्रत्येक चरण में, मॉडल उच्च वजन वाले लोगों पर ध्यान केंद्रित करता है और बाकी को बाहर फेंक देता है।
एक अर्थ में, यह ऐसा है जैसे एलएलएम के पास एक विशेषज्ञ है जो यह सुनिश्चित करने के लिए अपने कंधे पर देख रहा है कि यह प्रत्येक चरण में सही विकल्प बनाता है, जबकि इसे समग्र लक्ष्य पर ध्यान केंद्रित करते हुए। उपयोगकर्ता अपनी वांछित संरचना और अर्थ को निर्दिष्ट करता है, साथ ही आउटपुट की जांच कैसे करें, फिर शोधकर्ताओं की वास्तुकला बाकी को करने के लिए एलएलएम का मार्गदर्शन करती है।
“हमने कठिन गणित पर काम किया है, ताकि आप किसी भी प्रकार की बाधाओं को शामिल करना चाहते हैं, आप उचित वजन प्राप्त करने जा रहे हैं। अंत में, आपको सही उत्तर मिलता है,” लाउला कहते हैं।
छोटे मॉडल को बढ़ावा देना
अपने दृष्टिकोण का परीक्षण करने के लिए, उन्होंने चार प्रकार के आउटपुट उत्पन्न करने के साथ काम सौंपा एलएलएमएस में फ्रेमवर्क लागू किया: पायथन कोड, एसक्यूएल डेटाबेस क्वेरी, आणविक संरचनाएं, और एक रोबोट के लिए योजनाओं का पालन करने की योजना।
मौजूदा दृष्टिकोणों की तुलना में, शोधकर्ताओं की विधि ने कम गणना की आवश्यकता के दौरान अधिक सटीक प्रदर्शन किया।
उदाहरण के लिए, पायथन कोड जनरेशन में, शोधकर्ताओं की वास्तुकला ने एक छोटे, ओपन-सोर्स मॉडल को एक विशेष, वाणिज्यिक बंद-स्रोत मॉडल को बेहतर बनाने के लिए सक्षम किया जो इसके आकार से दोगुना से अधिक है।
“हम बहुत उत्साहित हैं कि हम इन छोटे मॉडलों को उनके वजन के ऊपर पंच करने की अनुमति दे सकते हैं,” लुला कहते हैं।
आगे बढ़ते हुए, शोधकर्ता एक समय में एक छोटे से टुकड़े को काम करने के बजाय उत्पन्न पाठ के बड़े हिस्से को नियंत्रित करने के लिए अपनी तकनीक का उपयोग करना चाहते हैं। वे सीखने के साथ अपनी विधि को भी संयोजित करना चाहते हैं, ताकि जैसे -जैसे वे एक मॉडल उत्पन्न करने वाले आउटपुट को नियंत्रित करते हैं, यह अधिक सटीक होना सीखता है।
लंबे समय में, इस परियोजना में गैर-तकनीकी उपयोगकर्ताओं के लिए व्यापक अनुप्रयोग हो सकते हैं। उदाहरण के लिए, इसे स्वचालित डेटा मॉडलिंग के लिए सिस्टम के साथ जोड़ा जा सकता है, और डेटाबेस के जेनेरिक मॉडल को क्वेरी किया जा सकता है।
दृष्टिकोण मशीन-असिस्टेड डेटा विश्लेषण प्रणालियों को भी सक्षम कर सकता है, जहां उपयोगकर्ता सॉफ़्टवेयर के साथ बातचीत कर सकता है जो डेटा के अर्थ और उपयोगकर्ता द्वारा पूछे गए प्रश्नों को सही ढंग से मॉडल करता है, Mansinghka कहते हैं।
“भाषाविज्ञान के मूलभूत प्रश्नों में से एक यह है कि कैसे शब्दों, वाक्यांशों और वाक्यों का अर्थ दुनिया के मॉडल में जमी हो सकता है, अर्थ और संदर्भ में अनिश्चितता और अस्पष्टता के लिए लेखांकन। एलएलएमएस, संभावित रूप से टोकेन अनुक्रमों की भविष्यवाणी करते हुए, इस समस्या का समाधान नहीं करता है। हमारे पेपर से पता चलता है कि यह संकीर्ण प्रतीकात्मक डोमेनिंग में है। भाषाविज्ञान, और कृत्रिम बुद्धिमत्ता को यह समझने की जरूरत है कि मशीनें दुनिया के बारे में कैसे संवाद कर सकती हैं जैसे हम करते हैं, ”ओ’डॉनेल कहते हैं।
यह शोध, कनाडा CIFAR AI CHAIRS कार्यक्रम द्वारा, और Siegel Family Foundation द्वारा Gift To Mit Siegel Family Quest For Intelling के माध्यम से वित्त पोषित है।
।