बड़े भाषा मॉडल परिष्कृत वेब-आधारित कार्यों को संभालने के लिए डिजिटल एजेंटों की एक नई लहर को शक्ति प्रदान कर रहे हैं। इन एजेंटों से अपेक्षा की जाती है कि वे उपयोगकर्ता निर्देशों की व्याख्या करें, इंटरफेस को नेविगेट करें, और कभी-कभी बदलते वातावरण में जटिल कमांड को निष्पादित करें। कठिनाई भाषा को समझने में नहीं है, लेकिन गतिशील संदर्भों के अनुकूल होने के दौरान उस समझ को सटीक, अनुक्रमित क्रियाओं में अनुवाद करने में है। लंबे समय तक-क्षितिज कार्यों के लिए सफलता जैसे कि बुकिंग यात्रा या विशिष्ट वेब डेटा को पुनः प्राप्त करना प्रत्येक क्रिया के साथ विकसित होने वाले चरणों के अनुक्रम को प्रबंधित करने पर निर्भर करता है। भाषा क्षमताओं में बड़ी प्रगति के बावजूद, एजेंट बनाना जो प्रत्येक चरण में प्रभावी रूप से योजना बना सकते हैं और अनुकूलित कर सकते हैं, एक अनसुलझी समस्या बनी हुई है।
ऐसे एजेंटों के निर्माण में व्यापक लक्ष्यों को एक्शनबल स्टेप्स में बनाना एक प्रमुख मुद्दा है। जब कोई उपयोगकर्ता अनुरोध करता है कि “इस GitHub परियोजना के शीर्ष योगदानकर्ता का पालन करें,” एजेंट को कमांड की व्याख्या करनी चाहिए और यह निर्धारित करना चाहिए कि योगदानकर्ता के अनुभाग में कैसे नेविगेट करें, संबंधित व्यक्ति की पहचान करें, और निम्नलिखित कार्रवाई शुरू करें। यह कार्य गतिशील वातावरण में और भी अधिक जटिल हो जाता है जहां सामग्री निष्पादन के बीच स्थानांतरित हो सकती है। एक स्पष्ट योजना और अद्यतन रणनीति के बिना, एजेंट असंगत निर्णय ले सकते हैं या पूरी तरह से विफल हो सकते हैं। प्रशिक्षण डेटा की कमी जो दिखाती है कि लंबे कार्यों की योजना और निष्पादित करने के तरीके को सही ढंग से कठिनाई की एक और परत जोड़ता है।
पहले, शोधकर्ताओं ने इन मुद्दों को उन मॉडलों के साथ संबोधित करने का प्रयास किया जो या तो एकल-एजेंट रणनीतियों पर निर्भर थे या कार्यों को निर्देशित करने के लिए सुदृढीकरण सीखने को लागू करते थे। सिंगल-एजेंट सिस्टम जैसे रिएक्ट ने तर्क और निष्पादन को मर्ज करने का प्रयास किया, लेकिन अक्सर लड़खड़ाया जाता है क्योंकि मॉडल एक ही बार में सोचने और अभिनय करने से अभिभूत था। सुदृढीकरण सीखने के दृष्टिकोण ने वादा दिखाया लेकिन पर्यावरण-विशिष्ट ट्यूनिंग के प्रति अस्थिर और अत्यधिक संवेदनशील साबित हुआ। इन विधियों के लिए प्रशिक्षण डेटा एकत्र करना वातावरण के साथ व्यापक बातचीत की आवश्यकता होती है, जिससे यह समय लेने वाला और पैमाने पर अव्यावहारिक हो जाता है। जब कार्यों ने मध्य-प्रक्रिया में बदलाव किया तो ये विधियां प्रदर्शन की स्थिरता बनाए रखने के लिए भी संघर्ष करती हैं।
यूसी बर्कले, टोक्यो विश्वविद्यालय और आईसीएसआई के शोधकर्ताओं ने एक नई योजना-और-एक्ट सिस्टम पेश किया। Apple, Nvidia, Microsoft और Intel जैसी कंपनियों ने काम का समर्थन किया। यह ढांचा कार्य योजना और निष्पादन को दो मॉड्यूल में विभाजित करता है: एक योजनाकार और एक निष्पादक। योजनाकार को उपयोगकर्ता के अनुरोध के आधार पर एक संरचित योजना बनाने का काम सौंपा जाता है, अनिवार्य रूप से यह रेखांकित करता है कि क्या कदम उठाने की आवश्यकता है। निष्पादक तब प्रत्येक चरण को पर्यावरण-विशिष्ट कार्यों में अनुवाद करता है। इन जिम्मेदारियों को अलग करके, सिस्टम योजनाकार को रणनीति पर ध्यान केंद्रित करने की अनुमति देता है, जबकि निष्पादक निष्पादन को संभालता है, दोनों घटकों की विश्वसनीयता में सुधार करता है। यह मॉड्यूलर डिज़ाइन पिछले दृष्टिकोणों से एक महत्वपूर्ण बदलाव को चिह्नित करता है।
योजना-और-एक्ट के पीछे की कार्यप्रणाली विस्तृत है और स्केलेबल प्रशिक्षण पर बहुत अधिक ध्यान केंद्रित करती है। चूंकि मानव-एनोटेटेड प्लानिंग डेटा सीमित है, इसलिए शोधकर्ताओं ने एक सिंथेटिक डेटा जनरेशन पाइपलाइन की शुरुआत की। उन्होंने सिम्युलेटेड एजेंटों से एक्शन प्रक्षेपवक्र एकत्र करके शुरू किया- क्लिक, इनपुट और प्रतिक्रियाओं के अनुक्रम। बड़े भाषा मॉडल ने तब इन प्रक्षेपवक्रों का विश्लेषण किया, जो वास्तविक परिणामों में उच्च स्तर की योजनाओं को फिर से संगठित करने के लिए था। उदाहरण के लिए, एक योजना शीर्ष योगदानकर्ता की पहचान करने वाले को निर्दिष्ट कर सकती है, जबकि इससे जुड़ी क्रियाओं में “योगदानकर्ताओं” टैब पर क्लिक करना और परिणामी HTML को पार्स करना शामिल है। टीम ने 10,000 अतिरिक्त सिंथेटिक योजनाओं के साथ अपने डेटासेट का विस्तार किया और फिर विफलता विश्लेषण के आधार पर 5,000 अधिक लक्षित योजनाएं उत्पन्न कीं। इस सिंथेटिक प्रशिक्षण विधि ने समय को बचाया और उच्च गुणवत्ता वाले डेटा का उत्पादन किया जो वास्तविक निष्पादन आवश्यकताओं को प्रतिबिंबित करता है।
परीक्षण में, प्लान-एंड-एक्ट ने Webarena-Lite बेंचमार्क पर 53.94% की कार्य सफलता दर हासिल की, Webrl से 49.1% के पिछले सबसे अच्छे परिणाम को पार कर लिया। किसी भी योजनाकार के बिना, एक आधार निष्पादक ने केवल 9.85%हासिल किया। एक गैर-फिनेटेड प्लानर को जोड़ने से 29.63% की वृद्धि हुई, जबकि 10,000 सिंथेटिक योजनाओं पर फ़िनेट्यूनिंग ने 44.24% तक परिणाम लाए। डायनेमिक रिप्लेनिंग को शामिल करने से अंतिम 10.31% प्रदर्शन लाभ मिला। सभी प्रयोगों के दौरान, डेटा ने दिखाया कि अधिकांश प्रदर्शन सुधार निष्पादक के बजाय योजनाकार को बढ़ाने से आए थे। यहां तक कि एक आधार निष्पादक के साथ, एक मजबूत योजनाकार के कारण पर्याप्त सफलता दर बढ़ जाती है, शोधकर्ताओं की परिकल्पना को मान्य करता है कि योजना और निष्पादन को अलग करने से बेहतर कार्य परिणाम मिलते हैं।
अंत में, यह पेपर इस बात पर प्रकाश डालता है कि लक्ष्य समझ और पर्यावरण बातचीत के बीच अंतर की पहचान कैसे हो सकती है, जिससे अधिक प्रभावी एआई सिस्टम हो सकता है। संरचित योजना और स्केलेबल डेटा जनरेशन पर ध्यान केंद्रित करके, शोधकर्ताओं ने एक ऐसी विधि का प्रस्ताव किया जो एक विशिष्ट समस्या को हल करती है और एक ढांचे को प्रदर्शित करती है जो व्यापक अनुप्रयोगों तक विस्तारित हो सकती है। प्लान-एंड-एक्ट से पता चलता है कि प्रभावी योजना, न केवल निष्पादन, जटिल वातावरण में एआई एजेंट की सफलता के लिए महत्वपूर्ण है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।