रोबोट तेजी से घर के वातावरण के लिए विकसित किए जा रहे हैं, विशेष रूप से उन्हें खाना पकाने जैसी दैनिक गतिविधियों को करने में सक्षम बनाने के लिए। इन कार्यों में दृश्य व्याख्या, हेरफेर और कार्यों की एक श्रृंखला में निर्णय लेने का एक संयोजन शामिल है। खाना पकाने, विशेष रूप से, बर्तन में विविधता के कारण रोबोट के लिए जटिल है, दृश्य दृष्टिकोण अलग -अलग दृश्य, और वीडियो जैसे निर्देशात्मक सामग्रियों में मध्यवर्ती चरणों के लगातार चूक। ऐसे कार्यों में सफल होने के लिए रोबोट के लिए, एक विधि की आवश्यकता होती है जो विभिन्न पर्यावरणीय बाधाओं के लिए तार्किक योजना, लचीली समझ और अनुकूलनशीलता सुनिश्चित करती है।
खाना पकाने के प्रदर्शनों को रोबोटिक कार्यों में अनुवाद करने में एक बड़ी समस्या ऑनलाइन सामग्री में मानकीकरण की कमी है। वीडियो चरणों को छोड़ सकते हैं, इसमें परिचय जैसे अप्रासंगिक खंड शामिल हैं, या ऐसी व्यवस्थाएं दिखाती हैं जो रोबोट के परिचालन लेआउट के साथ संरेखित नहीं होती हैं। रोबोट को दृश्य डेटा और पाठ्य संकेतों की व्याख्या करनी चाहिए, छोड़े गए चरणों का अनुमान लगाना चाहिए, और इसे भौतिक कार्यों के अनुक्रम में अनुवाद करना चाहिए। हालांकि, जब इन अनुक्रमों का उत्पादन करने के लिए विशुद्ध रूप से जेनेरिक मॉडल पर भरोसा करते हैं, तो तर्क विफलताओं या मतिभ्रम आउटपुट की एक उच्च संभावना होती है जो रोबोटिक निष्पादन के लिए योजना को प्रस्तुत करने के लिए प्रस्तुत करते हैं।
रोबोट प्लानिंग का समर्थन करने वाले वर्तमान उपकरण अक्सर बड़े भाषा मॉडल (एलएलएम) या मल्टीमॉडल आर्किटेक्चर का उपयोग करके पीडीडीएल या अधिक हाल के डेटा-चालित दृष्टिकोण जैसे लॉजिक-आधारित मॉडल पर ध्यान केंद्रित करते हैं। जबकि एलएलएम विविध इनपुट से तर्क करने में माहिर हैं, वे अक्सर यह मान्य नहीं कर सकते हैं कि क्या उत्पन्न योजना रोबोट सेटिंग में समझ में आती है। शीघ्र-आधारित प्रतिक्रिया तंत्र का परीक्षण किया गया है, लेकिन वे अभी भी व्यक्तिगत कार्यों की तार्किक शुद्धता की पुष्टि करने में विफल रहते हैं, विशेष रूप से खाना पकाने के परिदृश्यों में जटिल, बहु-चरणीय कार्यों के लिए।
ओसाका विश्वविद्यालय और नेशनल इंस्टीट्यूट ऑफ एडवांस्ड इंडस्ट्रियल साइंस एंड टेक्नोलॉजी (AIST), जापान के शोधकर्ताओं ने सबटाइटल-एन्हांस्ड वीडियो से खाना पकाने की योजनाओं को विकसित करने के लिए एक कार्यात्मक ऑब्जेक्ट-ओरिएंटेड नेटवर्क (FOON) के साथ एक एलएलएम को एकीकृत करते हुए एक नया ढांचा पेश किया। यह हाइब्रिड सिस्टम एक वीडियो की व्याख्या करने और कार्य अनुक्रम उत्पन्न करने के लिए एक एलएलएम का उपयोग करता है। इन अनुक्रमों को तब फून-आधारित ग्राफ़ में परिवर्तित किया जाता है, जहां प्रत्येक क्रिया को रोबोट के वर्तमान वातावरण के खिलाफ व्यवहार्यता के लिए जाँच की जाती है। यदि किसी कदम को बदनाम माना जाता है, तो प्रतिक्रिया उत्पन्न होती है ताकि एलएलएम तदनुसार योजना को संशोधित कर सके, यह सुनिश्चित कर सके कि केवल तार्किक रूप से ध्वनि चरणों को बनाए रखा गया है।
इस पद्धति में प्रसंस्करण की कई परतें शामिल हैं। सबसे पहले, खाना पकाने का वीडियो ऑप्टिकल चरित्र मान्यता का उपयोग करके निकाले गए उपशीर्षक के आधार पर खंडों में विभाजित होता है। प्रमुख वीडियो फ्रेम प्रत्येक खंड से चुने जाते हैं और इनपुट छवियों के रूप में सेवा करने के लिए 3 × 3 ग्रिड में व्यवस्थित होते हैं। एलएलएम को संरचित विवरणों के साथ प्रेरित किया जाता है, जिसमें कार्य विवरण, ज्ञात बाधाएं और पर्यावरण लेआउट शामिल हैं। इस डेटा का उपयोग करते हुए, यह प्रत्येक खंड के लिए लक्ष्य ऑब्जेक्ट राज्यों को संक्रमित करता है। ये फून द्वारा क्रॉस-सत्यापित होते हैं, एक ग्राफ सिस्टम जहां कार्यों को कार्यात्मक इकाइयों के रूप में दर्शाया जाता है जिसमें इनपुट और आउटपुट ऑब्जेक्ट राज्यों को शामिल किया जाता है। यदि कोई असंगतता पाई जाती है – उदाहरण के लिए, यदि कोई हाथ पहले से ही किसी आइटम को पकड़ रहा है, जब वह कुछ और लेने के लिए माना जाता है – कार्य को ध्वजांकित और संशोधित किया जाता है। यह लूप तब तक जारी रहता है जब तक कि एक पूर्ण और निष्पादन योग्य कार्य ग्राफ नहीं बन जाता।
शोधकर्ताओं ने दस वीडियो से पांच पूर्ण खाना पकाने के व्यंजनों का उपयोग करके अपनी विधि का परीक्षण किया। उनके प्रयोगों ने पांच व्यंजनों में से चार के लिए सफलतापूर्वक पूर्ण और व्यवहार्य कार्य योजनाएं उत्पन्न कीं। इसके विपरीत, एक आधारभूत दृष्टिकोण जो केवल एक मामले में केवल एलएलएम के बिना एलएलएम का उपयोग करता था, केवल एक मामले में सफल रहा। विशेष रूप से, फून-संवर्धित विधि में 80% (4/5) की सफलता दर थी, जबकि बेसलाइन ने केवल 20% (1/5) प्राप्त किया। इसके अलावा, लक्ष्य ऑब्जेक्ट नोड अनुमान के घटक मूल्यांकन में, सिस्टम ने ऑब्जेक्ट राज्यों की सटीक भविष्यवाणी करने में 86% सफलता दर हासिल की। वीडियो प्रीप्रोसेसिंग चरण के दौरान, ओसीआर प्रक्रिया ने 230 के जमीनी सत्य की तुलना में 270 उपशीर्षक शब्द निकाले, जिसके परिणामस्वरूप 17% त्रुटि दर हुई, जिसे एलएलएम अभी भी निरर्थक निर्देशों को फ़िल्टर करके प्रबंधन कर सकता है।
एक वास्तविक दुनिया के परीक्षण में एक दोहरी-हाथ UR3E रोबोट प्रणाली का उपयोग करते हुए, टीम ने एक Gyudon (बीफ बाउल) नुस्खा पर अपनी विधि का प्रदर्शन किया। रोबोट एक लापता “कट” एक्शन का अनुमान लगा सकता है और सम्मिलित कर सकता है जो वीडियो में अनुपस्थित था, जो अपूर्ण निर्देशों की पहचान करने और क्षतिपूर्ति करने के लिए सिस्टम की क्षमता को दर्शाता है। नुस्खा के लिए टास्क ग्राफ तीन री-प्लैनिंग प्रयासों के बाद उत्पन्न हुआ था, और रोबोट ने खाना पकाने के अनुक्रम को सफलतापूर्वक पूरा किया। एलएलएम ने भी वीडियो परिचय जैसे गैर-आवश्यक दृश्यों को सही ढंग से नजरअंदाज कर दिया, जो कार्य निष्पादन के लिए 13 में से केवल 13 आवश्यक सेगमेंट की पहचान करते हैं।
यह शोध स्पष्ट रूप से एलएलएम-आधारित रोबोटिक टास्क प्लानिंग में मतिभ्रम और तार्किक असंगति की समस्या को रेखांकित करता है। प्रस्तावित विधि एक सत्यापन और सुधार तंत्र के रूप में फून को शामिल करके असंरचित खाना पकाने के वीडियो से कार्रवाई योग्य योजनाओं को उत्पन्न करने के लिए एक मजबूत समाधान प्रदान करती है। कार्यप्रणाली ने तर्क और तार्किक सत्यापन करते हुए, रोबोट को कार्य सटीकता को बनाए रखते हुए पर्यावरणीय परिस्थितियों को अपनाने से जटिल कार्यों को निष्पादित करने में सक्षम बनाया।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
