Friday, April 18, 2025

नया प्रशिक्षण दृष्टिकोण एआई एजेंटों को अनिश्चित परिस्थितियों में बेहतर प्रदर्शन करने में मदद कर सकता है – Gadgets Solutions

-

एक कारखाने में घरेलू कार्यों को करने के लिए प्रशिक्षित एक होम रोबोट सिंक को प्रभावी ढंग से स्क्रब करने या उपयोगकर्ता की रसोई में तैनात होने पर कचरा निकालने में विफल हो सकता है, क्योंकि यह नया वातावरण अपने प्रशिक्षण स्थान से भिन्न होता है।

इससे बचने के लिए, इंजीनियर अक्सर सिम्युलेटेड ट्रेनिंग वातावरण को यथासंभव वास्तविक दुनिया के साथ मिलान करने की कोशिश करते हैं जहां एजेंट को तैनात किया जाएगा।

हालांकि, एमआईटी और अन्य जगहों के शोधकर्ताओं ने अब पाया है कि, इस पारंपरिक ज्ञान के बावजूद, कभी-कभी एक पूरी तरह से अलग वातावरण में प्रशिक्षण एक बेहतर प्रदर्शन करने वाले कृत्रिम खुफिया एजेंट पैदा करता है।

उनके परिणामों से संकेत मिलता है कि, कुछ स्थितियों में, कम अनिश्चितता के साथ एक दुनिया में एक नकली एआई एजेंट को प्रशिक्षित करते हैं, या “शोर”, इसे एक प्रतिस्पर्धी एआई एजेंट की तुलना में बेहतर प्रदर्शन करने के लिए सक्षम किया, एक ही, शोर वाली दुनिया में वे दोनों एजेंटों का परीक्षण करने के लिए इस्तेमाल करते थे।

शोधकर्ता इस अप्रत्याशित घटना को इनडोर प्रशिक्षण प्रभाव कहते हैं।

“अगर हम एक इनडोर वातावरण में टेनिस खेलना सीखते हैं, जहां कोई शोर नहीं होता है, तो हम अधिक आसानी से अलग -अलग शॉट्स में महारत हासिल करने में सक्षम हो सकते हैं। फिर, अगर हम एक वाइसियर वातावरण में चले जाते हैं, तो एक विंडी टेनिस कोर्ट की तरह, हम टेनिस को अच्छी तरह से खेलने की उच्च संभावना रख सकते हैं, जैसे कि हम हवा के वातावरण में सीखना शुरू कर देते हैं,” मिट मीडिया लैब पर एक शोध सहायक।

नया प्रशिक्षण दृष्टिकोण एआई एजेंटों को अनिश्चित परिस्थितियों में बेहतर प्रदर्शन करने में मदद कर सकता है
 – Gadgets Solutions

वीडियो चलाएं

इनडोर-प्रशिक्षण प्रभाव: संक्रमण समारोह में वितरण बदलाव से अप्रत्याशित लाभ
वीडियो: दिमाग, दिमाग और मशीनों के लिए एमआईटी केंद्र

शोधकर्ताओं ने अटारी गेम खेलने के लिए एआई एजेंटों को प्रशिक्षित करके इस घटना का अध्ययन किया, जिसे उन्होंने कुछ अप्रत्याशितता को जोड़कर संशोधित किया। वे यह जानकर आश्चर्यचकित थे कि इनडोर प्रशिक्षण प्रभाव लगातार अटारी खेलों और खेल विविधताओं में हुआ।

वे आशा करते हैं कि ये परिणाम एआई एजेंटों के लिए बेहतर प्रशिक्षण विधियों को विकसित करने की दिशा में अतिरिक्त शोध को ईंधन देते हैं।

हार्वर्ड यूनिवर्सिटी के एक स्नातक छात्र सह-लेखक स्पैंडन मदन कहते हैं, “यह एक पूरी तरह से नई अक्ष है। प्रशिक्षण और परीक्षण के वातावरण से मेल खाने की कोशिश करने के बजाय, हम सिम्युलेटेड वातावरण का निर्माण करने में सक्षम हो सकते हैं जहां एक एआई एजेंट और भी बेहतर सीखता है।”

बोनो और मदन एक एमआईटी स्नातक छात्र ईशान ग्रोवर द्वारा कागज पर शामिल हैं; येल विश्वविद्यालय में एक स्नातक छात्र माओ यासुदा; सिंथिया ब्रेज़ियल, मीडिया आर्ट्स एंड साइंसेज के प्रोफेसर और एमआईटी मीडिया लैब में व्यक्तिगत रोबोटिक्स समूह के नेता; हार्वर्ड में कंप्यूटर साइंस के एक वांग प्रोफेसर हैनपेटर Pfister; और गेब्रियल क्रेमन, हार्वर्ड मेडिकल स्कूल में एक प्रोफेसर। अनुसंधान को एसोसिएशन फॉर द एडवांसमेंट ऑफ आर्टिफिशियल इंटेलिजेंस कॉन्फ्रेंस में प्रस्तुत किया जाएगा।

प्रशिक्षण परेशानी

शोधकर्ताओं ने यह पता लगाने के लिए कहा कि सुदृढीकरण सीखने वाले एजेंटों को इस तरह के निराशाजनक प्रदर्शन क्यों होते हैं जब वातावरण पर परीक्षण किया जाता है जो उनके प्रशिक्षण स्थान से भिन्न होते हैं।

सुदृढीकरण सीखना एक परीक्षण-और-त्रुटि विधि है जिसमें एजेंट एक प्रशिक्षण स्थान की पड़ताल करता है और अपने इनाम को अधिकतम करने वाली कार्रवाई करना सीखता है।

टीम ने संक्रमण समारोह नामक सुदृढीकरण सीखने की समस्या के एक तत्व में एक निश्चित मात्रा में शोर को स्पष्ट रूप से जोड़ने के लिए एक तकनीक विकसित की। संक्रमण फ़ंक्शन इस संभावना को परिभाषित करता है कि एक एजेंट एक राज्य से दूसरे राज्य में स्थानांतरित हो जाएगा, जो यह चुनता है, उसके आधार पर।

यदि एजेंट पीएसी-मैन खेल रहा है, तो एक संक्रमण समारोह इस संभावना को परिभाषित कर सकता है कि गेम बोर्ड पर भूत ऊपर, नीचे, बाएं या दाएं चले जाएंगे। मानक सुदृढीकरण सीखने में, एआई को एक ही संक्रमण फ़ंक्शन का उपयोग करके प्रशिक्षित और परीक्षण किया जाएगा।

शोधकर्ताओं ने इस पारंपरिक दृष्टिकोण के साथ संक्रमण समारोह में शोर जोड़ा और, जैसा कि अपेक्षित था, इसने एजेंट के पीएसी-मैन प्रदर्शन को चोट पहुंचाई।

लेकिन जब शोधकर्ताओं ने एजेंट को एक शोर-मुक्त पीएसी-मैन गेम के साथ प्रशिक्षित किया, तो इसे एक ऐसे वातावरण में परीक्षण किया जहां उन्होंने संक्रमण समारोह में शोर को इंजेक्ट किया, यह शोर के खेल पर प्रशिक्षित एजेंट की तुलना में बेहतर प्रदर्शन किया।

“अंगूठे का नियम यह है कि आपको तैनाती की स्थिति के संक्रमण समारोह को पकड़ने की कोशिश करनी चाहिए और साथ ही साथ आप अपने हिरन के लिए सबसे अधिक धमाके पाने के लिए प्रशिक्षण के दौरान कर सकते हैं। हमने वास्तव में इस अंतर्दृष्टि को मौत के लिए परीक्षण किया क्योंकि हम खुद पर विश्वास नहीं कर सकते थे,” मदन कहते हैं।

संक्रमण समारोह में शोर की अलग -अलग मात्रा को इंजेक्ट करने से शोधकर्ताओं ने कई वातावरणों का परीक्षण किया, लेकिन इसने यथार्थवादी खेल नहीं बनाए। जितना अधिक शोर वे पीएसी-मैन में इंजेक्ट करते हैं, उतनी ही अधिक संभावना भूत अलग-अलग वर्गों में बेतरतीब ढंग से टेलीपोर्ट होगी।

यह देखने के लिए कि क्या इनडोर प्रशिक्षण प्रभाव सामान्य पीएसी-मैन गेम्स में हुआ है, उन्होंने अंतर्निहित संभावनाओं को समायोजित किया, इसलिए भूत सामान्य रूप से चले गए, लेकिन बाएं और दाएं के बजाय ऊपर और नीचे जाने की अधिक संभावना थी। शोर-मुक्त वातावरण में प्रशिक्षित एआई एजेंटों ने अभी भी इन यथार्थवादी खेलों में बेहतर प्रदर्शन किया।

बोनो कहते हैं, “यह न केवल जिस तरह से हमने तदर्थ वातावरण बनाने के लिए शोर को जोड़ा था। यह सुदृढीकरण सीखने की समस्या की एक संपत्ति प्रतीत होती है। और यह देखने के लिए और भी आश्चर्यजनक था,” बोनो कहते हैं।

अन्वेषण स्पष्टीकरण

जब शोधकर्ताओं ने एक स्पष्टीकरण की तलाश में गहराई से खोदा, तो उन्होंने कुछ सहसंबंधों को देखा कि कैसे एआई एजेंट प्रशिक्षण स्थान का पता लगाते हैं।

जब दोनों एआई एजेंट ज्यादातर एक ही क्षेत्रों का पता लगाते हैं, तो गैर-नोसी वातावरण में प्रशिक्षित एजेंट बेहतर प्रदर्शन करता है, शायद इसलिए कि एजेंट के लिए शोर के हस्तक्षेप के बिना खेल के नियमों को सीखना आसान है।

यदि उनके अन्वेषण पैटर्न अलग हैं, तो शोर वातावरण में प्रशिक्षित एजेंट बेहतर प्रदर्शन करता है। यह इसलिए हो सकता है क्योंकि एजेंट को शोर-मुक्त वातावरण में यह नहीं सीख सकता है।

बोनो बताते हैं, “अगर मैं केवल गैर-नोसी वातावरण में अपने फोरहैंड के साथ टेनिस खेलना सीखता हूं, लेकिन फिर शोर में मुझे अपने बैकहैंड के साथ भी खेलना होगा, तो मैं गैर-नोसी वातावरण में भी नहीं खेलूंगा,” बोनो बताते हैं।

भविष्य में, शोधकर्ताओं को यह पता लगाने की उम्मीद है कि इनडोर प्रशिक्षण प्रभाव अधिक जटिल सुदृढीकरण सीखने के माहौल में या कंप्यूटर विजन और प्राकृतिक भाषा प्रसंस्करण जैसी अन्य तकनीकों के साथ कैसे हो सकता है। वे इनडोर प्रशिक्षण प्रभाव का लाभ उठाने के लिए डिज़ाइन किए गए प्रशिक्षण वातावरण का निर्माण करना चाहते हैं, जो एआई एजेंटों को अनिश्चित वातावरण में बेहतर प्रदर्शन करने में मदद कर सकता है।


LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »