रोबोटिक्स का भविष्य काफी उन्नत हो गया है। कई वर्षों से, मानव-जैसे रोबोट की उम्मीदें हैं जो हमारे वातावरण को नेविगेट कर सकते हैं, जटिल कार्य कर सकते हैं, और मनुष्यों के साथ काम कर सकते हैं। उदाहरणों में सटीक सर्जिकल प्रक्रियाओं का संचालन करने वाले रोबोट, जटिल संरचनाओं का निर्माण, आपदा प्रतिक्रिया में सहायता करना, और कारखानों, कार्यालयों और घरों जैसे विभिन्न सेटिंग्स में मनुष्यों के साथ कुशलता से सहयोग करना शामिल है। हालाँकि, वास्तविक प्रगति ऐतिहासिक रूप से सीमित रही है।
एनवीडिया, कार्नेगी मेलन विश्वविद्यालय, यूसी बर्कले, यूटी ऑस्टिन, और यूसी सैन डिएगो के शोधकर्ताओं ने पेश किया मंडरानाएक एकीकृत तंत्रिका नियंत्रक जिसका उद्देश्य मानव रोबोट क्षमताओं को बढ़ाना है। यह शोध एक मल्टी-मोड पॉलिसी डिस्टिलेशन फ्रेमवर्क का प्रस्ताव करता है, जो विभिन्न नियंत्रण रणनीतियों को एक सामंजस्यपूर्ण नीति में एकीकृत करता है, जिससे ह्यूमनॉइड रोबोटिक्स में एक उल्लेखनीय उन्नति होती है।
ह्यूमनॉइड रोबोटिक्स की एचिल्स एड़ी: नियंत्रण कोन्ड्रम
एक रोबोट की कल्पना करें जो एक सही बैकफ्लिप को निष्पादित कर सकता है लेकिन फिर एक डोरकनॉब को समझने के लिए संघर्ष करता है।
समस्या? विशेषज्ञता।
ह्यूमनॉइड रोबोट अविश्वसनीय रूप से बहुमुखी प्लेटफॉर्म हैं, जो कि कार्यों की एक विस्तृत श्रृंखला का समर्थन करने में सक्षम हैं, जिनमें द्विध्रुवीय हेरफेर, द्विपद लोकोमोशन और जटिल पूरे शरीर नियंत्रण शामिल हैं। हालांकि, इन क्षेत्रों में प्रभावशाली प्रगति के बावजूद, शोधकर्ताओं ने आमतौर पर विशिष्ट परिदृश्यों के लिए डिज़ाइन किए गए विभिन्न नियंत्रण योगों को नियोजित किया है।
- कुछ नियंत्रक लोकोमोशन में उत्कृष्टता प्राप्त करते हैं, आंदोलन को निर्देशित करने के लिए “रूट वेलोसिटी ट्रैकिंग” का उपयोग करते हैं। यह दृष्टिकोण अंतरिक्ष के माध्यम से रोबोट के समग्र आंदोलन को नियंत्रित करने पर केंद्रित है।
- अन्य लोग हेरफेर को प्राथमिकता देते हैं, सटीक आंदोलनों के लिए “संयुक्त कोण ट्रैकिंग” पर भरोसा करते हैं। यह दृष्टिकोण रोबोट के अंगों के ठीक-ठीक नियंत्रण के लिए अनुमति देता है।
- फिर भी अन्य लोग टेलीपोर्ट के लिए प्रमुख बिंदुओं के “किनेमेटिक ट्रैकिंग” का उपयोग करते हैं। यह विधि एक मानव ऑपरेटर को अपने स्वयं के आंदोलनों को ट्रैक करके रोबोट को नियंत्रित करने में सक्षम बनाती है।
प्रत्येक एक अलग नियंत्रण भाषा बोलता है, एक खंडित परिदृश्य बनाता है जहां रोबोट एक कार्य के स्वामी होते हैं और दूसरों पर अयोग्य होते हैं। कार्यों के बीच स्विच करना क्लंकी, अक्षम और अक्सर असंभव रहा है। यह विशेषज्ञता व्यावहारिक सीमाएं बनाती है। उदाहरण के लिए, रूट वेलोसिटी ट्रैकिंग का उपयोग करके असमान इलाके पर द्विध्रुवीय लोकोमोशन के लिए डिज़ाइन किया गया एक रोबोट सटीक द्विध्रुवीय हेरफेर कार्यों के लिए सुचारू रूप से संक्रमण करने के लिए संघर्ष करेगा, जिसमें संयुक्त कोण या अंत-प्रभावकारक ट्रैकिंग की आवश्यकता होती है।
इसके अलावा, कई पूर्व-प्रशिक्षित हेरफेर नीतियां विभिन्न कॉन्फ़िगरेशन स्थानों पर संचालित होती हैं, जैसे कि संयुक्त कोण और अंत-प्रभावकारी स्थिति। ये बाधाएं एक एकीकृत निम्न-स्तरीय ह्यूमनॉइड नियंत्रक की आवश्यकता को उजागर करती हैं जो विविध नियंत्रण मोड के अनुकूल होने में सक्षम हैं।
होवर: रोबोटिक नियंत्रण का एकीकृत क्षेत्र सिद्धांत
मंडराना एक प्रतिमान बदलाव है। यह एक “सामान्यवादी नीति” है – एक एकल तंत्रिका नेटवर्क जो विविध नियंत्रण मोड का सामंजस्य स्थापित करता है, जो सहज संक्रमण और अभूतपूर्व बहुमुखी प्रतिभा को सक्षम करता है। मंडराना 19-डीओएफ ह्यूमनॉइड रोबोट पर वास्तविक दुनिया के अनुप्रयोगों के लिए 15 से अधिक उपयोगी कॉन्फ़िगरेशन सहित विविध नियंत्रण मोड का समर्थन करता है। यह बहुमुखी कमांड स्पेस पिछले शोध में उपयोग किए गए अधिकांश मोड को शामिल करता है।
- मास्टर्स से सीखना: मानव गति की नकल
मंडराना
की प्रतिभा अपनी नींव में निहित है: मानव आंदोलन से ही सीखना। मानव गति कैप्चर डेटा (MOCAP) के एक बड़े डेटासेट पर एक “ओरेकल मोशन इमिटेटर” को प्रशिक्षित करके, होवर संतुलन, समन्वय और कुशल आंदोलन के मूल सिद्धांतों को अवशोषित करता है। यह दृष्टिकोण मानव आंदोलनों की प्राकृतिक अनुकूलनशीलता और दक्षता का उपयोग करता है, समृद्ध मोटर पुजारियों के साथ नीति प्रदान करता है जिसे कई नियंत्रण मोड में पुन: उपयोग किया जा सकता है।शोधकर्ता मानव जैसी गति में प्रशिक्षण प्रक्रिया को आधार बनाते हैं, जिससे नीति को संतुलन, समन्वय और गति नियंत्रण की गहरी समझ विकसित करने की अनुमति मिलती है, प्रभावी पूरे शरीर के मानवीय व्यवहार के लिए महत्वपूर्ण तत्व।
- ओरेकल से प्रोडिगी तक: नीति आसवन

जादू वास्तव में “नीति आसवन” के माध्यम से होता है। Oracle नीति, मास्टर Imitator, एक “छात्र नीति” सिखाती है (होवर) अपने कौशल। कमांड मास्किंग और एक खंजर ढांचे से जुड़ी एक प्रक्रिया के माध्यम से, मंडराना संयुक्त कोण नियंत्रण और रूट ट्रैकिंग तक कीनेमेटिक स्थिति ट्रैकिंग से लेकर विविध नियंत्रण मोड को मास्टर करना सीखता है। यह किसी भी नियंत्रण परिदृश्य को संभालने में सक्षम एक “सामान्यवादी” बनाता है।
नीति आसवन के माध्यम से, इन मोटर कौशल को Oracle नीति से एक एकल “सामान्यवादी नीति” में स्थानांतरित किया जाता है जो कई नियंत्रण मोड को संभालने में सक्षम होता है। परिणामी मल्टी-मोड नीति प्रत्येक मोड के लिए व्यक्तिगत रूप से प्रशिक्षित विविध नियंत्रण इनपुट और आउटपरफॉर्म्स नीतियों का समर्थन करती है। शोधकर्ता इस बेहतर प्रदर्शन के उपजी को इस बात की परिकल्पना करते हैं कि वे मोड में साझा भौतिक ज्ञान का उपयोग करके नीति से हैं, जैसे कि संतुलन, मानव जैसी गति और सटीक अंग नियंत्रण को बनाए रखना। ये साझा कौशल सामान्यीकरण को बढ़ाते हैं, जिससे सभी मोड में बेहतर प्रदर्शन होता है, जबकि एकल-मोड नीतियां अक्सर विशिष्ट इनाम संरचनाओं और प्रशिक्षण वातावरण को ओवरफिट करती हैं।
मंडरानाकार्यान्वयन में एक बहुमुखी नियंत्रक बनाने के लिए ज्ञान आसवन के बाद एक ओरेकल नीति का प्रशिक्षण शामिल है। ओरेकल नीति इष्टतम आंदोलनों को उत्पन्न करने के लिए, स्थिति, अभिविन्यास, वेग और संदर्भ पोज़ के साथ पिछली क्रियाओं सहित प्रोप्रियोसेप्टिव जानकारी को संसाधित करती है। Oracle दंड, नियमितीकरण और कार्य घटकों के साथ एक सावधानीपूर्वक डिज़ाइन किए गए इनाम प्रणाली का उपयोग करके मजबूत गति नकल प्राप्त करता है। छात्र नीति तब एक डैगर फ्रेमवर्क के माध्यम से इस ओरेकल से सीखती है, जिसमें मॉडल-आधारित और स्पार्सिटी-आधारित मास्किंग तकनीकों को शामिल किया जाता है जो विभिन्न शरीर के अंगों के चयनात्मक ट्रैकिंग की अनुमति देते हैं। यह आसवन प्रक्रिया शिक्षक और छात्र के बीच कार्रवाई के अंतर को कम करती है, जिससे विविध नियंत्रण परिदृश्यों को संभालने में सक्षम एकीकृत नियंत्रक बन जाता है।
शोधकर्ता एक लक्ष्य-स्थिति वाले सुदृढीकरण सीखने के कार्य के रूप में मानवीय नियंत्रण तैयार करते हैं, जहां नीति को वास्तविक समय मानव गति को ट्रैक करने के लिए प्रशिक्षित किया जाता है। राज्य में रोबोट शामिल है प्रोप्रियोसेप्शन और एक एकीकृत लक्ष्य लक्ष्य राज्य। इन इनपुट्स का उपयोग करते हुए, वे नीति अनुकूलन के लिए एक इनाम फ़ंक्शन को परिभाषित करते हैं। क्रियाएं लक्ष्य संयुक्त पदों का प्रतिनिधित्व करती हैं जिन्हें पीडी नियंत्रक में खिलाया जाता है। सिस्टम ने संचयी रियायती पुरस्कारों को अधिकतम करने के लिए समीपस्थ नीति अनुकूलन (पीपीओ) को नियोजित किया है, अनिवार्य रूप से प्रत्येक टाइमस्टेप पर लक्ष्य कमांड का पालन करने के लिए ह्यूमनॉइड को प्रशिक्षित करता है।
अनुसंधान पद्धति मानव गति डेटासेट से व्यवहार्य मानवीय आंदोलनों को बनाने के लिए गति रिटारगेटिंग तकनीकों का उपयोग करती है। यह तीन-चरण प्रक्रिया आगे कीनेमेटीक्स के माध्यम से कीपॉइंट पदों की गणना के साथ शुरू होती है, इन प्रमुख बिंदुओं के साथ संरेखित करने के लिए एसएमपीएल मॉडल को फिट करना, और ग्रेडिएंट वंश का उपयोग करके मॉडल के बीच इसी बिंदुओं से मेल करके एएमएएसटी डेटासेट को रिटारेट करना। “सिम-टू-डेटा” प्रक्रिया बड़े पैमाने पर मानव गति डेटासेट को व्यवहार्य मानव गति में परिवर्तित करती है, नियंत्रक को प्रशिक्षित करने के लिए एक मजबूत नींव स्थापित करती है।
अनुसंधान टीम ने मानवीय नियंत्रण के लिए एक व्यापक कमांड स्पेस डिज़ाइन किया जो पिछले दृष्टिकोणों की सीमाओं को पार करता है। उनके एकीकृत फ्रेमवर्क में एक साथ कई नियंत्रण मोड समायोजित होते हैं, जिसमें कीनेमेटिक स्थिति ट्रैकिंग, संयुक्त कोण ट्रैकिंग और रूट ट्रैकिंग शामिल हैं। यह डिज़ाइन सामान्यता के प्रमुख मानदंडों (विभिन्न इनपुट उपकरणों का समर्थन करना) और परमाणुता (नियंत्रण विकल्पों के मनमानी संयोजनों को सक्षम करना) को संतुष्ट करता है।
होवर अनलिशेड: प्रदर्शन जो रोबोटिक्स को फिर से परिभाषित करता है
मंडरानाकठोर परीक्षण द्वारा क्षमताएं साबित होती हैं:
- विशेषज्ञों पर हावी:
मंडराना
बोर्ड भर में विशेष नियंत्रक आउटपरफॉर्म। अनुसंधान टीम ने इसहाकम सिमुलेशन और वास्तविक दुनिया के कार्यान्वयन में यूनिट्री एच 1 रोबोट का उपयोग करके दोनों व्यापक परीक्षणों के माध्यम से विशेषज्ञ नीतियों और वैकल्पिक मल्टी-मोड प्रशिक्षण दृष्टिकोणों के खिलाफ होवर का मूल्यांकन किया।संबोधित करने के लिए मंडराना विशेष नीतियों को बेहतर बना सकते हैं, उन्होंने इसकी तुलना विभिन्न विशेषज्ञों के खिलाफ की, जिनमें एक्सबॉडी, ह्यूमनप्लस, एच 2 ओ और ओएमएनआईएच 2 ओ सहित – प्रत्येक को अलग -अलग ट्रैकिंग उद्देश्यों जैसे कि संयुक्त कोण, रूट वेग, या विशिष्ट प्रमुख बिंदुओं के लिए डिज़ाइन किया गया है।
मूल्यांकन में रिटारगेटेड अमास डेटासेट का उपयोग करते हुए, मंडराना लगातार बेहतर सामान्यीकरण का प्रदर्शन किया, प्रत्येक कमांड मोड में 12 मेट्रिक्स में से कम से कम 7 में विशेषज्ञों को बेहतर बनाया। मंडराना बाएं हाथ, दाएं हाथ, दो-हाथ और हेड ट्रैकिंग जैसे विशिष्ट उपयोगी नियंत्रण मोड के लिए प्रशिक्षित विशेषज्ञों की तुलना में बेहतर प्रदर्शन किया।
- मल्टी-मोड महारत: एक साफ स्वीपजब अन्य मल्टी-मोड प्रशिक्षण विधियों की तुलना में, उन्होंने एक आधार रेखा को लागू किया जो एक ही मास्किंग प्रक्रिया का उपयोग करता था, लेकिन सुदृढीकरण सीखने के साथ खरोंच से प्रशिक्षित होता है। रडार चार्ट आठ अलग -अलग नियंत्रण मोड में ट्रैकिंग त्रुटियों की कल्पना करते हुए दिखाया गया है कि सभी 32 मैट्रिक्स और मोड में कम त्रुटियों को प्राप्त करते हुए लगातार होवर को दिखाया गया है। मंडराना सभी 32 मेट्रिक्स और 8 अलग -अलग नियंत्रण मोड में लगातार कम ट्रैकिंग त्रुटियों को प्राप्त किया। यह निर्णायक जीत होवर के आसवन दृष्टिकोण की शक्ति को रेखांकित करती है। यह व्यापक प्रदर्शन लाभ एक ओरेकल नीति से ज्ञान को दूर करने की प्रभावशीलता को रेखांकित करता है जो खरोंच से सुदृढीकरण सीखने के साथ प्रशिक्षण के बजाय पूर्ण-शरीर कीनेमेटीक्स को ट्रैक करता है।
- सिमुलेशन से वास्तविकता तक: वास्तविक दुनिया सत्यापन
मंडराना
की संभावना डिजिटल दुनिया तक ही सीमित नहीं है। प्रायोगिक सेटअप में सिमुलेशन में रिटारगेटेड एएमएएसएस डेटासेट का उपयोग करके मोशन ट्रैकिंग मूल्यांकन शामिल थे और 19-डीओएफ यूनिट्री एच 1 प्लेटफॉर्म पर वास्तविक दुनिया के परीक्षणों के लिए 20 स्थायी गति अनुक्रम, जिनका वजन 51.5 किग्रा था और 1.8 मीटर लंबा था। प्रयोगों को होवर की सामान्यता, तुलनात्मक प्रदर्शन और वास्तविक दुनिया हस्तांतरणीयता के बारे में तीन प्रमुख सवालों के जवाब देने के लिए संरचित किया गया था।
Unitree H1 रोबोट पर, एक 19-DOF Humanoid का वजन 51.5 किग्रा और 1.8 मीटर लंबा है, होवर ने जटिल रूप से जटिल खड़े गतियों, गतिशील रनिंग मूवमेंट को ट्रैक किया, और लोकोमोशन और टेलियोपरेशन के दौरान नियंत्रण मोड के बीच सुचारू रूप से संक्रमण किया। सिमुलेशन और एक भौतिक ह्यूमनॉइड रोबोट दोनों में किए गए प्रयोगों से पता चलता है कि मंडराना नियंत्रण मोड के बीच निर्बाध संक्रमण को प्राप्त करता है और आधारभूत दृष्टिकोणों की तुलना में बेहतर मल्टी-मोड नियंत्रण प्रदान करता है।
होवर: ह्यूमनॉइड क्षमता का भविष्य
मंडरानाह्यूमनॉइड रोबोट की विशाल क्षमता को अनलॉक करता है। मल्टी-मोड सामान्यवादी नीति भी मोड के बीच सहज संक्रमण को सक्षम करती है, जिससे यह मजबूत और बहुमुखी हो जाता है।
एक ऐसे भविष्य की कल्पना करें जहां ह्यूमनॉइड्स:
- अद्वितीय सटीकता के साथ जटिल सर्जरी करें।
- मानव जैसी निपुणता के साथ जटिल संरचनाओं का निर्माण करें।
- चपलता और लचीलापन के साथ आपदाओं का जवाब दें।
- कारखानों, कार्यालयों और घरों में मनुष्यों के साथ मूल रूप से सहयोग करें।
वास्तव में बहुमुखी, सक्षम और बुद्धिमान ह्यूमनॉइड्स की उम्र क्षितिज पर है, और होवर इस तरह से आगे बढ़ रहा है। उनके मूल्यांकन सामूहिक रूप से चित्रित करते हैं मंडरानाविशेषज्ञ नीतियों की तुलना में बेहतर प्रदर्शन की पेशकश करते हुए विविध वास्तविक दुनिया के नियंत्रण मोड को संभालने की क्षमता।
सूत्रों का कहना है:
इस लेख के लिए विचार नेतृत्व/ संसाधनों के लिए NVIDIA टीम को धन्यवाद। NVIDIA टीम ने इस सामग्री/लेख का समर्थन और प्रायोजित किया है।

जीन-मार्क एक सफल एआई बिजनेस एक्जीक्यूटिव हैं। वह एआई संचालित समाधानों के लिए विकास और गति को बढ़ाते हैं और 2006 में एक कंप्यूटर विजन कंपनी शुरू करते हैं। वह एआई सम्मेलनों में एक मान्यता प्राप्त वक्ता हैं और स्टैनफोर्ड से एमबीए हैं।
