Tuesday, April 8, 2025

NVIDIA AI होवर जारी करता है: रोबोटिक्स में बहुमुखी मानवीय नियंत्रण के लिए एक सफलता AI – Gadgets Solutions

-

रोबोटिक्स का भविष्य काफी उन्नत हो गया है। कई वर्षों से, मानव-जैसे रोबोट की उम्मीदें हैं जो हमारे वातावरण को नेविगेट कर सकते हैं, जटिल कार्य कर सकते हैं, और मनुष्यों के साथ काम कर सकते हैं। उदाहरणों में सटीक सर्जिकल प्रक्रियाओं का संचालन करने वाले रोबोट, जटिल संरचनाओं का निर्माण, आपदा प्रतिक्रिया में सहायता करना, और कारखानों, कार्यालयों और घरों जैसे विभिन्न सेटिंग्स में मनुष्यों के साथ कुशलता से सहयोग करना शामिल है। हालाँकि, वास्तविक प्रगति ऐतिहासिक रूप से सीमित रही है।

एनवीडिया, कार्नेगी मेलन विश्वविद्यालय, यूसी बर्कले, यूटी ऑस्टिन, और यूसी सैन डिएगो के शोधकर्ताओं ने पेश किया मंडरानाएक एकीकृत तंत्रिका नियंत्रक जिसका उद्देश्य मानव रोबोट क्षमताओं को बढ़ाना है। यह शोध एक मल्टी-मोड पॉलिसी डिस्टिलेशन फ्रेमवर्क का प्रस्ताव करता है, जो विभिन्न नियंत्रण रणनीतियों को एक सामंजस्यपूर्ण नीति में एकीकृत करता है, जिससे ह्यूमनॉइड रोबोटिक्स में एक उल्लेखनीय उन्नति होती है।

ह्यूमनॉइड रोबोटिक्स की एचिल्स एड़ी: नियंत्रण कोन्ड्रम

एक रोबोट की कल्पना करें जो एक सही बैकफ्लिप को निष्पादित कर सकता है लेकिन फिर एक डोरकनॉब को समझने के लिए संघर्ष करता है।

समस्या? विशेषज्ञता।

ह्यूमनॉइड रोबोट अविश्वसनीय रूप से बहुमुखी प्लेटफॉर्म हैं, जो कि कार्यों की एक विस्तृत श्रृंखला का समर्थन करने में सक्षम हैं, जिनमें द्विध्रुवीय हेरफेर, द्विपद लोकोमोशन और जटिल पूरे शरीर नियंत्रण शामिल हैं। हालांकि, इन क्षेत्रों में प्रभावशाली प्रगति के बावजूद, शोधकर्ताओं ने आमतौर पर विशिष्ट परिदृश्यों के लिए डिज़ाइन किए गए विभिन्न नियंत्रण योगों को नियोजित किया है।

  • कुछ नियंत्रक लोकोमोशन में उत्कृष्टता प्राप्त करते हैं, आंदोलन को निर्देशित करने के लिए “रूट वेलोसिटी ट्रैकिंग” का उपयोग करते हैं। यह दृष्टिकोण अंतरिक्ष के माध्यम से रोबोट के समग्र आंदोलन को नियंत्रित करने पर केंद्रित है।
  • अन्य लोग हेरफेर को प्राथमिकता देते हैं, सटीक आंदोलनों के लिए “संयुक्त कोण ट्रैकिंग” पर भरोसा करते हैं। यह दृष्टिकोण रोबोट के अंगों के ठीक-ठीक नियंत्रण के लिए अनुमति देता है।
  • फिर भी अन्य लोग टेलीपोर्ट के लिए प्रमुख बिंदुओं के “किनेमेटिक ट्रैकिंग” का उपयोग करते हैं। यह विधि एक मानव ऑपरेटर को अपने स्वयं के आंदोलनों को ट्रैक करके रोबोट को नियंत्रित करने में सक्षम बनाती है।

प्रत्येक एक अलग नियंत्रण भाषा बोलता है, एक खंडित परिदृश्य बनाता है जहां रोबोट एक कार्य के स्वामी होते हैं और दूसरों पर अयोग्य होते हैं। कार्यों के बीच स्विच करना क्लंकी, अक्षम और अक्सर असंभव रहा है। यह विशेषज्ञता व्यावहारिक सीमाएं बनाती है। उदाहरण के लिए, रूट वेलोसिटी ट्रैकिंग का उपयोग करके असमान इलाके पर द्विध्रुवीय लोकोमोशन के लिए डिज़ाइन किया गया एक रोबोट सटीक द्विध्रुवीय हेरफेर कार्यों के लिए सुचारू रूप से संक्रमण करने के लिए संघर्ष करेगा, जिसमें संयुक्त कोण या अंत-प्रभावकारक ट्रैकिंग की आवश्यकता होती है।

इसके अलावा, कई पूर्व-प्रशिक्षित हेरफेर नीतियां विभिन्न कॉन्फ़िगरेशन स्थानों पर संचालित होती हैं, जैसे कि संयुक्त कोण और अंत-प्रभावकारी स्थिति। ये बाधाएं एक एकीकृत निम्न-स्तरीय ह्यूमनॉइड नियंत्रक की आवश्यकता को उजागर करती हैं जो विविध नियंत्रण मोड के अनुकूल होने में सक्षम हैं।

होवर: रोबोटिक नियंत्रण का एकीकृत क्षेत्र सिद्धांत

NVIDIA AI होवर जारी करता है: रोबोटिक्स में बहुमुखी मानवीय नियंत्रण के लिए एक सफलता AI
 – Gadgets Solutions

मंडराना एक प्रतिमान बदलाव है। यह एक “सामान्यवादी नीति” है – एक एकल तंत्रिका नेटवर्क जो विविध नियंत्रण मोड का सामंजस्य स्थापित करता है, जो सहज संक्रमण और अभूतपूर्व बहुमुखी प्रतिभा को सक्षम करता है। मंडराना 19-डीओएफ ह्यूमनॉइड रोबोट पर वास्तविक दुनिया के अनुप्रयोगों के लिए 15 से अधिक उपयोगी कॉन्फ़िगरेशन सहित विविध नियंत्रण मोड का समर्थन करता है। यह बहुमुखी कमांड स्पेस पिछले शोध में उपयोग किए गए अधिकांश मोड को शामिल करता है।

  • मास्टर्स से सीखना: मानव गति की नकल

    मंडराना

    की प्रतिभा अपनी नींव में निहित है: मानव आंदोलन से ही सीखना। मानव गति कैप्चर डेटा (MOCAP) के एक बड़े डेटासेट पर एक “ओरेकल मोशन इमिटेटर” को प्रशिक्षित करके, होवर संतुलन, समन्वय और कुशल आंदोलन के मूल सिद्धांतों को अवशोषित करता है। यह दृष्टिकोण मानव आंदोलनों की प्राकृतिक अनुकूलनशीलता और दक्षता का उपयोग करता है, समृद्ध मोटर पुजारियों के साथ नीति प्रदान करता है जिसे कई नियंत्रण मोड में पुन: उपयोग किया जा सकता है।

    शोधकर्ता मानव जैसी गति में प्रशिक्षण प्रक्रिया को आधार बनाते हैं, जिससे नीति को संतुलन, समन्वय और गति नियंत्रण की गहरी समझ विकसित करने की अनुमति मिलती है, प्रभावी पूरे शरीर के मानवीय व्यवहार के लिए महत्वपूर्ण तत्व।

  • ओरेकल से प्रोडिगी तक: नीति आसवन

जादू वास्तव में “नीति आसवन” के माध्यम से होता है। Oracle नीति, मास्टर Imitator, एक “छात्र नीति” सिखाती है (होवर) अपने कौशल। कमांड मास्किंग और एक खंजर ढांचे से जुड़ी एक प्रक्रिया के माध्यम से, मंडराना संयुक्त कोण नियंत्रण और रूट ट्रैकिंग तक कीनेमेटिक स्थिति ट्रैकिंग से लेकर विविध नियंत्रण मोड को मास्टर करना सीखता है। यह किसी भी नियंत्रण परिदृश्य को संभालने में सक्षम एक “सामान्यवादी” बनाता है।

नीति आसवन के माध्यम से, इन मोटर कौशल को Oracle नीति से एक एकल “सामान्यवादी नीति” में स्थानांतरित किया जाता है जो कई नियंत्रण मोड को संभालने में सक्षम होता है। परिणामी मल्टी-मोड नीति प्रत्येक मोड के लिए व्यक्तिगत रूप से प्रशिक्षित विविध नियंत्रण इनपुट और आउटपरफॉर्म्स नीतियों का समर्थन करती है। शोधकर्ता इस बेहतर प्रदर्शन के उपजी को इस बात की परिकल्पना करते हैं कि वे मोड में साझा भौतिक ज्ञान का उपयोग करके नीति से हैं, जैसे कि संतुलन, मानव जैसी गति और सटीक अंग नियंत्रण को बनाए रखना। ये साझा कौशल सामान्यीकरण को बढ़ाते हैं, जिससे सभी मोड में बेहतर प्रदर्शन होता है, जबकि एकल-मोड नीतियां अक्सर विशिष्ट इनाम संरचनाओं और प्रशिक्षण वातावरण को ओवरफिट करती हैं।

मंडरानाकार्यान्वयन में एक बहुमुखी नियंत्रक बनाने के लिए ज्ञान आसवन के बाद एक ओरेकल नीति का प्रशिक्षण शामिल है। ओरेकल नीति इष्टतम आंदोलनों को उत्पन्न करने के लिए, स्थिति, अभिविन्यास, वेग और संदर्भ पोज़ के साथ पिछली क्रियाओं सहित प्रोप्रियोसेप्टिव जानकारी को संसाधित करती है। Oracle दंड, नियमितीकरण और कार्य घटकों के साथ एक सावधानीपूर्वक डिज़ाइन किए गए इनाम प्रणाली का उपयोग करके मजबूत गति नकल प्राप्त करता है। छात्र नीति तब एक डैगर फ्रेमवर्क के माध्यम से इस ओरेकल से सीखती है, जिसमें मॉडल-आधारित और स्पार्सिटी-आधारित मास्किंग तकनीकों को शामिल किया जाता है जो विभिन्न शरीर के अंगों के चयनात्मक ट्रैकिंग की अनुमति देते हैं। यह आसवन प्रक्रिया शिक्षक और छात्र के बीच कार्रवाई के अंतर को कम करती है, जिससे विविध नियंत्रण परिदृश्यों को संभालने में सक्षम एकीकृत नियंत्रक बन जाता है।

शोधकर्ता एक लक्ष्य-स्थिति वाले सुदृढीकरण सीखने के कार्य के रूप में मानवीय नियंत्रण तैयार करते हैं, जहां नीति को वास्तविक समय मानव गति को ट्रैक करने के लिए प्रशिक्षित किया जाता है। राज्य में रोबोट शामिल है प्रोप्रियोसेप्शन और एक एकीकृत लक्ष्य लक्ष्य राज्य। इन इनपुट्स का उपयोग करते हुए, वे नीति अनुकूलन के लिए एक इनाम फ़ंक्शन को परिभाषित करते हैं। क्रियाएं लक्ष्य संयुक्त पदों का प्रतिनिधित्व करती हैं जिन्हें पीडी नियंत्रक में खिलाया जाता है। सिस्टम ने संचयी रियायती पुरस्कारों को अधिकतम करने के लिए समीपस्थ नीति अनुकूलन (पीपीओ) को नियोजित किया है, अनिवार्य रूप से प्रत्येक टाइमस्टेप पर लक्ष्य कमांड का पालन करने के लिए ह्यूमनॉइड को प्रशिक्षित करता है।

अनुसंधान पद्धति मानव गति डेटासेट से व्यवहार्य मानवीय आंदोलनों को बनाने के लिए गति रिटारगेटिंग तकनीकों का उपयोग करती है। यह तीन-चरण प्रक्रिया आगे कीनेमेटीक्स के माध्यम से कीपॉइंट पदों की गणना के साथ शुरू होती है, इन प्रमुख बिंदुओं के साथ संरेखित करने के लिए एसएमपीएल मॉडल को फिट करना, और ग्रेडिएंट वंश का उपयोग करके मॉडल के बीच इसी बिंदुओं से मेल करके एएमएएसटी डेटासेट को रिटारेट करना। “सिम-टू-डेटा” प्रक्रिया बड़े पैमाने पर मानव गति डेटासेट को व्यवहार्य मानव गति में परिवर्तित करती है, नियंत्रक को प्रशिक्षित करने के लिए एक मजबूत नींव स्थापित करती है।

अनुसंधान टीम ने मानवीय नियंत्रण के लिए एक व्यापक कमांड स्पेस डिज़ाइन किया जो पिछले दृष्टिकोणों की सीमाओं को पार करता है। उनके एकीकृत फ्रेमवर्क में एक साथ कई नियंत्रण मोड समायोजित होते हैं, जिसमें कीनेमेटिक स्थिति ट्रैकिंग, संयुक्त कोण ट्रैकिंग और रूट ट्रैकिंग शामिल हैं। यह डिज़ाइन सामान्यता के प्रमुख मानदंडों (विभिन्न इनपुट उपकरणों का समर्थन करना) और परमाणुता (नियंत्रण विकल्पों के मनमानी संयोजनों को सक्षम करना) को संतुष्ट करता है।

होवर अनलिशेड: प्रदर्शन जो रोबोटिक्स को फिर से परिभाषित करता है

मंडरानाकठोर परीक्षण द्वारा क्षमताएं साबित होती हैं:

  • विशेषज्ञों पर हावी:

    मंडराना

    बोर्ड भर में विशेष नियंत्रक आउटपरफॉर्म। अनुसंधान टीम ने इसहाकम सिमुलेशन और वास्तविक दुनिया के कार्यान्वयन में यूनिट्री एच 1 रोबोट का उपयोग करके दोनों व्यापक परीक्षणों के माध्यम से विशेषज्ञ नीतियों और वैकल्पिक मल्टी-मोड प्रशिक्षण दृष्टिकोणों के खिलाफ होवर का मूल्यांकन किया।

    संबोधित करने के लिए मंडराना विशेष नीतियों को बेहतर बना सकते हैं, उन्होंने इसकी तुलना विभिन्न विशेषज्ञों के खिलाफ की, जिनमें एक्सबॉडी, ह्यूमनप्लस, एच 2 ओ और ओएमएनआईएच 2 ओ सहित – प्रत्येक को अलग -अलग ट्रैकिंग उद्देश्यों जैसे कि संयुक्त कोण, रूट वेग, या विशिष्ट प्रमुख बिंदुओं के लिए डिज़ाइन किया गया है।

मूल्यांकन में रिटारगेटेड अमास डेटासेट का उपयोग करते हुए, मंडराना लगातार बेहतर सामान्यीकरण का प्रदर्शन किया, प्रत्येक कमांड मोड में 12 मेट्रिक्स में से कम से कम 7 में विशेषज्ञों को बेहतर बनाया। मंडराना बाएं हाथ, दाएं हाथ, दो-हाथ और हेड ट्रैकिंग जैसे विशिष्ट उपयोगी नियंत्रण मोड के लिए प्रशिक्षित विशेषज्ञों की तुलना में बेहतर प्रदर्शन किया।

  • मल्टी-मोड महारत: एक साफ स्वीपजब अन्य मल्टी-मोड प्रशिक्षण विधियों की तुलना में, उन्होंने एक आधार रेखा को लागू किया जो एक ही मास्किंग प्रक्रिया का उपयोग करता था, लेकिन सुदृढीकरण सीखने के साथ खरोंच से प्रशिक्षित होता है। रडार चार्ट आठ अलग -अलग नियंत्रण मोड में ट्रैकिंग त्रुटियों की कल्पना करते हुए दिखाया गया है कि सभी 32 मैट्रिक्स और मोड में कम त्रुटियों को प्राप्त करते हुए लगातार होवर को दिखाया गया है। मंडराना सभी 32 मेट्रिक्स और 8 अलग -अलग नियंत्रण मोड में लगातार कम ट्रैकिंग त्रुटियों को प्राप्त किया। यह निर्णायक जीत होवर के आसवन दृष्टिकोण की शक्ति को रेखांकित करती है। यह व्यापक प्रदर्शन लाभ एक ओरेकल नीति से ज्ञान को दूर करने की प्रभावशीलता को रेखांकित करता है जो खरोंच से सुदृढीकरण सीखने के साथ प्रशिक्षण के बजाय पूर्ण-शरीर कीनेमेटीक्स को ट्रैक करता है।
  • सिमुलेशन से वास्तविकता तक: वास्तविक दुनिया सत्यापन

    मंडराना

    की संभावना डिजिटल दुनिया तक ही सीमित नहीं है। प्रायोगिक सेटअप में सिमुलेशन में रिटारगेटेड एएमएएसएस डेटासेट का उपयोग करके मोशन ट्रैकिंग मूल्यांकन शामिल थे और 19-डीओएफ यूनिट्री एच 1 प्लेटफॉर्म पर वास्तविक दुनिया के परीक्षणों के लिए 20 स्थायी गति अनुक्रम, जिनका वजन 51.5 किग्रा था और 1.8 मीटर लंबा था। प्रयोगों को होवर की सामान्यता, तुलनात्मक प्रदर्शन और वास्तविक दुनिया हस्तांतरणीयता के बारे में तीन प्रमुख सवालों के जवाब देने के लिए संरचित किया गया था।

Unitree H1 रोबोट पर, एक 19-DOF Humanoid का वजन 51.5 किग्रा और 1.8 मीटर लंबा है, होवर ने जटिल रूप से जटिल खड़े गतियों, गतिशील रनिंग मूवमेंट को ट्रैक किया, और लोकोमोशन और टेलियोपरेशन के दौरान नियंत्रण मोड के बीच सुचारू रूप से संक्रमण किया। सिमुलेशन और एक भौतिक ह्यूमनॉइड रोबोट दोनों में किए गए प्रयोगों से पता चलता है कि मंडराना नियंत्रण मोड के बीच निर्बाध संक्रमण को प्राप्त करता है और आधारभूत दृष्टिकोणों की तुलना में बेहतर मल्टी-मोड नियंत्रण प्रदान करता है।

होवर: ह्यूमनॉइड क्षमता का भविष्य

मंडरानाह्यूमनॉइड रोबोट की विशाल क्षमता को अनलॉक करता है। मल्टी-मोड सामान्यवादी नीति भी मोड के बीच सहज संक्रमण को सक्षम करती है, जिससे यह मजबूत और बहुमुखी हो जाता है।

एक ऐसे भविष्य की कल्पना करें जहां ह्यूमनॉइड्स:

  • अद्वितीय सटीकता के साथ जटिल सर्जरी करें।
  • मानव जैसी निपुणता के साथ जटिल संरचनाओं का निर्माण करें।
  • चपलता और लचीलापन के साथ आपदाओं का जवाब दें।
  • कारखानों, कार्यालयों और घरों में मनुष्यों के साथ मूल रूप से सहयोग करें।

वास्तव में बहुमुखी, सक्षम और बुद्धिमान ह्यूमनॉइड्स की उम्र क्षितिज पर है, और होवर इस तरह से आगे बढ़ रहा है। उनके मूल्यांकन सामूहिक रूप से चित्रित करते हैं मंडरानाविशेषज्ञ नीतियों की तुलना में बेहतर प्रदर्शन की पेशकश करते हुए विविध वास्तविक दुनिया के नियंत्रण मोड को संभालने की क्षमता।

सूत्रों का कहना है:


इस लेख के लिए विचार नेतृत्व/ संसाधनों के लिए NVIDIA टीम को धन्यवाद। NVIDIA टीम ने इस सामग्री/लेख का समर्थन और प्रायोजित किया है।


जीन-मार्क एक सफल एआई बिजनेस एक्जीक्यूटिव हैं। वह एआई संचालित समाधानों के लिए विकास और गति को बढ़ाते हैं और 2006 में एक कंप्यूटर विजन कंपनी शुरू करते हैं। वह एआई सम्मेलनों में एक मान्यता प्राप्त वक्ता हैं और स्टैनफोर्ड से एमबीए हैं।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »