Monday, April 21, 2025

Bytedance UI-TARS-1.5 रिलीज़ करता है: एक शक्तिशाली दृष्टि-भाषा मॉडल पर निर्मित एक ओपन-सोर्स मल्टीमॉडल AI एजेंट – Gadgets Solutions

-

Bytedance ने UI-TARS-1.5 जारी किया है, जो अपने मल्टीमॉडल एजेंट फ्रेमवर्क का एक अद्यतन संस्करण है, जो ग्राफिकल यूजर इंटरफेस (GUI) इंटरैक्शन और गेम वातावरण पर केंद्रित है। स्क्रीन सामग्री को समझने और इंटरैक्टिव कार्यों को करने में सक्षम एक विज़न-भाषा मॉडल के रूप में डिज़ाइन किया गया, UI-TARS-1.5 GUI स्वचालन और गेम रीजनिंग बेंचमार्क की एक श्रृंखला में लगातार सुधार प्रदान करता है। विशेष रूप से, यह कई प्रमुख मॉडलों को पार करता है – जिसमें ओपनआईए के ऑपरेटर और एन्थ्रोपिक के क्लाउड 3.7 शामिल हैं – सटीकता और कार्य दोनों में कई वातावरणों में पूरा होने में।

रिलीज ने देशी एजेंट मॉडल के निर्माण के बाईडेंस के अनुसंधान दिशा को जारी रखा है, जिसका उद्देश्य एक एकीकृत वास्तुकला के माध्यम से धारणा, अनुभूति और कार्रवाई को एकीकृत करना है जो जीयूआई और दृश्य सामग्री के साथ प्रत्यक्ष जुड़ाव का समर्थन करता है।

GUI इंटरैक्शन के लिए एक देशी एजेंट दृष्टिकोण

टूल-अगस्त LLMS या फ़ंक्शन-कॉलिंग आर्किटेक्चर के विपरीत, UI-TARS-1.5 को दृश्य इनपुट (स्क्रीनशॉट) को देखने और माउस मूवमेंट और कीबोर्ड इनपुट जैसे देशी मानव-जैसे नियंत्रण क्रियाएं उत्पन्न करने के लिए एंड-टू-एंड प्रशिक्षित किया जाता है। यह मॉडल को इस बात के करीब रखता है कि मानव उपयोगकर्ता डिजिटल सिस्टम के साथ कैसे बातचीत करते हैं।

UI-TARS-1.5 कई वास्तुशिल्प और प्रशिक्षण संवर्द्धन शुरू करके अपने पूर्ववर्ती पर बनाता है:

  • धारणा और तर्क एकीकरण: मॉडल संयुक्त रूप से स्क्रीन छवियों और पाठ्य निर्देशों को एनकोड करता है, जटिल कार्य समझ और दृश्य ग्राउंडिंग का समर्थन करता है। तर्क को एक बहु-चरण “थिंक-तब-एक्ट” तंत्र के माध्यम से समर्थित किया जाता है, जो उच्च-स्तरीय योजना को निम्न-स्तरीय निष्पादन से अलग करता है।
  • एकीकृत एक्शन स्पेस: एक्शन प्रतिनिधित्व को प्लेटफ़ॉर्म-अज्ञेय के रूप में डिज़ाइन किया गया है, जो डेस्कटॉप, मोबाइल और गेम वातावरण में एक सुसंगत इंटरफ़ेस को सक्षम करता है।
  • रीप्ले निशान के माध्यम से स्व-विकास: प्रशिक्षण पाइपलाइन पर चिंतनशील ऑनलाइन ट्रेस डेटा शामिल है। यह मॉडल को पिछले इंटरैक्शन का विश्लेषण करके अपने व्यवहार को पुनरावृत्त करने की अनुमति देता है – क्यूरेटेड प्रदर्शनों पर निर्भरता को कम करना।

ये सुधार सामूहिक रूप से UI-TARS-1.5 को लंबे समय तक-क्षितिज इंटरैक्शन, त्रुटि वसूली, और रचनात्मक कार्य योजना-यथार्थवादी UI नेविगेशन और नियंत्रण के लिए महत्वपूर्ण क्षमताओं का समर्थन करने के लिए सक्षम करते हैं।

बेंचमार्किंग और मूल्यांकन

मॉडल का मूल्यांकन कई बेंचमार्क सूट पर किया गया है जो GUI और गेम-आधारित कार्यों दोनों में एजेंट व्यवहार का आकलन करते हैं। ये बेंचमार्क तर्क, ग्राउंडिंग और लंबे समय तक-हॉरिजोन निष्पादन में मॉडल प्रदर्शन का आकलन करने के लिए एक मानक तरीका प्रदान करते हैं।

GUI एजेंट कार्य

  • ओसवर्ल्ड (100 चरण): UI-TARS-1.5 42.5%की सफलता दर प्राप्त करता है, Openai ऑपरेटर (36.4%) और क्लाउड 3.7 (28%) से बेहतर प्रदर्शन करता है। बेंचमार्क एक सिंथेटिक ओएस वातावरण में लंबे समय से संदर्भ जीयूआई कार्यों का मूल्यांकन करता है।
  • विंडोज एजेंट एरिना (50 चरण): 42.1%स्कोर करते हुए, मॉडल डेस्कटॉप वातावरण की मजबूत हैंडलिंग का प्रदर्शन करते हुए, पूर्व आधारभूत (जैसे, 29.8%) पर काफी सुधार करता है।
  • एंड्रॉइड वर्ल्ड: मॉडल मोबाइल ऑपरेटिंग सिस्टम के लिए सामान्यता का सुझाव देते हुए, 64.2% सफलता दर तक पहुंचता है।

दृश्य ग्राउंडिंग और स्क्रीन समझ

  • स्क्रीनस्पॉट-वी 2: मॉडल GUI तत्वों का पता लगाने में 94.2%सटीकता प्राप्त करता है, ऑपरेटर (87.9%) और क्लाउड 3.7 (87.6%) से बेहतर प्रदर्शन करता है।
  • स्क्रीनपोटप्रो: एक अधिक जटिल ग्राउंडिंग बेंचमार्क में, UI-TARS-1.5 स्कोर 61.6%, ऑपरेटर (23.4%) और क्लाउड 3.7 (27.7%) से काफी आगे।

ये परिणाम स्क्रीन अंडरस्टैंडिंग और एक्शन ग्राउंडिंग में लगातार सुधार दिखाते हैं, जो वास्तविक दुनिया के जीयूआई एजेंटों के लिए महत्वपूर्ण हैं।

खेल का वातावरण

  • पोकी गेम्स: UI-TARS-1.5 14 मिनी-गेम में 100% कार्य पूरा होने की दर प्राप्त करता है। ये खेल यांत्रिकी और संदर्भ में भिन्न होते हैं, जिसमें इंटरैक्टिव डायनेमिक्स में सामान्यीकरण करने के लिए मॉडल की आवश्यकता होती है।
  • मिनीक्राफ्ट (खनिज): मॉडल खनन कार्यों पर 42% सफलता प्राप्त करता है और “थिंक-तब-एक्ट” मॉड्यूल का उपयोग करते समय भीड़-हत्या कार्यों पर 31%, यह सुझाव देता है कि यह खुले-समाप्त वातावरण में उच्च-स्तरीय योजना का समर्थन कर सकता है।

अभिगम्यता और टूलींग

UI-TARS-1.5 Apache 2.0 लाइसेंस के तहत खुला-खट्टा है और कई परिनियोजन विकल्पों के माध्यम से उपलब्ध है:

मॉडल के अलावा, परियोजना प्रयोग और प्रजनन क्षमता को सुविधाजनक बनाने के लिए विस्तृत प्रलेखन, रिप्ले डेटा और मूल्यांकन उपकरण प्रदान करती है।

निष्कर्ष

UI-TARS-1.5 मल्टीमॉडल AI एजेंटों के क्षेत्र में एक तकनीकी रूप से ध्वनि प्रगति है, विशेष रूप से उन लोगों को GUI नियंत्रण और ग्राउंडेड विजुअल रीजनिंग पर केंद्रित है। विज़न-लैंग्वेज इंटीग्रेशन, मेमोरी मैकेनिज्म और स्ट्रक्चर्ड एक्शन प्लानिंग के संयोजन के माध्यम से, मॉडल इंटरैक्टिव वातावरण के विविध सेट में मजबूत प्रदर्शन को प्रदर्शित करता है।

सार्वभौमिक सामान्यता का पीछा करने के बजाय, मॉडल को कार्य-उन्मुख मल्टीमॉडल तर्क के लिए ट्यून किया गया है-दृश्य समझ के माध्यम से सॉफ्टवेयर के साथ बातचीत करने की वास्तविक दुनिया की चुनौती को हेट करना। इसकी ओपन-सोर्स रिलीज़ शोधकर्ताओं और डेवलपर्स के लिए एक व्यावहारिक रूपरेखा प्रदान करती है, जो देशी एजेंट इंटरफेस की खोज करने या भाषा और दृष्टि के माध्यम से इंटरैक्टिव सिस्टम को स्वचालित करने में रुचि रखते हैं।


इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


Bytedance UI-TARS-1.5 रिलीज़ करता है: एक शक्तिशाली दृष्टि-भाषा मॉडल पर निर्मित एक ओपन-सोर्स मल्टीमॉडल AI एजेंट
 – Gadgets Solutions

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »