Bytedance ने UI-TARS-1.5 जारी किया है, जो अपने मल्टीमॉडल एजेंट फ्रेमवर्क का एक अद्यतन संस्करण है, जो ग्राफिकल यूजर इंटरफेस (GUI) इंटरैक्शन और गेम वातावरण पर केंद्रित है। स्क्रीन सामग्री को समझने और इंटरैक्टिव कार्यों को करने में सक्षम एक विज़न-भाषा मॉडल के रूप में डिज़ाइन किया गया, UI-TARS-1.5 GUI स्वचालन और गेम रीजनिंग बेंचमार्क की एक श्रृंखला में लगातार सुधार प्रदान करता है। विशेष रूप से, यह कई प्रमुख मॉडलों को पार करता है – जिसमें ओपनआईए के ऑपरेटर और एन्थ्रोपिक के क्लाउड 3.7 शामिल हैं – सटीकता और कार्य दोनों में कई वातावरणों में पूरा होने में।
रिलीज ने देशी एजेंट मॉडल के निर्माण के बाईडेंस के अनुसंधान दिशा को जारी रखा है, जिसका उद्देश्य एक एकीकृत वास्तुकला के माध्यम से धारणा, अनुभूति और कार्रवाई को एकीकृत करना है जो जीयूआई और दृश्य सामग्री के साथ प्रत्यक्ष जुड़ाव का समर्थन करता है।
GUI इंटरैक्शन के लिए एक देशी एजेंट दृष्टिकोण
टूल-अगस्त LLMS या फ़ंक्शन-कॉलिंग आर्किटेक्चर के विपरीत, UI-TARS-1.5 को दृश्य इनपुट (स्क्रीनशॉट) को देखने और माउस मूवमेंट और कीबोर्ड इनपुट जैसे देशी मानव-जैसे नियंत्रण क्रियाएं उत्पन्न करने के लिए एंड-टू-एंड प्रशिक्षित किया जाता है। यह मॉडल को इस बात के करीब रखता है कि मानव उपयोगकर्ता डिजिटल सिस्टम के साथ कैसे बातचीत करते हैं।
UI-TARS-1.5 कई वास्तुशिल्प और प्रशिक्षण संवर्द्धन शुरू करके अपने पूर्ववर्ती पर बनाता है:
- धारणा और तर्क एकीकरण: मॉडल संयुक्त रूप से स्क्रीन छवियों और पाठ्य निर्देशों को एनकोड करता है, जटिल कार्य समझ और दृश्य ग्राउंडिंग का समर्थन करता है। तर्क को एक बहु-चरण “थिंक-तब-एक्ट” तंत्र के माध्यम से समर्थित किया जाता है, जो उच्च-स्तरीय योजना को निम्न-स्तरीय निष्पादन से अलग करता है।
- एकीकृत एक्शन स्पेस: एक्शन प्रतिनिधित्व को प्लेटफ़ॉर्म-अज्ञेय के रूप में डिज़ाइन किया गया है, जो डेस्कटॉप, मोबाइल और गेम वातावरण में एक सुसंगत इंटरफ़ेस को सक्षम करता है।
- रीप्ले निशान के माध्यम से स्व-विकास: प्रशिक्षण पाइपलाइन पर चिंतनशील ऑनलाइन ट्रेस डेटा शामिल है। यह मॉडल को पिछले इंटरैक्शन का विश्लेषण करके अपने व्यवहार को पुनरावृत्त करने की अनुमति देता है – क्यूरेटेड प्रदर्शनों पर निर्भरता को कम करना।
ये सुधार सामूहिक रूप से UI-TARS-1.5 को लंबे समय तक-क्षितिज इंटरैक्शन, त्रुटि वसूली, और रचनात्मक कार्य योजना-यथार्थवादी UI नेविगेशन और नियंत्रण के लिए महत्वपूर्ण क्षमताओं का समर्थन करने के लिए सक्षम करते हैं।
बेंचमार्किंग और मूल्यांकन
मॉडल का मूल्यांकन कई बेंचमार्क सूट पर किया गया है जो GUI और गेम-आधारित कार्यों दोनों में एजेंट व्यवहार का आकलन करते हैं। ये बेंचमार्क तर्क, ग्राउंडिंग और लंबे समय तक-हॉरिजोन निष्पादन में मॉडल प्रदर्शन का आकलन करने के लिए एक मानक तरीका प्रदान करते हैं।
GUI एजेंट कार्य
- ओसवर्ल्ड (100 चरण): UI-TARS-1.5 42.5%की सफलता दर प्राप्त करता है, Openai ऑपरेटर (36.4%) और क्लाउड 3.7 (28%) से बेहतर प्रदर्शन करता है। बेंचमार्क एक सिंथेटिक ओएस वातावरण में लंबे समय से संदर्भ जीयूआई कार्यों का मूल्यांकन करता है।
- विंडोज एजेंट एरिना (50 चरण): 42.1%स्कोर करते हुए, मॉडल डेस्कटॉप वातावरण की मजबूत हैंडलिंग का प्रदर्शन करते हुए, पूर्व आधारभूत (जैसे, 29.8%) पर काफी सुधार करता है।
- एंड्रॉइड वर्ल्ड: मॉडल मोबाइल ऑपरेटिंग सिस्टम के लिए सामान्यता का सुझाव देते हुए, 64.2% सफलता दर तक पहुंचता है।
दृश्य ग्राउंडिंग और स्क्रीन समझ
- स्क्रीनस्पॉट-वी 2: मॉडल GUI तत्वों का पता लगाने में 94.2%सटीकता प्राप्त करता है, ऑपरेटर (87.9%) और क्लाउड 3.7 (87.6%) से बेहतर प्रदर्शन करता है।
- स्क्रीनपोटप्रो: एक अधिक जटिल ग्राउंडिंग बेंचमार्क में, UI-TARS-1.5 स्कोर 61.6%, ऑपरेटर (23.4%) और क्लाउड 3.7 (27.7%) से काफी आगे।
ये परिणाम स्क्रीन अंडरस्टैंडिंग और एक्शन ग्राउंडिंग में लगातार सुधार दिखाते हैं, जो वास्तविक दुनिया के जीयूआई एजेंटों के लिए महत्वपूर्ण हैं।
खेल का वातावरण
- पोकी गेम्स: UI-TARS-1.5 14 मिनी-गेम में 100% कार्य पूरा होने की दर प्राप्त करता है। ये खेल यांत्रिकी और संदर्भ में भिन्न होते हैं, जिसमें इंटरैक्टिव डायनेमिक्स में सामान्यीकरण करने के लिए मॉडल की आवश्यकता होती है।
- मिनीक्राफ्ट (खनिज): मॉडल खनन कार्यों पर 42% सफलता प्राप्त करता है और “थिंक-तब-एक्ट” मॉड्यूल का उपयोग करते समय भीड़-हत्या कार्यों पर 31%, यह सुझाव देता है कि यह खुले-समाप्त वातावरण में उच्च-स्तरीय योजना का समर्थन कर सकता है।
अभिगम्यता और टूलींग
UI-TARS-1.5 Apache 2.0 लाइसेंस के तहत खुला-खट्टा है और कई परिनियोजन विकल्पों के माध्यम से उपलब्ध है:
मॉडल के अलावा, परियोजना प्रयोग और प्रजनन क्षमता को सुविधाजनक बनाने के लिए विस्तृत प्रलेखन, रिप्ले डेटा और मूल्यांकन उपकरण प्रदान करती है।
निष्कर्ष
UI-TARS-1.5 मल्टीमॉडल AI एजेंटों के क्षेत्र में एक तकनीकी रूप से ध्वनि प्रगति है, विशेष रूप से उन लोगों को GUI नियंत्रण और ग्राउंडेड विजुअल रीजनिंग पर केंद्रित है। विज़न-लैंग्वेज इंटीग्रेशन, मेमोरी मैकेनिज्म और स्ट्रक्चर्ड एक्शन प्लानिंग के संयोजन के माध्यम से, मॉडल इंटरैक्टिव वातावरण के विविध सेट में मजबूत प्रदर्शन को प्रदर्शित करता है।
सार्वभौमिक सामान्यता का पीछा करने के बजाय, मॉडल को कार्य-उन्मुख मल्टीमॉडल तर्क के लिए ट्यून किया गया है-दृश्य समझ के माध्यम से सॉफ्टवेयर के साथ बातचीत करने की वास्तविक दुनिया की चुनौती को हेट करना। इसकी ओपन-सोर्स रिलीज़ शोधकर्ताओं और डेवलपर्स के लिए एक व्यावहारिक रूपरेखा प्रदान करती है, जो देशी एजेंट इंटरफेस की खोज करने या भाषा और दृष्टि के माध्यम से इंटरैक्टिव सिस्टम को स्वचालित करने में रुचि रखते हैं।
इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
