बड़ी भाषा मॉडल (एलएलएम) में प्रगति के बावजूद, एआई एजेंटों को अभी भी उल्लेखनीय सीमाओं का सामना करना पड़ता है जब जटिल जानकारी प्राप्त करने के लिए खुले वेब को नेविगेट किया जाता है। जबकि कई मॉडल स्थैतिक ज्ञान बेंचमार्क पर उत्कृष्ट प्रदर्शन करते हैं, वे अक्सर कई स्रोतों में बारीक, संदर्भ-निर्भर तथ्यों का पता लगाने के साथ काम करते हैं। अधिकांश मौजूदा बेंचमार्क आसानी से सुलभ ज्ञान के एक मॉडल को याद करते हैं, जो वास्तविक दुनिया के ब्राउज़िंग कार्यों की गहनता को प्रतिबिंबित नहीं करता है। इसके विपरीत, एप्लाइड सेटिंग्स में काम करने वाले एजेंट-चाहे अनुसंधान के साथ सहायता करना, नीति को सारांशित करना, या तथ्य-जाँच के दावे-दृढ़ता, संरचित तर्क, और गतिशील रूप से अपनी खोज रणनीतियों को अनुकूलित करने की क्षमता। ये क्षमताएं वर्तमान AI सिस्टम में अविकसित रहती हैं।
Openai Open Sources Browsecomp: 1,266 सूचना-चाहने वाले कार्यों का एक बेंचमार्क
इन क्षमताओं का बेहतर मूल्यांकन करने के लिए, Openai ने जारी किया है ब्राउज़कॉम्पएक बेंचमार्क को वेब को लगातार ब्राउज़ करने और हार्ड-टू-फाइंड जानकारी को पुनः प्राप्त करने के लिए एजेंटों की क्षमता का आकलन करने के लिए डिज़ाइन किया गया है। बेंचमार्क में 1,266 तथ्य चाहने वाली समस्याएं शामिल हैं, जिनमें से प्रत्येक एक छोटी, अस्पष्ट उत्तर के साथ है। इन कार्यों को हल करने के लिए अक्सर कई वेबपेजों के माध्यम से नेविगेट करने, विविध जानकारी को समेटने और शोर से प्रासंगिक संकेतों को फ़िल्टर करने की आवश्यकता होती है।

बेंचमार्क इस धारणा से प्रेरित है कि जिस तरह प्रोग्रामिंग प्रतियोगिताओं को कोडिंग एजेंटों के लिए केंद्रित परीक्षणों के रूप में काम करता है, ब्रॉसेकॉम्प वेब-ब्राउज़िंग एजेंटों के मूल्यांकन का खुलासा करने वाला एक समान रूप से विवश अभी तक विवश करता है। यह जानबूझकर अस्पष्ट उपयोगकर्ता लक्ष्यों या लंबे समय के आउटपुट के साथ कार्यों से बचता है, इसके बजाय सटीक, तर्क और धीरज की मुख्य दक्षताओं पर ध्यान केंद्रित करता है।
Browsecomp एक रिवर्स-क्वासेशन डिज़ाइन पद्धति का उपयोग करके बनाया गया है: एक विशिष्ट, सत्यापन योग्य तथ्य के साथ शुरुआत, उन्होंने जटिलता और बाधा के माध्यम से उत्तर को अस्पष्ट करने के लिए डिज़ाइन किए गए एक प्रश्न का निर्माण किया। मानव प्रशिक्षकों ने सुनिश्चित किया कि प्रश्नों को सतही खोज के माध्यम से हल नहीं किया जा सकता है और पुनर्प्राप्ति और तर्क क्षमताओं दोनों को चुनौती देगा। इसके अतिरिक्त, यह सुनिश्चित करने के लिए कि वे GPT-4, Openai O1, या पहले के ब्राउज़िंग-सक्षम मॉडल द्वारा आसानी से हल नहीं होंगे, यह सुनिश्चित करने के लिए प्रश्नों का उपयोग किया गया था।

डेटासेट विज्ञान, इतिहास, कला, खेल और मनोरंजन सहित डोमेन की एक विस्तृत श्रृंखला को फैलाता है – और विषय विविधता को बढ़ावा देने के लिए संतुलित है। प्रत्येक कार्य को तैयार किया जाता है ताकि सही उत्तर एक छोटा स्ट्रिंग हो, जो मूल्यांकन को सरल बनाता है और अस्पष्टता को कम करता है। मानव प्रदर्शन का भी आकलन किया गया था, मानव प्रशिक्षकों ने प्रति कार्य दो घंटे दिए; अधिकांश कार्यों को हल करने में विफल रहे, उनकी कठिनाई को दर्शाते हुए।
मॉडल मूल्यांकन और निष्कर्ष
OpenAI ने GPT-4O (ब्राउज़िंग के साथ और बिना ब्राउज़िंग के साथ), GPT-4.5, Openai O1, और डीप रिसर्च सहित कई मॉडलों का मूल्यांकन किया-विशेष रूप से लगातार ब्राउज़िंग कार्यों को संभालने के लिए प्रशिक्षित एक मॉडल। परिणामों से संकेत मिलता है कि उन्नत खोज या तर्क रणनीतियों के बिना मॉडल खराब प्रदर्शन करते हैं: ब्राउज़िंग के बिना जीपीटी -4 ओ ने 0.6% सटीकता हासिल की, और ब्राउज़िंग सक्षम के साथ, केवल 1.9%। GPT-4.5 ने समान रूप से कम स्कोर किया। Openai O1, बेहतर तर्क के साथ लेकिन कोई ब्राउज़िंग नहीं, 9.9%पर मध्यम रूप से बेहतर प्रदर्शन किया।
डीप रिसर्च ने 51.5% सटीकता प्राप्त करते हुए अन्य सभी मॉडलों को आगे बढ़ाया। इसकी वास्तुकला और प्रशिक्षण पुनरावृत्त खोज, साक्ष्य संश्लेषण और अनुकूली नेविगेशन पर जोर देते हैं। प्रदर्शन और एकत्रीकरण रणनीतियों जैसे कि बेस्ट-ऑफ-एन चयन और विश्वास-आधारित मतदान के साथ प्रदर्शन कई परीक्षणों के साथ प्रदर्शन में और सुधार हुआ। जबकि गहन अनुसंधान ने उच्च अंशांकन त्रुटि का प्रदर्शन किया – अक्सर गलत उत्तरों में अति आत्मविश्वास का प्रदर्शन किया गया – यह अक्सर आंतरिक स्थिरता के साथ अपने स्वयं के सही आउटपुट की पहचान करता है, एक प्रयोग करने योग्य विश्वास संकेत का सुझाव देता है।

मानव प्रदर्शन और कार्य कठिनाई
मानव प्रशिक्षकों ने एआई उपकरणों की सहायता के बिना बेंचमार्क समस्याओं को हल करने का प्रयास किया। 1,255 प्रयास किए गए कार्यों में से, 71% को दो घंटे की खिड़की के भीतर अयोग्य के रूप में चिह्नित किया गया था, और केवल 29% सफलतापूर्वक पूरा हो गया था। उनमें से, संदर्भ उत्तर के साथ समझौते की दर 86.4%थी। ये परिणाम बेंचमार्क की जटिलता को रेखांकित करते हैं और सुझाव देते हैं कि वर्तमान एआई मॉडल अभी भी ऐसे कार्यों के लिए आवश्यक अनुकूलनशीलता और पृष्ठभूमि तर्क कौशल से कम हैं।
निष्कर्ष
Browsecomp वेब-ब्राउज़िंग एजेंटों की मुख्य क्षमताओं का मूल्यांकन करने के लिए एक केंद्रित, सत्यापन योग्य और तकनीकी रूप से मांग करने वाले बेंचमार्क का परिचय देता है। स्टैटिक रिकॉल से डायनेमिक रिट्रीवल और मल्टी-हॉप रीजनिंग में जोर देने से, यह एक यथार्थवादी चुनौती प्रस्तुत करता है जो उभरते वास्तविक दुनिया के अनुप्रयोगों के साथ निकटता से संरेखित होता है। यद्यपि वर्तमान मॉडल, जिनमें ब्राउज़िंग क्षमताओं वाले लोग शामिल हैं, असमान रूप से प्रदर्शन करते हैं, डीप रिसर्च एजेंट इस अंतर को पाटने के लिए समर्पित आर्किटेक्चर की क्षमता को दर्शाता है।
Browsecomp सार्वजनिक रूप से उपलब्ध है GitHub और पर विस्तृत Openai का आधिकारिक ब्लॉग। इसकी जाँच पड़ताल करो यहाँ कागज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
