आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग (एमएल) अनुसंधान में तेजी से प्रगति, मानव शोधकर्ताओं द्वारा परंपरागत रूप से किए गए जटिल, अनुभवजन्य अनुसंधान कार्यों की नकल करने में एआई एजेंटों की क्षमताओं का सही मूल्यांकन करने के महत्व को रेखांकित करती है। वर्तमान में, व्यवस्थित मूल्यांकन उपकरण जो एआई एजेंटों की स्वायत्त रूप से एमएल अनुसंधान निष्कर्षों को पुन: पेश करने की क्षमता को ठीक से मापते हैं, इस तरह की प्रणालियों की क्षमता और सीमाओं को पूरी तरह से समझने में चुनौतियों का सामना करते हैं।
Openai ने PaperBench पेश किया है, जो एक बेंचमार्क है, जिसे स्वायत्त रूप से अत्याधुनिक मशीन लर्निंग रिसर्च की स्वायत्त रूप से दोहराने में AI एजेंटों की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। पेपरबेंच विशेष रूप से मापता है कि क्या एआई सिस्टम शोध पत्रों की सटीक व्याख्या कर सकता है, स्वतंत्र रूप से आवश्यक कोडबेस विकसित कर सकता है, और अनुभवजन्य परिणामों को दोहराने के लिए प्रयोगों को निष्पादित कर सकता है। बेंचमार्क में ICML 2024 से चुने गए 20 कागजात शामिल हैं, जिसमें सुदृढीकरण सीखने, मजबूती और संभाव्य तरीकों सहित क्षेत्रों को कवर किया गया है। विस्तृत रूब्रिक्स, मूल पेपर लेखकों के साथ सह-विकसित, एआई क्षमताओं के सटीक मूल्यांकन को सुविधाजनक बनाने के लिए 8,316 व्यक्तिगत रूप से ग्रेडेबल कार्यों को निर्दिष्ट करते हैं।

एक तकनीकी दृष्टिकोण से, पेपरबेंच को एआई एजेंटों को स्क्रैच से व्यापक कोड रिपॉजिटरी विकसित करने के लिए शोध पत्र और पूरक स्पष्टीकरण प्रदान करने के लिए एआई एजेंटों की आवश्यकता होती है। इन रिपॉजिटरी में पूर्ण प्रयोगात्मक सेटअप और निष्पादन स्क्रिप्ट शामिल होने चाहिए, विशेष रूप से पुन: पेश करें। वास्तविक स्वतंत्र प्रतिकृति सुनिश्चित करने के लिए, एजेंटों को मूल लेखकों के रिपॉजिटरी से कोड को संदर्भित या पुन: उपयोग करने से प्रतिबंधित किया जाता है। रूब्रिक्स को विभिन्न स्तरों पर स्पष्ट पास-फेल मानदंडों को विस्तार से विस्तारित करने के लिए पदानुक्रमित रूप से संरचित किया जाता है, जिससे व्यवस्थित और उद्देश्य मूल्यांकन की अनुमति मिलती है। मूल्यांकन SimpleDge, एक स्वचालित बड़े भाषा मॉडल (LLM)-आधारित न्यायाधीश का उपयोग करके आयोजित किया जाता है, जो ग्रेडिंग प्रक्रिया को सरल करता है। SimpleDdge ने जजवेल पर 0.83 का F1 स्कोर हासिल किया, एक सहायक मूल्यांकन डेटासेट विशेष रूप से स्वचालित ग्रेडिंग सटीकता को मान्य करने के लिए डिज़ाइन किया गया।
कई उन्नत एआई मॉडल के अनुभवजन्य मूल्यांकन पेपरबेंच पर अलग -अलग प्रदर्शन स्तर का संकेत देते हैं। क्लाउड 3.5 सॉनेट ने 21.0%के औसत प्रतिकृति स्कोर के साथ उच्चतम क्षमता का प्रदर्शन किया। अन्य मॉडलों जैसे कि Openai के GPT-4O और GEMINI 2.0 फ्लैश ने क्रमशः 4.1% और 3.2% के कम स्कोर प्राप्त किए। तुलनात्मक रूप से, विशेषज्ञ मानव एमएल शोधकर्ताओं ने समर्पित प्रयास के 48 घंटे के बाद 41.4% तक पहुंचने के लिए काफी अधिक सटीकता हासिल की। मॉडल के प्रदर्शन के विश्लेषण से प्रारंभिक रैपिड कोड जनरेशन और प्रारंभिक प्रयोगात्मक सेटअप में ताकत का पता चला, लेकिन समय के साथ लंबे समय तक कार्यों, समस्या निवारण और रणनीतिक दृष्टिकोणों को अपनाने में पर्याप्त कमजोरियों पर प्रकाश डाला गया।

ये परिणाम वर्तमान एआई सिस्टम क्षमताओं में महत्वपूर्ण तकनीकी अंतर्दृष्टि प्रदान करते हैं। जबकि AI मॉडल कुछ कोडिंग कार्यों और प्रारंभिक प्रयोग कार्यान्वयन में क्षमता प्रदर्शित करते हैं, महत्वपूर्ण अंतराल बने रहते हैं, विशेष रूप से निरंतर कार्य निष्पादन, अनुकूली समस्या-समाधान और रणनीतिक योजना के बारे में। इसके अतिरिक्त, पेपरबेंच कोड-डीईवी की शुरूआत, एक सुव्यवस्थित संस्करण, जो प्रयोगात्मक निष्पादन के बिना कोड शुद्धता पर जोर देता है, कम कम्प्यूटेशनल और मूल्यांकन लागत के कारण व्यापक और संसाधन-सीमित सामुदायिक उपयोग के लिए एक व्यावहारिक विकल्प प्रदान करता है।
सारांश में, पेपरबेंच AI अनुसंधान क्षमताओं का व्यवस्थित रूप से मूल्यांकन करने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। यह एक संरचित और विस्तृत मूल्यांकन वातावरण प्रदान करता है जो मानव प्रदर्शन के सापेक्ष समकालीन एआई मॉडल की विशिष्ट ताकत और सीमाओं को उजागर करता है। रूब्रिक्स का सहयोगात्मक विकास सटीक और यथार्थवादी मूल्यांकन सुनिश्चित करता है। Openai की पेपरबेंच का ओपन-सोर्सिंग क्षेत्र में आगे की खोज और विकास का समर्थन करता है, स्वायत्त AI अनुसंधान क्षमताओं की समझ को बढ़ाता है और इस क्षेत्र में जिम्मेदार प्रगति की सूचना देता है।
चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
