Friday, April 11, 2025

ओपन एआई पेपरबेंच रिलीज़ करता है: एआई एजेंटों की क्षमताओं का आकलन करने के लिए एक चुनौतीपूर्ण बेंचमार्क अत्याधुनिक मशीन लर्निंग रिसर्च को दोहराने के लिए – Gadgets Solutions

-

आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग (एमएल) अनुसंधान में तेजी से प्रगति, मानव शोधकर्ताओं द्वारा परंपरागत रूप से किए गए जटिल, अनुभवजन्य अनुसंधान कार्यों की नकल करने में एआई एजेंटों की क्षमताओं का सही मूल्यांकन करने के महत्व को रेखांकित करती है। वर्तमान में, व्यवस्थित मूल्यांकन उपकरण जो एआई एजेंटों की स्वायत्त रूप से एमएल अनुसंधान निष्कर्षों को पुन: पेश करने की क्षमता को ठीक से मापते हैं, इस तरह की प्रणालियों की क्षमता और सीमाओं को पूरी तरह से समझने में चुनौतियों का सामना करते हैं।

Openai ने PaperBench पेश किया है, जो एक बेंचमार्क है, जिसे स्वायत्त रूप से अत्याधुनिक मशीन लर्निंग रिसर्च की स्वायत्त रूप से दोहराने में AI एजेंटों की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। पेपरबेंच विशेष रूप से मापता है कि क्या एआई सिस्टम शोध पत्रों की सटीक व्याख्या कर सकता है, स्वतंत्र रूप से आवश्यक कोडबेस विकसित कर सकता है, और अनुभवजन्य परिणामों को दोहराने के लिए प्रयोगों को निष्पादित कर सकता है। बेंचमार्क में ICML 2024 से चुने गए 20 कागजात शामिल हैं, जिसमें सुदृढीकरण सीखने, मजबूती और संभाव्य तरीकों सहित क्षेत्रों को कवर किया गया है। विस्तृत रूब्रिक्स, मूल पेपर लेखकों के साथ सह-विकसित, एआई क्षमताओं के सटीक मूल्यांकन को सुविधाजनक बनाने के लिए 8,316 व्यक्तिगत रूप से ग्रेडेबल कार्यों को निर्दिष्ट करते हैं।

ओपन एआई पेपरबेंच रिलीज़ करता है: एआई एजेंटों की क्षमताओं का आकलन करने के लिए एक चुनौतीपूर्ण बेंचमार्क अत्याधुनिक मशीन लर्निंग रिसर्च को दोहराने के लिए
 – Gadgets Solutions

एक तकनीकी दृष्टिकोण से, पेपरबेंच को एआई एजेंटों को स्क्रैच से व्यापक कोड रिपॉजिटरी विकसित करने के लिए शोध पत्र और पूरक स्पष्टीकरण प्रदान करने के लिए एआई एजेंटों की आवश्यकता होती है। इन रिपॉजिटरी में पूर्ण प्रयोगात्मक सेटअप और निष्पादन स्क्रिप्ट शामिल होने चाहिए, विशेष रूप से पुन: पेश करें। वास्तविक स्वतंत्र प्रतिकृति सुनिश्चित करने के लिए, एजेंटों को मूल लेखकों के रिपॉजिटरी से कोड को संदर्भित या पुन: उपयोग करने से प्रतिबंधित किया जाता है। रूब्रिक्स को विभिन्न स्तरों पर स्पष्ट पास-फेल मानदंडों को विस्तार से विस्तारित करने के लिए पदानुक्रमित रूप से संरचित किया जाता है, जिससे व्यवस्थित और उद्देश्य मूल्यांकन की अनुमति मिलती है। मूल्यांकन SimpleDge, एक स्वचालित बड़े भाषा मॉडल (LLM)-आधारित न्यायाधीश का उपयोग करके आयोजित किया जाता है, जो ग्रेडिंग प्रक्रिया को सरल करता है। SimpleDdge ने जजवेल पर 0.83 का F1 स्कोर हासिल किया, एक सहायक मूल्यांकन डेटासेट विशेष रूप से स्वचालित ग्रेडिंग सटीकता को मान्य करने के लिए डिज़ाइन किया गया।

कई उन्नत एआई मॉडल के अनुभवजन्य मूल्यांकन पेपरबेंच पर अलग -अलग प्रदर्शन स्तर का संकेत देते हैं। क्लाउड 3.5 सॉनेट ने 21.0%के औसत प्रतिकृति स्कोर के साथ उच्चतम क्षमता का प्रदर्शन किया। अन्य मॉडलों जैसे कि Openai के GPT-4O और GEMINI 2.0 फ्लैश ने क्रमशः 4.1% और 3.2% के कम स्कोर प्राप्त किए। तुलनात्मक रूप से, विशेषज्ञ मानव एमएल शोधकर्ताओं ने समर्पित प्रयास के 48 घंटे के बाद 41.4% तक पहुंचने के लिए काफी अधिक सटीकता हासिल की। मॉडल के प्रदर्शन के विश्लेषण से प्रारंभिक रैपिड कोड जनरेशन और प्रारंभिक प्रयोगात्मक सेटअप में ताकत का पता चला, लेकिन समय के साथ लंबे समय तक कार्यों, समस्या निवारण और रणनीतिक दृष्टिकोणों को अपनाने में पर्याप्त कमजोरियों पर प्रकाश डाला गया।

ये परिणाम वर्तमान एआई सिस्टम क्षमताओं में महत्वपूर्ण तकनीकी अंतर्दृष्टि प्रदान करते हैं। जबकि AI मॉडल कुछ कोडिंग कार्यों और प्रारंभिक प्रयोग कार्यान्वयन में क्षमता प्रदर्शित करते हैं, महत्वपूर्ण अंतराल बने रहते हैं, विशेष रूप से निरंतर कार्य निष्पादन, अनुकूली समस्या-समाधान और रणनीतिक योजना के बारे में। इसके अतिरिक्त, पेपरबेंच कोड-डीईवी की शुरूआत, एक सुव्यवस्थित संस्करण, जो प्रयोगात्मक निष्पादन के बिना कोड शुद्धता पर जोर देता है, कम कम्प्यूटेशनल और मूल्यांकन लागत के कारण व्यापक और संसाधन-सीमित सामुदायिक उपयोग के लिए एक व्यावहारिक विकल्प प्रदान करता है।

सारांश में, पेपरबेंच AI अनुसंधान क्षमताओं का व्यवस्थित रूप से मूल्यांकन करने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। यह एक संरचित और विस्तृत मूल्यांकन वातावरण प्रदान करता है जो मानव प्रदर्शन के सापेक्ष समकालीन एआई मॉडल की विशिष्ट ताकत और सीमाओं को उजागर करता है। रूब्रिक्स का सहयोगात्मक विकास सटीक और यथार्थवादी मूल्यांकन सुनिश्चित करता है। Openai की पेपरबेंच का ओपन-सोर्सिंग क्षेत्र में आगे की खोज और विकास का समर्थन करता है, स्वायत्त AI अनुसंधान क्षमताओं की समझ को बढ़ाता है और इस क्षेत्र में जिम्मेदार प्रगति की सूचना देता है।


चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »