Thursday, April 24, 2025

AWS SWE-Polybench का परिचय देता है: AI कोडिंग एजेंटों के मूल्यांकन के लिए एक नया ओपन-सोर्स बहुभाषी बेंचमार्क – Gadgets Solutions

-

बड़े भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआई-आधारित कोडिंग एजेंटों के विकास को सक्षम किया है जो सॉफ्टवेयर कोड को उत्पन्न, संशोधित और समझ सकते हैं। हालांकि, इन प्रणालियों का मूल्यांकन सीमित रहता है, अक्सर सिंथेटिक या संकीर्ण रूप से स्कोप किए गए बेंचमार्क के लिए विवश होता है, मुख्य रूप से पायथन में। ये बेंचमार्क शायद ही कभी वास्तविक दुनिया के कोडबेस की संरचनात्मक और शब्दार्थ विविधता को दर्शाते हैं, और परिणामस्वरूप, कई एजेंट मजबूत, हस्तांतरणीय क्षमताओं का प्रदर्शन करने के बजाय बेंचमार्क-विशिष्ट पैटर्न के लिए ओवरफिट करते हैं।

AWS SWE-Polybench का परिचय देता है: एक अधिक व्यापक मूल्यांकन ढांचा

इन चुनौतियों का समाधान करने के लिए, AWS AI लैब्स ने पेश किया है स्वे-पॉलीबेंचएआई कोडिंग एजेंटों के निष्पादन-आधारित मूल्यांकन के लिए डिज़ाइन किया गया एक बहुभाषी, रिपॉजिटरी-स्तरीय बेंचमार्क। बेंचमार्क चार व्यापक रूप से उपयोग की जाने वाली प्रोग्रामिंग भाषाओं में 21 github रिपॉजिटरी का विस्तार करता है- JAVA, JAVASCRIPT, TYPERSCRIPT, और PYTHON- 2,110 कार्य जो बग फिक्स, फ़ीचर कार्यान्वयन और कोड रिफैक्टरिंग शामिल हैं।

पूर्व बेंचमार्क के विपरीत, SWE-Polybench में वास्तविक पुल अनुरोध (PRS) शामिल हैं जो वास्तविक मुद्दों को बंद करते हैं और जुड़े परीक्षण मामलों को शामिल करते हैं, जो सत्यापन योग्य मूल्यांकन के लिए अनुमति देते हैं। एक छोटा, स्तरीकृत सबसेट-SWE-POLYBENCH500कार्य और भाषा विविधता को संरक्षित करते हुए त्वरित प्रयोग का समर्थन करने के लिए भी जारी किया गया।

AWS SWE-Polybench का परिचय देता है: AI कोडिंग एजेंटों के मूल्यांकन के लिए एक नया ओपन-सोर्स बहुभाषी बेंचमार्क
 – Gadgets Solutions

तकनीकी संरचना और मूल्यांकन मैट्रिक्स

SWE-Polybench एक निष्पादन-आधारित मूल्यांकन पाइपलाइन को अपनाता है। प्रत्येक कार्य में एक रिपॉजिटरी स्नैपशॉट और एक GitHub मुद्दे से प्राप्त एक समस्या कथन शामिल है। सिस्टम संबंधित भाषा पारिस्थितिकी तंत्र (जैसे, जावा के लिए मावेन, जेएस/टीएस, आदि के लिए एनपीएम, आदि) के लिए कॉन्फ़िगर किए गए एक कंटेनरीकृत परीक्षण वातावरण में संबंधित ग्राउंड ट्रुथ पैच को लागू करता है। बेंचमार्क तब दो प्रकार के यूनिट परीक्षणों का उपयोग करके परिणामों को मापता है: फेल-टू-पास (f2p) और पास-से-पास (पी 2 पी)

कोडिंग एजेंटों का अधिक दानेदार मूल्यांकन प्रदान करने के लिए, SWE-Polybench परिचय देता है कंक्रीट सिंटैक्स ट्री-बेड मेट्रिक्स। इनमें फ़ाइल-स्तर और नोड-स्तरीय पुनर्प्राप्ति स्कोर दोनों शामिल हैं, जो कोडबेस के प्रासंगिक वर्गों का पता लगाने और संशोधित करने के लिए एजेंट की क्षमता का आकलन करते हैं। ये मैट्रिक्स बाइनरी पास/असफल परिणामों से परे अंतर्दृष्टि प्रदान करते हैं, विशेष रूप से जटिल, बहु-फ़ाइल संशोधनों के लिए।

अनुभवजन्य मूल्यांकन और अवलोकन

तीन ओपन-सोर्स कोडिंग एजेंट-एकर, स्वे-एजेंटऔर बिना एजेंट के-उस-पॉलीबेंच के लिए अनुकूलित। सभी ने अंतर्निहित मॉडल के रूप में एंथ्रोपिक के क्लाउड 3.5 का उपयोग किया और बेंचमार्क के बहुभाषी, रिपॉजिटरी-स्तरीय आवश्यकताओं को संभालने के लिए संशोधित किया गया।

मूल्यांकन में भाषाओं और कार्य प्रकारों में प्रदर्शन में उल्लेखनीय अंतर का पता चला। उदाहरण के लिए, एजेंटों ने पायथन कार्यों (24.1% पास दर तक) पर सबसे अच्छा प्रदर्शन किया, लेकिन टाइपस्क्रिप्ट (4.7% के रूप में कम) के साथ संघर्ष किया। जावा, औसत नोड परिवर्तनों के संदर्भ में इसकी उच्च जटिलता के बावजूद, टाइपस्क्रिप्ट की तुलना में उच्च सफलता दर हासिल की, यह सुझाव देते हुए कि प्रेट्रेनिंग एक्सपोज़र और सिंटैक्स परिचितता मॉडल प्रदर्शन में महत्वपूर्ण भूमिका निभाती है।

कार्य जटिलता के साथ प्रदर्शन भी भिन्न होता है। एकल-कार्य या एकल-क्लास परिवर्तनों तक सीमित कार्य उच्च सफलता दर (40%तक) प्राप्त करते हैं, जबकि मिश्रित या बहु-फ़ाइल परिवर्तनों की आवश्यकता वाले लोगों ने एक महत्वपूर्ण गिरावट देखी। दिलचस्प बात यह है कि उच्च पुनर्प्राप्ति परिशुद्धता और याद करें – विशेष रूप से फ़ाइल और सीएसटी नोड पहचान के लिए – हमेशा उच्च पास दरों में अनुवाद नहीं करता है, यह दर्शाता है कि कोड स्थानीयकरण आवश्यक है लेकिन समस्या समाधान के लिए अपर्याप्त है।

निष्कर्ष: एआई कोडिंग एजेंटों के मजबूत मूल्यांकन की ओर

SWE-Polybench मौजूदा बेंचमार्क में प्रमुख सीमाओं को संबोधित करते हुए, कोडिंग एजेंटों के लिए एक मजबूत और बारीक मूल्यांकन ढांचा प्रस्तुत करता है। कई प्रोग्रामिंग भाषाओं का समर्थन करके, कार्य प्रकारों की एक विस्तृत श्रृंखला को कवर करते हुए, और सिंटैक्स-जागरूक मैट्रिक्स को शामिल करते हुए, यह एक एजेंट की वास्तविक दुनिया की प्रयोज्यता का अधिक प्रतिनिधि मूल्यांकन प्रदान करता है।

बेंचमार्क से पता चलता है कि जबकि एआई एजेंट आशाजनक क्षमताओं का प्रदर्शन करते हैं, उनका प्रदर्शन भाषाओं और कार्यों में असंगत रहता है। SWE-Polybench भविष्य के अनुसंधान के लिए एक नींव प्रदान करता है जिसका उद्देश्य AI कोडिंग सहायकों की सामान्यता, मजबूती और तर्क क्षमताओं में सुधार करना है।


AWS Devops ब्लॉग देखें, गले लगना-Swe-Polybench और Github-Swe-Polybench। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


XATA एजेंट से मिलें: प्रोएक्टिव PostgreSQL मॉनिटरिंग के लिए एक ओपन सोर्स एजेंट, स्वचालित समस्या निवारण, और सीमलेस DevOps एकीकरण
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »