AWS SWE-Polybench का परिचय देता है: AI कोडिंग एजेंटों के मूल्यांकन के लिए एक नया ओपन-सोर्स बहुभाषी बेंचमार्क – Gadgets Solutions

बड़े भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआई-आधारित कोडिंग एजेंटों के विकास को सक्षम किया है जो सॉफ्टवेयर कोड को उत्पन्न, संशोधित और समझ सकते हैं। हालांकि, इन प्रणालियों का मूल्यांकन सीमित रहता है, अक्सर सिंथेटिक या संकीर्ण रूप से स्कोप किए गए बेंचमार्क के लिए विवश होता है, मुख्य रूप से पायथन में। ये बेंचमार्क शायद ही कभी वास्तविक दुनिया के कोडबेस की संरचनात्मक और शब्दार्थ विविधता को दर्शाते हैं, और परिणामस्वरूप, कई एजेंट मजबूत, हस्तांतरणीय क्षमताओं का प्रदर्शन करने के बजाय बेंचमार्क-विशिष्ट पैटर्न के लिए ओवरफिट करते हैं।

AWS SWE-Polybench का परिचय देता है: एक अधिक व्यापक मूल्यांकन ढांचा

इन चुनौतियों का समाधान करने के लिए, AWS AI लैब्स ने पेश किया है स्वे-पॉलीबेंचएआई कोडिंग एजेंटों के निष्पादन-आधारित मूल्यांकन के लिए डिज़ाइन किया गया एक बहुभाषी, रिपॉजिटरी-स्तरीय बेंचमार्क। बेंचमार्क चार व्यापक रूप से उपयोग की जाने वाली प्रोग्रामिंग भाषाओं में 21 github रिपॉजिटरी का विस्तार करता है- JAVA, JAVASCRIPT, TYPERSCRIPT, और PYTHON- 2,110 कार्य जो बग फिक्स, फ़ीचर कार्यान्वयन और कोड रिफैक्टरिंग शामिल हैं।

पूर्व बेंचमार्क के विपरीत, SWE-Polybench में वास्तविक पुल अनुरोध (PRS) शामिल हैं जो वास्तविक मुद्दों को बंद करते हैं और जुड़े परीक्षण मामलों को शामिल करते हैं, जो सत्यापन योग्य मूल्यांकन के लिए अनुमति देते हैं। एक छोटा, स्तरीकृत सबसेट-SWE-POLYBENCH500कार्य और भाषा विविधता को संरक्षित करते हुए त्वरित प्रयोग का समर्थन करने के लिए भी जारी किया गया।

AWS SWE-Polybench का परिचय देता है: AI कोडिंग एजेंटों के मूल्यांकन के लिए एक नया ओपन-सोर्स बहुभाषी बेंचमार्क
– Gadgets Solutions

तकनीकी संरचना और मूल्यांकन मैट्रिक्स

SWE-Polybench एक निष्पादन-आधारित मूल्यांकन पाइपलाइन को अपनाता है। प्रत्येक कार्य में एक रिपॉजिटरी स्नैपशॉट और एक GitHub मुद्दे से प्राप्त एक समस्या कथन शामिल है। सिस्टम संबंधित भाषा पारिस्थितिकी तंत्र (जैसे, जावा के लिए मावेन, जेएस/टीएस, आदि के लिए एनपीएम, आदि) के लिए कॉन्फ़िगर किए गए एक कंटेनरीकृत परीक्षण वातावरण में संबंधित ग्राउंड ट्रुथ पैच को लागू करता है। बेंचमार्क तब दो प्रकार के यूनिट परीक्षणों का उपयोग करके परिणामों को मापता है: फेल-टू-पास (f2p) और पास-से-पास (पी 2 पी)।

कोडिंग एजेंटों का अधिक दानेदार मूल्यांकन प्रदान करने के लिए, SWE-Polybench परिचय देता है कंक्रीट सिंटैक्स ट्री-बेड मेट्रिक्स। इनमें फ़ाइल-स्तर और नोड-स्तरीय पुनर्प्राप्ति स्कोर दोनों शामिल हैं, जो कोडबेस के प्रासंगिक वर्गों का पता लगाने और संशोधित करने के लिए एजेंट की क्षमता का आकलन करते हैं। ये मैट्रिक्स बाइनरी पास/असफल परिणामों से परे अंतर्दृष्टि प्रदान करते हैं, विशेष रूप से जटिल, बहु-फ़ाइल संशोधनों के लिए।

अनुभवजन्य मूल्यांकन और अवलोकन

तीन ओपन-सोर्स कोडिंग एजेंट-एकर, स्वे-एजेंटऔर बिना एजेंट के-उस-पॉलीबेंच के लिए अनुकूलित। सभी ने अंतर्निहित मॉडल के रूप में एंथ्रोपिक के क्लाउड 3.5 का उपयोग किया और बेंचमार्क के बहुभाषी, रिपॉजिटरी-स्तरीय आवश्यकताओं को संभालने के लिए संशोधित किया गया।

मूल्यांकन में भाषाओं और कार्य प्रकारों में प्रदर्शन में उल्लेखनीय अंतर का पता चला। उदाहरण के लिए, एजेंटों ने पायथन कार्यों (24.1% पास दर तक) पर सबसे अच्छा प्रदर्शन किया, लेकिन टाइपस्क्रिप्ट (4.7% के रूप में कम) के साथ संघर्ष किया। जावा, औसत नोड परिवर्तनों के संदर्भ में इसकी उच्च जटिलता के बावजूद, टाइपस्क्रिप्ट की तुलना में उच्च सफलता दर हासिल की, यह सुझाव देते हुए कि प्रेट्रेनिंग एक्सपोज़र और सिंटैक्स परिचितता मॉडल प्रदर्शन में महत्वपूर्ण भूमिका निभाती है।

कार्य जटिलता के साथ प्रदर्शन भी भिन्न होता है। एकल-कार्य या एकल-क्लास परिवर्तनों तक सीमित कार्य उच्च सफलता दर (40%तक) प्राप्त करते हैं, जबकि मिश्रित या बहु-फ़ाइल परिवर्तनों की आवश्यकता वाले लोगों ने एक महत्वपूर्ण गिरावट देखी। दिलचस्प बात यह है कि उच्च पुनर्प्राप्ति परिशुद्धता और याद करें – विशेष रूप से फ़ाइल और सीएसटी नोड पहचान के लिए – हमेशा उच्च पास दरों में अनुवाद नहीं करता है, यह दर्शाता है कि कोड स्थानीयकरण आवश्यक है लेकिन समस्या समाधान के लिए अपर्याप्त है।

निष्कर्ष: एआई कोडिंग एजेंटों के मजबूत मूल्यांकन की ओर

SWE-Polybench मौजूदा बेंचमार्क में प्रमुख सीमाओं को संबोधित करते हुए, कोडिंग एजेंटों के लिए एक मजबूत और बारीक मूल्यांकन ढांचा प्रस्तुत करता है। कई प्रोग्रामिंग भाषाओं का समर्थन करके, कार्य प्रकारों की एक विस्तृत श्रृंखला को कवर करते हुए, और सिंटैक्स-जागरूक मैट्रिक्स को शामिल करते हुए, यह एक एजेंट की वास्तविक दुनिया की प्रयोज्यता का अधिक प्रतिनिधि मूल्यांकन प्रदान करता है।

बेंचमार्क से पता चलता है कि जबकि एआई एजेंट आशाजनक क्षमताओं का प्रदर्शन करते हैं, उनका प्रदर्शन भाषाओं और कार्यों में असंगत रहता है। SWE-Polybench भविष्य के अनुसंधान के लिए एक नींव प्रदान करता है जिसका उद्देश्य AI कोडिंग सहायकों की सामान्यता, मजबूती और तर्क क्षमताओं में सुधार करना है।

AWS Devops ब्लॉग देखें, गले लगना-Swe-Polybench और Github-Swe-Polybench। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।

🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

मेटा अपने रे बैन स्मार्ट चश्मे के लिए अपडेट की घोषणा करता है, जिसमें बेहतर एआई चैट भी शामिल है – Gadgets Solutions

AWS SWE-Polybench का परिचय देता है: AI कोडिंग एजेंटों के मूल्यांकन के लिए एक नया ओपन-सोर्स बहुभाषी बेंचमार्क – Gadgets Solutions

AWS SWE-Polybench का परिचय देता है: एक अधिक व्यापक मूल्यांकन ढांचा

तकनीकी संरचना और मूल्यांकन मैट्रिक्स

अनुभवजन्य मूल्यांकन और अवलोकन

निष्कर्ष: एआई कोडिंग एजेंटों के मजबूत मूल्यांकन की ओर

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US