बड़े भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआई-आधारित कोडिंग एजेंटों के विकास को सक्षम किया है जो सॉफ्टवेयर कोड को उत्पन्न, संशोधित और समझ सकते हैं। हालांकि, इन प्रणालियों का मूल्यांकन सीमित रहता है, अक्सर सिंथेटिक या संकीर्ण रूप से स्कोप किए गए बेंचमार्क के लिए विवश होता है, मुख्य रूप से पायथन में। ये बेंचमार्क शायद ही कभी वास्तविक दुनिया के कोडबेस की संरचनात्मक और शब्दार्थ विविधता को दर्शाते हैं, और परिणामस्वरूप, कई एजेंट मजबूत, हस्तांतरणीय क्षमताओं का प्रदर्शन करने के बजाय बेंचमार्क-विशिष्ट पैटर्न के लिए ओवरफिट करते हैं।
AWS SWE-Polybench का परिचय देता है: एक अधिक व्यापक मूल्यांकन ढांचा
इन चुनौतियों का समाधान करने के लिए, AWS AI लैब्स ने पेश किया है स्वे-पॉलीबेंचएआई कोडिंग एजेंटों के निष्पादन-आधारित मूल्यांकन के लिए डिज़ाइन किया गया एक बहुभाषी, रिपॉजिटरी-स्तरीय बेंचमार्क। बेंचमार्क चार व्यापक रूप से उपयोग की जाने वाली प्रोग्रामिंग भाषाओं में 21 github रिपॉजिटरी का विस्तार करता है- JAVA, JAVASCRIPT, TYPERSCRIPT, और PYTHON- 2,110 कार्य जो बग फिक्स, फ़ीचर कार्यान्वयन और कोड रिफैक्टरिंग शामिल हैं।
पूर्व बेंचमार्क के विपरीत, SWE-Polybench में वास्तविक पुल अनुरोध (PRS) शामिल हैं जो वास्तविक मुद्दों को बंद करते हैं और जुड़े परीक्षण मामलों को शामिल करते हैं, जो सत्यापन योग्य मूल्यांकन के लिए अनुमति देते हैं। एक छोटा, स्तरीकृत सबसेट-SWE-POLYBENCH500कार्य और भाषा विविधता को संरक्षित करते हुए त्वरित प्रयोग का समर्थन करने के लिए भी जारी किया गया।

तकनीकी संरचना और मूल्यांकन मैट्रिक्स
SWE-Polybench एक निष्पादन-आधारित मूल्यांकन पाइपलाइन को अपनाता है। प्रत्येक कार्य में एक रिपॉजिटरी स्नैपशॉट और एक GitHub मुद्दे से प्राप्त एक समस्या कथन शामिल है। सिस्टम संबंधित भाषा पारिस्थितिकी तंत्र (जैसे, जावा के लिए मावेन, जेएस/टीएस, आदि के लिए एनपीएम, आदि) के लिए कॉन्फ़िगर किए गए एक कंटेनरीकृत परीक्षण वातावरण में संबंधित ग्राउंड ट्रुथ पैच को लागू करता है। बेंचमार्क तब दो प्रकार के यूनिट परीक्षणों का उपयोग करके परिणामों को मापता है: फेल-टू-पास (f2p) और पास-से-पास (पी 2 पी)।
कोडिंग एजेंटों का अधिक दानेदार मूल्यांकन प्रदान करने के लिए, SWE-Polybench परिचय देता है कंक्रीट सिंटैक्स ट्री-बेड मेट्रिक्स। इनमें फ़ाइल-स्तर और नोड-स्तरीय पुनर्प्राप्ति स्कोर दोनों शामिल हैं, जो कोडबेस के प्रासंगिक वर्गों का पता लगाने और संशोधित करने के लिए एजेंट की क्षमता का आकलन करते हैं। ये मैट्रिक्स बाइनरी पास/असफल परिणामों से परे अंतर्दृष्टि प्रदान करते हैं, विशेष रूप से जटिल, बहु-फ़ाइल संशोधनों के लिए।
अनुभवजन्य मूल्यांकन और अवलोकन
तीन ओपन-सोर्स कोडिंग एजेंट-एकर, स्वे-एजेंटऔर बिना एजेंट के-उस-पॉलीबेंच के लिए अनुकूलित। सभी ने अंतर्निहित मॉडल के रूप में एंथ्रोपिक के क्लाउड 3.5 का उपयोग किया और बेंचमार्क के बहुभाषी, रिपॉजिटरी-स्तरीय आवश्यकताओं को संभालने के लिए संशोधित किया गया।
मूल्यांकन में भाषाओं और कार्य प्रकारों में प्रदर्शन में उल्लेखनीय अंतर का पता चला। उदाहरण के लिए, एजेंटों ने पायथन कार्यों (24.1% पास दर तक) पर सबसे अच्छा प्रदर्शन किया, लेकिन टाइपस्क्रिप्ट (4.7% के रूप में कम) के साथ संघर्ष किया। जावा, औसत नोड परिवर्तनों के संदर्भ में इसकी उच्च जटिलता के बावजूद, टाइपस्क्रिप्ट की तुलना में उच्च सफलता दर हासिल की, यह सुझाव देते हुए कि प्रेट्रेनिंग एक्सपोज़र और सिंटैक्स परिचितता मॉडल प्रदर्शन में महत्वपूर्ण भूमिका निभाती है।

कार्य जटिलता के साथ प्रदर्शन भी भिन्न होता है। एकल-कार्य या एकल-क्लास परिवर्तनों तक सीमित कार्य उच्च सफलता दर (40%तक) प्राप्त करते हैं, जबकि मिश्रित या बहु-फ़ाइल परिवर्तनों की आवश्यकता वाले लोगों ने एक महत्वपूर्ण गिरावट देखी। दिलचस्प बात यह है कि उच्च पुनर्प्राप्ति परिशुद्धता और याद करें – विशेष रूप से फ़ाइल और सीएसटी नोड पहचान के लिए – हमेशा उच्च पास दरों में अनुवाद नहीं करता है, यह दर्शाता है कि कोड स्थानीयकरण आवश्यक है लेकिन समस्या समाधान के लिए अपर्याप्त है।

निष्कर्ष: एआई कोडिंग एजेंटों के मजबूत मूल्यांकन की ओर
SWE-Polybench मौजूदा बेंचमार्क में प्रमुख सीमाओं को संबोधित करते हुए, कोडिंग एजेंटों के लिए एक मजबूत और बारीक मूल्यांकन ढांचा प्रस्तुत करता है। कई प्रोग्रामिंग भाषाओं का समर्थन करके, कार्य प्रकारों की एक विस्तृत श्रृंखला को कवर करते हुए, और सिंटैक्स-जागरूक मैट्रिक्स को शामिल करते हुए, यह एक एजेंट की वास्तविक दुनिया की प्रयोज्यता का अधिक प्रतिनिधि मूल्यांकन प्रदान करता है।
बेंचमार्क से पता चलता है कि जबकि एआई एजेंट आशाजनक क्षमताओं का प्रदर्शन करते हैं, उनका प्रदर्शन भाषाओं और कार्यों में असंगत रहता है। SWE-Polybench भविष्य के अनुसंधान के लिए एक नींव प्रदान करता है जिसका उद्देश्य AI कोडिंग सहायकों की सामान्यता, मजबूती और तर्क क्षमताओं में सुधार करना है।
AWS Devops ब्लॉग देखें, गले लगना-Swe-Polybench और Github-Swe-Polybench। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
