एआई एजेंट इंजीनियरों को कुशलता से जटिल कोडिंग कार्यों को संभालने में मदद करने में महत्वपूर्ण हैं। हालांकि, एक महत्वपूर्ण चुनौती सटीक रूप से आकलन कर रही है और इन एजेंटों को यह सुनिश्चित करना है कि सरलीकृत बेंचमार्क परीक्षणों से परे वास्तविक दुनिया कोडिंग परिदृश्यों को संभाल सकता है।
ऑगमेंट कोड ने उनके लॉन्च की घोषणा की है वृद्धि स्व-बेंच सत्यापित एजेंटविशेष रूप से सॉफ्टवेयर इंजीनियरिंग के लिए एजेंट एआई में एक विकास। यह रिलीज़ उन्हें SWE-Bench लीडरबोर्ड पर ओपन-सोर्स एजेंट प्रदर्शन के शीर्ष पर रखता है। एन्थ्रोपिक के क्लाउड सोननेट 3.7 और ओपनईएआई के ओ 1 मॉडल की ताकत को मिलाकर, ऑगमेंट कोड के दृष्टिकोण ने प्रभावशाली परिणाम दिए हैं, जिसमें नवाचार और व्यावहारिक सिस्टम आर्किटेक्चर के एक सम्मोहक मिश्रण का प्रदर्शन किया गया है।
SWE-Bench बेंचमार्क एक कठोर परीक्षण है जो प्रमुख ओपन-सोर्स रिपॉजिटरी में GitHub मुद्दों से सीधे तैयार किए गए व्यावहारिक सॉफ्टवेयर इंजीनियरिंग कार्यों को संभालने में AI एजेंट की प्रभावशीलता को मापता है। पारंपरिक कोडिंग बेंचमार्क के विपरीत, जो आम तौर पर पृथक, एल्गोरिथम-शैली की समस्याओं पर ध्यान केंद्रित करते हैं, SWE-Bench एक अधिक यथार्थवादी परीक्षण प्रदान करता है जिसके लिए एजेंटों को मौजूदा कोडबेस नेविगेट करने, प्रासंगिक परीक्षणों की स्वायत्त रूप से पहचानने, स्क्रिप्ट बनाने और व्यापक प्रतिगमन परीक्षण सूट के खिलाफ पुनरावृति की आवश्यकता होती है।
ऑगमेंट कोड की प्रारंभिक सबमिशन ने 65.4% सफलता दर हासिल की है, इस मांग वाले वातावरण में एक उल्लेखनीय उपलब्धि है। कंपनी ने मौजूदा अत्याधुनिक मॉडल का लाभ उठाने पर अपना पहला प्रयास केंद्रित किया, विशेष रूप से एंथ्रोपिक के क्लाउड सॉनेट 3.7 को टास्क निष्पादन के लिए प्राथमिक ड्राइवर के रूप में और openai के O1 मॉडल के लिए ensembling के लिए। इस दृष्टिकोण ने रणनीतिक रूप से इस प्रारंभिक चरण में प्रशिक्षण मालिकाना मॉडल को दरकिनार कर दिया, एक मजबूत आधार रेखा की स्थापना की।
ऑगमेंट की कार्यप्रणाली का एक दिलचस्प पहलू अलग -अलग एजेंट व्यवहारों और रणनीतियों में उनकी खोज थी। उदाहरण के लिए, उन्होंने पाया कि क्लाउड सॉनेट के ‘थिंकिंग मोड’ और अलग-अलग प्रतिगमन-फिक्सिंग एजेंटों जैसी कुछ अपेक्षित लाभकारी तकनीकों ने सार्थक प्रदर्शन में सुधार नहीं किया। यह एजेंट प्रदर्शन अनुकूलन में बारीक और कभी -कभी काउंटरिंट्यूटिव डायनेमिक्स को उजागर करता है। इसके अलावा, अधिकांश मतदान जैसी बुनियादी एनसेंबलिंग तकनीकों का पता लगाया गया था, लेकिन अंततः लागत और दक्षता के विचारों के कारण छोड़ दिया गया। हालांकि, Openai के O1 के साथ सरल एनसेंबलिंग ने सटीकता में वृद्धिशील सुधार प्रदान किया, जो विवश परिदृश्यों में भी एनसेंबलिंग के मूल्य को रेखांकित करता है।
जबकि ऑगमेंट कोड की प्रारंभिक SWE-Bench सबमिशन की सफलता सराहनीय है, कंपनी बेंचमार्क की सीमाओं के बारे में पारदर्शी है। विशेष रूप से, SWE-Bench समस्याओं को फ़ीचर निर्माण के बजाय बग फिक्सिंग की ओर भारी रूप से तिरछा किया जाता है, प्रदान किए गए विवरण विशिष्ट वास्तविक दुनिया के डेवलपर के संकेतों की तुलना में अधिक संरचित और LLM- अनुकूल हैं, और बेंचमार्क पूरी तरह से पायथन का उपयोग करता है। वास्तविक दुनिया की जटिलताएं, जैसे कि बड़े पैमाने पर उत्पादन कोडबेस को नेविगेट करना और कम वर्णनात्मक प्रोग्रामिंग भाषाओं से निपटने के लिए, उन चुनौतियों का सामना करना पड़ता है जो SWE-Bench को कैप्चर नहीं करते हैं।
ऑगमेंट कोड ने इन सीमाओं को खुले तौर पर स्वीकार किया है, बेंचमार्क मैट्रिक्स से परे एजेंट प्रदर्शन को अनुकूलित करने के लिए अपनी निरंतर प्रतिबद्धता पर जोर देते हुए। वे इस बात पर जोर देते हैं कि संकेत और एनसेंबलिंग में सुधार मात्रात्मक परिणामों को बढ़ावा दे सकता है, गुणात्मक ग्राहक प्रतिक्रिया और वास्तविक दुनिया की प्रयोज्य इसकी प्राथमिकताएं बनी हुई हैं। ऑगमेंट कोड के लिए अंतिम लक्ष्य लागत-प्रभावी विकसित हो रहा है, फास्ट एजेंट जो व्यावहारिक पेशेवर वातावरण में अद्वितीय कोडिंग सहायता प्रदान करने में सक्षम हैं।
अपने भविष्य के रोडमैप के हिस्से के रूप में, वृद्धि सक्रिय रूप से आरएल तकनीकों और मालिकाना डेटा का उपयोग करके मालिकाना मॉडल के ठीक-ट्यूनिंग की खोज कर रही है। इस तरह की प्रगति मॉडल सटीकता को बढ़ाने और विलंबता और परिचालन लागत को कम करने का वादा करती है, जिससे अधिक सुलभ और स्केलेबल एआई-चालित कोडिंग सहायता की सुविधा होती है।
ऑगमेंट स्व-बेंच सत्यापित एजेंट से कुछ प्रमुख takeaways में शामिल हैं:
- ऑगमेंट कोड ने ओपन-सोर्स एजेंटों के बीच शीर्ष स्थान को प्राप्त करते हुए, स्वे-बेंच सत्यापित एजेंट को जारी किया।
- एजेंट एन्थ्रोपिक के क्लाउड सोननेट 3.7 को अपने कोर ड्राइवर और ओपनईआई के O1 मॉडल के रूप में जोड़ता है।
- मजबूत आधारभूत क्षमताओं को उजागर करते हुए, SWE-Bench पर 65.4% सफलता दर हासिल की।
- काउंटरिंट्यूटिव परिणाम मिले, जहां ‘थिंकिंग मोड’ और अलग-अलग रिग्रेशन-फिक्सिंग एजेंटों जैसे प्रत्याशित लाभकारी सुविधाओं ने कोई पर्याप्त प्रदर्शन लाभ नहीं दिया।
- वास्तविक दुनिया के परिदृश्यों में व्यापक पहनावा को लागू करने के लिए एक महत्वपूर्ण बाधा के रूप में लागत-प्रभावशीलता की पहचान की।
- पायथन और छोटे पैमाने पर बग-फिक्सिंग कार्यों के प्रति इसके पूर्वाग्रह सहित बेंचमार्क सीमाओं को स्वीकार किया।
- भविष्य के सुधारों को सुदृढीकरण सीखने और ठीक-ट्यूनिंग मालिकाना मॉडल के माध्यम से लागत में कमी, कम विलंबता और बेहतर प्रयोज्य पर ध्यान केंद्रित किया जाएगा।
- गुणात्मक उपयोगकर्ता-केंद्रित संवर्द्धन के साथ बेंचमार्क-संचालित सुधारों को संतुलित करने के महत्व पर प्रकाश डाला।
चेक आउट GitHub पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
