Wednesday, April 16, 2025

साथ में एआई ने डीपकोडर -14 बी-प्रीव्यू जारी किया: एक पूरी तरह से ओपन-सोर्स कोड रीजनिंग मॉडल जो केवल 14 बी मापदंडों के साथ O3-Mini प्रतिद्वंद्वियों – Gadgets Solutions

-

बुद्धिमान कोड जनरेशन और स्वचालित प्रोग्रामिंग समाधानों की मांग तेज हो गई है, सॉफ्टवेयर जटिलता और डेवलपर उत्पादकता की जरूरतों में तेजी से वृद्धि से ईंधन। जबकि प्राकृतिक भाषा प्रसंस्करण और सामान्य तर्क मॉडल महत्वपूर्ण सफलताओं के साथ बढ़े हैं, कोडिंग डोमेन ने धीमी प्रगति का अनुभव किया है। यह अंतराल मुख्य रूप से आरएल-आधारित प्रणालियों को प्रभावी ढंग से प्रशिक्षित करने के लिए महत्वपूर्ण उच्च गुणवत्ता वाले, सत्यापन योग्य डेटासेट की कमी के लिए जिम्मेदार है। गणितीय समस्याओं के विपरीत, जो ऑनलाइन संरचित, सत्यापन योग्य उदाहरणों के धन से लाभान्वित होते हैं, कोडिंग कार्य अक्सर शोर, अपर्याप्त परीक्षण कवरेज और अस्वाभाविक आउटपुट से पीड़ित होते हैं। नतीजतन, कोड जनरेशन के लिए एलएलएम को आगे बढ़ाना अब तक एक दुर्जेय चुनौती बनी हुई है।

दीपकोडर -14 बी-प्रीव्यू एजेंटिका टीम के सहयोग से एआई द्वारा एक साथ जारी किया गया था। यह शक्तिशाली मॉडल वितरित सुदृढीकरण सीखने का उपयोग करके दीपसेक-आर 1-डिस्टिल्ड-क्वेन -14 बी से ठीक-ठाक था, और यह कोड तर्क में पर्याप्त प्रगति को प्रदर्शित करता है। LiveCodeBench (LCB) पर 60.6% पास@1 सटीकता के प्रदर्शन के साथ, Deepcoder-14b-preview न केवल O3-Mini-2025 जैसे प्रमुख मॉडल के साथ अंतर को बंद कर देता है, बल्कि उनके आउटपुट से मेल खाता है, सभी सिर्फ 14 बिलियन मापदंडों का उपयोग करते हुए, दक्षता और क्षमता में एक उल्लेखनीय उपलब्धि है।

बेंचमार्क को देखते हुए रिलीज विशेष रूप से महत्वपूर्ण है। डीपसेक-आर 1-डिस्टिल-क्यूवेन -14 बी एलसीबी पर 53.0% स्कोर करता है, और डीपकोडर -14 बी-प्रीव्यू अपने बेस मॉडल की तुलना में सटीकता में 8% लीप प्रदर्शित करता है। इसके अलावा, यह स्थापित मॉडलों के साथ पैर की अंगुली की ओर प्रतिस्पर्धा करता है, जैसे कि O3-Mini (60.9%) और O1-2024-12-17 (59.5%) सटीकता और कोडिंग प्रूव में। प्रतिस्पर्धी कोडिंग मेट्रिक्स के बारे में, यह 1936 की कोडफोर्स रेटिंग और 95.3%के प्रतिशत तक पहुंचता है, जो इसकी वास्तविक दुनिया कोडिंग क्षमता के स्पष्ट संकेतक हैं।

24,000 सत्यापित कोडिंग समस्याओं के क्यूरेट किए गए डेटासेट का उपयोग करके मॉडल को 32 H100 GPU पर 2.5 सप्ताह से अधिक प्रशिक्षित किया गया था। यह डेटासेट गुणवत्ता और विविधता सुनिश्चित करने के लिए मौजूदा संसाधनों को सख्ती से फ़िल्टर करके बनाया गया था। यह TACO सत्यापित सेट, प्राइमिंटेल्ट के सिंथेटिक -1, और मई 2023 और जुलाई 2024 के बीच प्रस्तुत Livecodebench से प्रविष्टियों से समस्याओं को जोड़ती है। चयन प्रक्रिया ने परीक्षण मामलों के प्रोग्रामेटिक सत्यापन पर जोर दिया, डेटा संदूषण से बचने के लिए प्रति समस्या कम से कम पांच इकाई परीक्षण, और निहारना। इसने प्रशिक्षण अखंडता को बनाए रखने और आरएल प्रभावशीलता को अधिकतम करने में मदद की।

सत्यापन के इस स्तर को सुविधाजनक बनाने के लिए, डीपकोडर के प्रशिक्षण ने एक स्केलेबल कोड सैंडबॉक्स वातावरण को शामिल किया, जो बड़े पैमाने पर समानांतर मूल्यांकन को निष्पादित करने में सक्षम था। दो मजबूत सैंडबॉक्स, एक साथ कोड दुभाषिया और एक स्थानीय सैंडबॉक्स का उपयोग करके प्रत्येक आरएल कदम पर 1,000 से अधिक कोडिंग समस्याओं का आकलन किया गया था। इन वातावरणों ने यह सुनिश्चित किया कि प्रत्येक मॉडल-जनित समाधान को कई इकाई परीक्षणों में सख्ती से परीक्षण किया गया था, इनाम हैकिंग को फ़िल्टर किया गया था और संस्मरण पर वास्तविक तर्क को प्रोत्साहित किया गया था।

इसके अलावा, डीपकोडर का समर्थन करने वाले सिस्टम आर्किटेक्चर को “वर्ल-पाइप” के माध्यम से अनुकूलित किया गया था, जो कि पोस्ट-ट्रेनिंग आरएल पाइपलाइन के लिए एक उन्नत एक्सटेंशन है जो सिस्टम-स्तरीय सुधारों के माध्यम से प्रशिक्षण की गति को दोगुना कर देता है। यह वृद्धि विकास चक्रों को तेज करती है और ओपन-सोर्स इकोसिस्टम में समान एलएलएम पर निर्माण या पुनरावृति करने के लिए दूसरों के लिए एक मॉड्यूलर ढांचा प्रदान करती है।

डीपकोडर -14 बी-प्रीव्यू की रिहाई से कुछ प्रमुख takeaways में शामिल हैं:

  • DeepCoder-14b-Preview 60.6% पास@1 लिवकोडबेंच पर सटीकता प्राप्त करता है-कम मापदंडों के साथ O3-Mini के प्रदर्शन को मैच करता है।
  • मॉडल के प्रशिक्षण ने 24K सत्यापित कोडिंग समस्याओं का लाभ उठाया, ध्यान से शोर और इनाम हैकिंग से बचने के लिए क्यूरेट किया गया।
  • इसे 2.5 सप्ताह के लिए 32 H100 GPU पर प्रशिक्षित किया गया था, जिसमें प्रतिलिपि प्रस्तुत करने योग्यता और प्रणाली दक्षता पर जोर दिया गया था।
  • एक दोहरे-सैंडबॉक्स वातावरण ने प्रशिक्षण के दौरान सटीक और स्केलेबल कोड सत्यापन सुनिश्चित किया।
  • Verl-Pipe के माध्यम से सिस्टम ऑप्टिमाइज़ेशन ने प्रशिक्षण की गति को दोगुना कर दिया और भविष्य के मॉडल के लिए एक पुन: प्रयोज्य पाइपलाइन प्रदान करता है।
  • डीपकोडर पूरी तरह से खुला है, जिसमें डेटासेट, कोड और प्रशिक्षण लॉग शामिल हैं, जो समुदाय-संचालित विकास के लिए मार्ग प्रशस्त करते हैं।

चेक आउट तकनीकी विवरण, गले लगाने के लिए मॉडल और GitHub पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


साथ में एआई ने डीपकोडर -14 बी-प्रीव्यू जारी किया: एक पूरी तरह से ओपन-सोर्स कोड रीजनिंग मॉडल जो केवल 14 बी मापदंडों के साथ O3-Mini प्रतिद्वंद्वियों
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »