Saturday, April 19, 2025

मॉडल प्रदर्शन डेटा के साथ शुरू होता है: AI2 रिलीज़ डेटाकाइड के शोधकर्ताओं- 30K LLM चेकपॉइंट्स में डेटा प्रभाव दिखाने के लिए एक बेंचमार्क सूट – Gadgets Solutions

-

एलएलएम प्रीट्रेनिंग में डेटा चयन की चुनौती

बड़े भाषा मॉडल विकसित करना पर्याप्त कम्प्यूटेशनल निवेश को बढ़ाता है, खासकर जब वैकल्पिक प्रीट्रेनिंग कॉर्पोरा के साथ प्रयोग करता है। पूरे पैमाने पर डेटासेट की तुलना में – अरबों मापदंडों के क्रम पर और सैकड़ों अरबों टोकन – प्रति रन सैकड़ों हजारों जीपीयू घंटे का उपभोग कर सकते हैं। नतीजतन, चिकित्सकों ने बड़े। मॉडल व्यवहार के लिए प्रॉक्सिज़ के रूप में छोटे are पैमाने के प्रयोगों का सहारा लिया। फिर भी ये “पायलट” अध्ययन शायद ही कभी प्रकाशित होते हैं, एक खंडित परिदृश्य का निर्माण करते हैं जिसमें प्रत्येक प्रयोगशाला साझा बेंचमार्क या कार्यप्रणाली के बिना समान छोटे of स्केल परीक्षणों को दोहराता है। यह अस्पष्टता प्रजनन क्षमता को बाधित करती है, सामूहिक अंतर्दृष्टि को कम करती है, और विकास गणना और अंतिम मॉडल प्रदर्शन के बीच वास्तविक व्यापार को अस्पष्ट करती है।

मॉडल प्रदर्शन डेटा के साथ शुरू होता है: AI2 रिलीज़ डेटाकाइड के शोधकर्ताओं- 30K LLM चेकपॉइंट्स में डेटा प्रभाव दिखाने के लिए एक बेंचमार्क सूट
 – Gadgets Solutions

डाटैकाइड

इन सीमाओं को संबोधित करने के लिए, एलेन इंस्टीट्यूट फॉर एआई (एआई 2), वाशिंगटन विश्वविद्यालय और पेंसिल्वेनिया विश्वविद्यालय के सहयोग से, आज रिलीज़ करता है डाटैकाइड-एक 25 अलग -अलग कॉर्पोरा और 14 मॉडल आकारों में 4 मिलियन से 1 बिलियन मापदंडों तक फैले नियंत्रित प्रीट्रेनिंग प्रयोगों का व्यापक सूट। DataDecide के डेटासेट में डोमेन, DCLM, RefidinedWeb, C4, और Fineweb जैसे अच्छी तरह से ज्ञात स्रोत शामिल हैं, साथ ही डोमेन एब्लेशन, डिडुप्लिकेशन, क्वालिटी फ़िल्टरिंग और सोर्स मिक्सिंग द्वारा उत्पादित विविधताओं के साथ। प्रत्येक मॉडल को एक निश्चित टोकन ‘से reast से ration पैरामीटर प्रति पैरामीटर) के अनुपात में प्रशिक्षित किया जाता है, जो” ओवरट्रेनिंग “शासन को दर्शाता है जो अनुमानित दक्षता का अनुकूलन करता है। कुल मिलाकर, 1,050 से अधिक मॉडल और 30,000 से अधिक चौकियों से – प्रत्येक का मूल्यांकन दस डाउनस्ट्रीम कार्यों में किया गया – जनता के लिए जारी किया गया।

तकनीकी संरचना और व्यावहारिक लाभ

DataDecide ऑर्केस्ट्रेट तीन अक्षों के साथ प्रयोग:

    • डेटा व्यंजनों: बीस, फाइव अच्छी तरह से document प्रोजेक्टेड प्रीट्रेनिंग कॉर्पोरा, प्रत्येक अलग -अलग क्यूरेशन रणनीतियों को मूर्त रूप दे रहा है (पूर्ण नुस्खा विनिर्देशों के लिए कागज में तालिका 1 देखें)।
    • मॉडल स्केल: चौदह पैरामीटर कॉन्फ़िगरेशन (4 एम -1 बी), प्रोग्रामेटिक रूप से ओएलएमओ मॉडल सीढ़ी के माध्यम से प्राप्त किया गया है ताकि तराजू में लगातार प्रशिक्षण हाइपरपैमीटर सुनिश्चित किया जा सके। प्रत्येक गैर -टारगेट स्केल में दो “शुरुआती op स्टॉप” सीड रन शामिल होते हैं, जबकि 1 बी paramper पैरामीटर मॉडल में परिवर्तनशीलता की मात्रा निर्धारित करने के लिए तीन पूर्ण बीज पुनर्मिलन होते हैं।
    • मूल्यांकन सुइट: टेन मल्टीपल is चोइस कार्यों (जैसे, MMLU, आर्क ईज़ी/चैलेंज, हेलसवाग, एमबीपीपी, ह्यूमनवेल) के ओल्म्स बेंचमार्क भाषा की समझ, कॉमन्सेंस रीजनिंग और कोड जनरेशन के प्रदर्शन का एक बहुमुखी दृश्य प्रदान करता है।

    दोनों प्रीट्रेनिंग डेटासेट और इसी मॉडल को जारी करके, डेटाकाइड शोधकर्ताओं को सक्षम बनाता है:

    • रिट्रेनिंग के बिना नए मूल्यांकन के लिए चौकियों का पुन: उपयोग करें।
    • उपन्यास भविष्यवाणी विधियों के साथ प्रयोग (जैसे, उन्नत स्केलिंग, कानून फिट, चौरसाई तकनीक)।
    • प्रशिक्षण डेटा और मॉडल स्केल के लिए बेंचमार्क संवेदनशीलता की जांच करें।

    प्रमुख निष्कर्ष और मात्रात्मक अंतर्दृष्टि

    DataDecide के व्यवस्थित विश्लेषण से चार व्यावहारिक दिशानिर्देश हैं:

      • सिंगल – स्केल बेसलाइन मजबूती: एक एकल, छोटे पैमाने पर (जैसे, 150 मीटर पैरामीटर) पर डाउनस्ट्रीम सटीकता द्वारा रैंकिंग कॉर्पोरा 1 बी ‘पैरामीटर लक्ष्य पैमाने पर सर्वश्रेष्ठ डेटासेट की भविष्यवाणी करने के लिए ~ 80 प्रतिशत निर्णय सटीकता प्राप्त करता है। इसके विपरीत, आठ बेसलाइन स्केलिंग of- कानून एक्सट्रपलेशन इस सरल हेयुरिस्टिक को पार नहीं करते हैं, इसकी लागत – प्रभावशीलता को रेखांकित करते हैं।
      • टास्क – निर्भर गणना संवेदनशीलता: विश्वसनीय निर्णयों के लिए आवश्यक गणना बजट कार्य द्वारा स्पष्ट रूप से भिन्न होता है। MMLU और ARC EASY जैसे बेंचमार्क लक्ष्य गणना के 0.01 प्रतिशत से कम के साथ अनुमानित हो जाते हैं, जबकि हेलसवाग और सोशलिका समान निर्णय सटीकता को प्राप्त करने के लिए अधिक फ्लॉप के आदेशों की मांग करते हैं।
      • प्रॉक्सी मीट्रिक चयन: निरंतर संभावना मेट्रिक्स – विशेष रूप से चरित्र of सही निरंतरता (सही प्रोब) और कुल संभावना (कुल प्रोब) की औसत संभावना (कुल प्रोब) – छोटे पैमानों पर असतत सटीकता उपाय। यह कोड कार्यों (MBPP, HumanEval) पर सबसे अधिक स्पष्ट है, जहां निर्णय सटीकता निकट से knoptrandrand रैंडम से 80 प्रतिशत से अधिक तक सही प्रोब के रूप में प्रॉक्सी के रूप में कूदती है।
      • विचरण और प्रसार विचार: उच्च निर्णय सटीकता कम रन – से run रन विचरण (शोर) के साथ सहसंबंधित है और डेटासेट में फैले पर्याप्त प्रदर्शन। प्रॉक्सी मेट्रिक्स जो शोर को कम करते हैं या फैलाते हैं, इस प्रकार सीधे भविष्यवाणी विश्वसनीयता को बढ़ाते हैं।

      समापन परिप्रेक्ष्य

      DataDecide एक तदर्थ कला से डेटा चयन को एक पारदर्शी, डेटा। संचालित विज्ञान में बदल देता है। सभी 25 कॉर्पोरा, 1,050 मॉडल, 30,000+ चौकियों, और मूल्यांकन स्क्रिप्ट को गले लगाने के चेहरे और जीथब पर ओपन, सोर्सिंग द्वारा, एआई 2 समुदाय को निष्कर्षों को पुन: पेश करने, नए बेंचमार्क के मूल्यांकन का विस्तार करने और निर्णय – बनाने के तरीकों पर नवाचार करने के लिए आमंत्रित करता है। चूंकि एलएलएम विकास कभी भी rections ग्रेटर कम्प्यूट संसाधनों की मांग करना जारी रखता है, डेटाकाइड व्यर्थ प्रयोगों को कम करने और अंतर्दृष्टि को अधिकतम करने के लिए एक राजसी रूपरेखा प्रदान करता है – अधिक कुशल, प्रजनन योग्य और सहयोगी एआई अनुसंधान की ओर बढ़ने का रास्ता।


      इसकी जाँच पड़ताल करो कागज, गले लगाने के चेहरे और तकनीकी विवरण पर मॉडल। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

      🔥


        Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »