मॉडल प्रदर्शन डेटा के साथ शुरू होता है: AI2 रिलीज़ डेटाकाइड के शोधकर्ताओं- 30K LLM चेकपॉइंट्स में डेटा प्रभाव दिखाने के लिए एक बेंचमार्क सूट – Gadgets Solutions

एलएलएम प्रीट्रेनिंग में डेटा चयन की चुनौती

बड़े भाषा मॉडल विकसित करना पर्याप्त कम्प्यूटेशनल निवेश को बढ़ाता है, खासकर जब वैकल्पिक प्रीट्रेनिंग कॉर्पोरा के साथ प्रयोग करता है। पूरे पैमाने पर डेटासेट की तुलना में – अरबों मापदंडों के क्रम पर और सैकड़ों अरबों टोकन – प्रति रन सैकड़ों हजारों जीपीयू घंटे का उपभोग कर सकते हैं। नतीजतन, चिकित्सकों ने बड़े। मॉडल व्यवहार के लिए प्रॉक्सिज़ के रूप में छोटे are पैमाने के प्रयोगों का सहारा लिया। फिर भी ये “पायलट” अध्ययन शायद ही कभी प्रकाशित होते हैं, एक खंडित परिदृश्य का निर्माण करते हैं जिसमें प्रत्येक प्रयोगशाला साझा बेंचमार्क या कार्यप्रणाली के बिना समान छोटे of स्केल परीक्षणों को दोहराता है। यह अस्पष्टता प्रजनन क्षमता को बाधित करती है, सामूहिक अंतर्दृष्टि को कम करती है, और विकास गणना और अंतिम मॉडल प्रदर्शन के बीच वास्तविक व्यापार को अस्पष्ट करती है।

मॉडल प्रदर्शन डेटा के साथ शुरू होता है: AI2 रिलीज़ डेटाकाइड के शोधकर्ताओं- 30K LLM चेकपॉइंट्स में डेटा प्रभाव दिखाने के लिए एक बेंचमार्क सूट
– Gadgets Solutions

डाटैकाइड

इन सीमाओं को संबोधित करने के लिए, एलेन इंस्टीट्यूट फॉर एआई (एआई 2), वाशिंगटन विश्वविद्यालय और पेंसिल्वेनिया विश्वविद्यालय के सहयोग से, आज रिलीज़ करता है डाटैकाइड-एक 25 अलग -अलग कॉर्पोरा और 14 मॉडल आकारों में 4 मिलियन से 1 बिलियन मापदंडों तक फैले नियंत्रित प्रीट्रेनिंग प्रयोगों का व्यापक सूट। DataDecide के डेटासेट में डोमेन, DCLM, RefidinedWeb, C4, और Fineweb जैसे अच्छी तरह से ज्ञात स्रोत शामिल हैं, साथ ही डोमेन एब्लेशन, डिडुप्लिकेशन, क्वालिटी फ़िल्टरिंग और सोर्स मिक्सिंग द्वारा उत्पादित विविधताओं के साथ। प्रत्येक मॉडल को एक निश्चित टोकन ‘से reast से ration पैरामीटर प्रति पैरामीटर) के अनुपात में प्रशिक्षित किया जाता है, जो” ओवरट्रेनिंग “शासन को दर्शाता है जो अनुमानित दक्षता का अनुकूलन करता है। कुल मिलाकर, 1,050 से अधिक मॉडल और 30,000 से अधिक चौकियों से – प्रत्येक का मूल्यांकन दस डाउनस्ट्रीम कार्यों में किया गया – जनता के लिए जारी किया गया।

तकनीकी संरचना और व्यावहारिक लाभ

DataDecide ऑर्केस्ट्रेट तीन अक्षों के साथ प्रयोग:

डेटा व्यंजनों: बीस, फाइव अच्छी तरह से document प्रोजेक्टेड प्रीट्रेनिंग कॉर्पोरा, प्रत्येक अलग -अलग क्यूरेशन रणनीतियों को मूर्त रूप दे रहा है (पूर्ण नुस्खा विनिर्देशों के लिए कागज में तालिका 1 देखें)।
मॉडल स्केल: चौदह पैरामीटर कॉन्फ़िगरेशन (4 एम -1 बी), प्रोग्रामेटिक रूप से ओएलएमओ मॉडल सीढ़ी के माध्यम से प्राप्त किया गया है ताकि तराजू में लगातार प्रशिक्षण हाइपरपैमीटर सुनिश्चित किया जा सके। प्रत्येक गैर -टारगेट स्केल में दो “शुरुआती op स्टॉप” सीड रन शामिल होते हैं, जबकि 1 बी paramper पैरामीटर मॉडल में परिवर्तनशीलता की मात्रा निर्धारित करने के लिए तीन पूर्ण बीज पुनर्मिलन होते हैं।
मूल्यांकन सुइट: टेन मल्टीपल is चोइस कार्यों (जैसे, MMLU, आर्क ईज़ी/चैलेंज, हेलसवाग, एमबीपीपी, ह्यूमनवेल) के ओल्म्स बेंचमार्क भाषा की समझ, कॉमन्सेंस रीजनिंग और कोड जनरेशन के प्रदर्शन का एक बहुमुखी दृश्य प्रदान करता है।

दोनों प्रीट्रेनिंग डेटासेट और इसी मॉडल को जारी करके, डेटाकाइड शोधकर्ताओं को सक्षम बनाता है:

रिट्रेनिंग के बिना नए मूल्यांकन के लिए चौकियों का पुन: उपयोग करें।
उपन्यास भविष्यवाणी विधियों के साथ प्रयोग (जैसे, उन्नत स्केलिंग, कानून फिट, चौरसाई तकनीक)।
प्रशिक्षण डेटा और मॉडल स्केल के लिए बेंचमार्क संवेदनशीलता की जांच करें।

प्रमुख निष्कर्ष और मात्रात्मक अंतर्दृष्टि

DataDecide के व्यवस्थित विश्लेषण से चार व्यावहारिक दिशानिर्देश हैं:

सिंगल – स्केल बेसलाइन मजबूती: एक एकल, छोटे पैमाने पर (जैसे, 150 मीटर पैरामीटर) पर डाउनस्ट्रीम सटीकता द्वारा रैंकिंग कॉर्पोरा 1 बी ‘पैरामीटर लक्ष्य पैमाने पर सर्वश्रेष्ठ डेटासेट की भविष्यवाणी करने के लिए ~ 80 प्रतिशत निर्णय सटीकता प्राप्त करता है। इसके विपरीत, आठ बेसलाइन स्केलिंग of- कानून एक्सट्रपलेशन इस सरल हेयुरिस्टिक को पार नहीं करते हैं, इसकी लागत – प्रभावशीलता को रेखांकित करते हैं।
टास्क – निर्भर गणना संवेदनशीलता: विश्वसनीय निर्णयों के लिए आवश्यक गणना बजट कार्य द्वारा स्पष्ट रूप से भिन्न होता है। MMLU और ARC EASY जैसे बेंचमार्क लक्ष्य गणना के 0.01 प्रतिशत से कम के साथ अनुमानित हो जाते हैं, जबकि हेलसवाग और सोशलिका समान निर्णय सटीकता को प्राप्त करने के लिए अधिक फ्लॉप के आदेशों की मांग करते हैं।
प्रॉक्सी मीट्रिक चयन: निरंतर संभावना मेट्रिक्स – विशेष रूप से चरित्र of सही निरंतरता (सही प्रोब) और कुल संभावना (कुल प्रोब) की औसत संभावना (कुल प्रोब) – छोटे पैमानों पर असतत सटीकता उपाय। यह कोड कार्यों (MBPP, HumanEval) पर सबसे अधिक स्पष्ट है, जहां निर्णय सटीकता निकट से knoptrandrand रैंडम से 80 प्रतिशत से अधिक तक सही प्रोब के रूप में प्रॉक्सी के रूप में कूदती है।
विचरण और प्रसार विचार: उच्च निर्णय सटीकता कम रन – से run रन विचरण (शोर) के साथ सहसंबंधित है और डेटासेट में फैले पर्याप्त प्रदर्शन। प्रॉक्सी मेट्रिक्स जो शोर को कम करते हैं या फैलाते हैं, इस प्रकार सीधे भविष्यवाणी विश्वसनीयता को बढ़ाते हैं।

समापन परिप्रेक्ष्य

DataDecide एक तदर्थ कला से डेटा चयन को एक पारदर्शी, डेटा। संचालित विज्ञान में बदल देता है। सभी 25 कॉर्पोरा, 1,050 मॉडल, 30,000+ चौकियों, और मूल्यांकन स्क्रिप्ट को गले लगाने के चेहरे और जीथब पर ओपन, सोर्सिंग द्वारा, एआई 2 समुदाय को निष्कर्षों को पुन: पेश करने, नए बेंचमार्क के मूल्यांकन का विस्तार करने और निर्णय – बनाने के तरीकों पर नवाचार करने के लिए आमंत्रित करता है। चूंकि एलएलएम विकास कभी भी rections ग्रेटर कम्प्यूट संसाधनों की मांग करना जारी रखता है, डेटाकाइड व्यर्थ प्रयोगों को कम करने और अंतर्दृष्टि को अधिकतम करने के लिए एक राजसी रूपरेखा प्रदान करता है – अधिक कुशल, प्रजनन योग्य और सहयोगी एआई अनुसंधान की ओर बढ़ने का रास्ता।

इसकी जाँच पड़ताल करो कागज, गले लगाने के चेहरे और तकनीकी विवरण पर मॉडल। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।

🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

एलएलएम प्रीट्रेनिंग में डेटा चयन की चुनौती

डाटैकाइड

तकनीकी संरचना और व्यावहारिक लाभ

प्रमुख निष्कर्ष और मात्रात्मक अंतर्दृष्टि

समापन परिप्रेक्ष्य

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US