एलएलएम प्रीट्रेनिंग में डेटा चयन की चुनौती
बड़े भाषा मॉडल विकसित करना पर्याप्त कम्प्यूटेशनल निवेश को बढ़ाता है, खासकर जब वैकल्पिक प्रीट्रेनिंग कॉर्पोरा के साथ प्रयोग करता है। पूरे पैमाने पर डेटासेट की तुलना में – अरबों मापदंडों के क्रम पर और सैकड़ों अरबों टोकन – प्रति रन सैकड़ों हजारों जीपीयू घंटे का उपभोग कर सकते हैं। नतीजतन, चिकित्सकों ने बड़े। मॉडल व्यवहार के लिए प्रॉक्सिज़ के रूप में छोटे are पैमाने के प्रयोगों का सहारा लिया। फिर भी ये “पायलट” अध्ययन शायद ही कभी प्रकाशित होते हैं, एक खंडित परिदृश्य का निर्माण करते हैं जिसमें प्रत्येक प्रयोगशाला साझा बेंचमार्क या कार्यप्रणाली के बिना समान छोटे of स्केल परीक्षणों को दोहराता है। यह अस्पष्टता प्रजनन क्षमता को बाधित करती है, सामूहिक अंतर्दृष्टि को कम करती है, और विकास गणना और अंतिम मॉडल प्रदर्शन के बीच वास्तविक व्यापार को अस्पष्ट करती है।

डाटैकाइड
इन सीमाओं को संबोधित करने के लिए, एलेन इंस्टीट्यूट फॉर एआई (एआई 2), वाशिंगटन विश्वविद्यालय और पेंसिल्वेनिया विश्वविद्यालय के सहयोग से, आज रिलीज़ करता है डाटैकाइड-एक 25 अलग -अलग कॉर्पोरा और 14 मॉडल आकारों में 4 मिलियन से 1 बिलियन मापदंडों तक फैले नियंत्रित प्रीट्रेनिंग प्रयोगों का व्यापक सूट। DataDecide के डेटासेट में डोमेन, DCLM, RefidinedWeb, C4, और Fineweb जैसे अच्छी तरह से ज्ञात स्रोत शामिल हैं, साथ ही डोमेन एब्लेशन, डिडुप्लिकेशन, क्वालिटी फ़िल्टरिंग और सोर्स मिक्सिंग द्वारा उत्पादित विविधताओं के साथ। प्रत्येक मॉडल को एक निश्चित टोकन ‘से reast से ration पैरामीटर प्रति पैरामीटर) के अनुपात में प्रशिक्षित किया जाता है, जो” ओवरट्रेनिंग “शासन को दर्शाता है जो अनुमानित दक्षता का अनुकूलन करता है। कुल मिलाकर, 1,050 से अधिक मॉडल और 30,000 से अधिक चौकियों से – प्रत्येक का मूल्यांकन दस डाउनस्ट्रीम कार्यों में किया गया – जनता के लिए जारी किया गया।
तकनीकी संरचना और व्यावहारिक लाभ
DataDecide ऑर्केस्ट्रेट तीन अक्षों के साथ प्रयोग:
- डेटा व्यंजनों: बीस, फाइव अच्छी तरह से document प्रोजेक्टेड प्रीट्रेनिंग कॉर्पोरा, प्रत्येक अलग -अलग क्यूरेशन रणनीतियों को मूर्त रूप दे रहा है (पूर्ण नुस्खा विनिर्देशों के लिए कागज में तालिका 1 देखें)।
- मॉडल स्केल: चौदह पैरामीटर कॉन्फ़िगरेशन (4 एम -1 बी), प्रोग्रामेटिक रूप से ओएलएमओ मॉडल सीढ़ी के माध्यम से प्राप्त किया गया है ताकि तराजू में लगातार प्रशिक्षण हाइपरपैमीटर सुनिश्चित किया जा सके। प्रत्येक गैर -टारगेट स्केल में दो “शुरुआती op स्टॉप” सीड रन शामिल होते हैं, जबकि 1 बी paramper पैरामीटर मॉडल में परिवर्तनशीलता की मात्रा निर्धारित करने के लिए तीन पूर्ण बीज पुनर्मिलन होते हैं।
- मूल्यांकन सुइट: टेन मल्टीपल is चोइस कार्यों (जैसे, MMLU, आर्क ईज़ी/चैलेंज, हेलसवाग, एमबीपीपी, ह्यूमनवेल) के ओल्म्स बेंचमार्क भाषा की समझ, कॉमन्सेंस रीजनिंग और कोड जनरेशन के प्रदर्शन का एक बहुमुखी दृश्य प्रदान करता है।
दोनों प्रीट्रेनिंग डेटासेट और इसी मॉडल को जारी करके, डेटाकाइड शोधकर्ताओं को सक्षम बनाता है:
- रिट्रेनिंग के बिना नए मूल्यांकन के लिए चौकियों का पुन: उपयोग करें।
- उपन्यास भविष्यवाणी विधियों के साथ प्रयोग (जैसे, उन्नत स्केलिंग, कानून फिट, चौरसाई तकनीक)।
- प्रशिक्षण डेटा और मॉडल स्केल के लिए बेंचमार्क संवेदनशीलता की जांच करें।
प्रमुख निष्कर्ष और मात्रात्मक अंतर्दृष्टि
DataDecide के व्यवस्थित विश्लेषण से चार व्यावहारिक दिशानिर्देश हैं:
- सिंगल – स्केल बेसलाइन मजबूती: एक एकल, छोटे पैमाने पर (जैसे, 150 मीटर पैरामीटर) पर डाउनस्ट्रीम सटीकता द्वारा रैंकिंग कॉर्पोरा 1 बी ‘पैरामीटर लक्ष्य पैमाने पर सर्वश्रेष्ठ डेटासेट की भविष्यवाणी करने के लिए ~ 80 प्रतिशत निर्णय सटीकता प्राप्त करता है। इसके विपरीत, आठ बेसलाइन स्केलिंग of- कानून एक्सट्रपलेशन इस सरल हेयुरिस्टिक को पार नहीं करते हैं, इसकी लागत – प्रभावशीलता को रेखांकित करते हैं।
- टास्क – निर्भर गणना संवेदनशीलता: विश्वसनीय निर्णयों के लिए आवश्यक गणना बजट कार्य द्वारा स्पष्ट रूप से भिन्न होता है। MMLU और ARC EASY जैसे बेंचमार्क लक्ष्य गणना के 0.01 प्रतिशत से कम के साथ अनुमानित हो जाते हैं, जबकि हेलसवाग और सोशलिका समान निर्णय सटीकता को प्राप्त करने के लिए अधिक फ्लॉप के आदेशों की मांग करते हैं।
- प्रॉक्सी मीट्रिक चयन: निरंतर संभावना मेट्रिक्स – विशेष रूप से चरित्र of सही निरंतरता (सही प्रोब) और कुल संभावना (कुल प्रोब) की औसत संभावना (कुल प्रोब) – छोटे पैमानों पर असतत सटीकता उपाय। यह कोड कार्यों (MBPP, HumanEval) पर सबसे अधिक स्पष्ट है, जहां निर्णय सटीकता निकट से knoptrandrand रैंडम से 80 प्रतिशत से अधिक तक सही प्रोब के रूप में प्रॉक्सी के रूप में कूदती है।
- विचरण और प्रसार विचार: उच्च निर्णय सटीकता कम रन – से run रन विचरण (शोर) के साथ सहसंबंधित है और डेटासेट में फैले पर्याप्त प्रदर्शन। प्रॉक्सी मेट्रिक्स जो शोर को कम करते हैं या फैलाते हैं, इस प्रकार सीधे भविष्यवाणी विश्वसनीयता को बढ़ाते हैं।
समापन परिप्रेक्ष्य
DataDecide एक तदर्थ कला से डेटा चयन को एक पारदर्शी, डेटा। संचालित विज्ञान में बदल देता है। सभी 25 कॉर्पोरा, 1,050 मॉडल, 30,000+ चौकियों, और मूल्यांकन स्क्रिप्ट को गले लगाने के चेहरे और जीथब पर ओपन, सोर्सिंग द्वारा, एआई 2 समुदाय को निष्कर्षों को पुन: पेश करने, नए बेंचमार्क के मूल्यांकन का विस्तार करने और निर्णय – बनाने के तरीकों पर नवाचार करने के लिए आमंत्रित करता है। चूंकि एलएलएम विकास कभी भी rections ग्रेटर कम्प्यूट संसाधनों की मांग करना जारी रखता है, डेटाकाइड व्यर्थ प्रयोगों को कम करने और अंतर्दृष्टि को अधिकतम करने के लिए एक राजसी रूपरेखा प्रदान करता है – अधिक कुशल, प्रजनन योग्य और सहयोगी एआई अनुसंधान की ओर बढ़ने का रास्ता।
इसकी जाँच पड़ताल करो कागज, गले लगाने के चेहरे और तकनीकी विवरण पर मॉडल। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
