एलएलएम ने उद्योगों में विभिन्न अनुप्रयोगों को बदलते हुए, कृत्रिम बुद्धिमत्ता में क्रांति ला दी है। Autoregresive (AR) मॉडल वर्तमान पाठ पीढ़ी पर हावी हैं, जिसमें GPT-4, DEEPSEEK और क्लाउड जैसे प्रमुख सिस्टम हैं, जो अनुक्रमिक बाएं-से-दाएं आर्किटेक्चर का उपयोग करते हैं। प्रभावशाली क्षमताओं के बावजूद, अगली पीढ़ी के वास्तुशिल्प प्रतिमानों के बारे में मौलिक प्रश्न एआर मॉडल के रूप में उभरे हैं, जो पैमाने पर सीमाओं को प्रदर्शित करते हैं। इन चुनौतियों में जटिल तर्क कठिनाइयों, अपर्याप्त दीर्घकालिक योजना और विस्तारित संदर्भों में सामंजस्य बनाए रखने के संघर्ष शामिल हैं। ये सन्निहित एआई, स्वायत्त एजेंटों, और लंबे-क्षितिज निर्णय लेने वाली प्रणालियों में उभरते अनुप्रयोगों के लिए समस्याग्रस्त हैं, जहां सफलता के लिए निरंतर तर्क और प्रासंगिक समझ आवश्यक हैं।
असतत प्रसार मॉडल (डीएमएस) अनुक्रम पीढ़ी के लिए ऑटोरेग्रेसिव दृष्टिकोणों के लिए एक आशाजनक विकल्प हैं। एआर मॉडल के विपरीत जो क्रमिक रूप से टोकन उत्पन्न करते हैं, डीएमएस पूरी तरह से शोर वाले राज्य से समानांतर में सभी अनुक्रमों को परिष्कृत करता है। यह अंतर महत्वपूर्ण लाभ प्रदान करता है: द्विदिश प्रासंगिक मॉडलिंग वैश्विक सामंजस्य को बढ़ाता है, लचीली नियंत्रणीय पीढ़ी स्वाभाविक रूप से पुनरावृत्ति शोधन के माध्यम से होती है, और कुशल शोर-टू-डेटा मैपिंग के माध्यम से मौलिक नमूनाकरण त्वरण के लिए क्षमता मौजूद है। हाल की प्रगति भाषा कार्यों में प्रसार की बढ़ती क्षमता को दर्शाती है, जिसमें 7B मापदंडों के लिए diffullama और llada स्केलिंग जैसे मॉडल हैं, जबकि पारा कोडर कोड जनरेशन में प्रभावशाली अनुमान दक्षता दिखाता है।
हांगकांग विश्वविद्यालय और हुआवेई नूह की आर्क लैब के शोधकर्ताओं ने ड्रीम 7 बी (डिफ्यूजन रीजनिंग मॉडल) जारी किया, जो अब तक का सबसे शक्तिशाली खुला प्रसार बड़ा भाषा मॉडल है। मॉडल सामान्य कार्यों, गणित और कोडिंग बेंचमार्क पर समान आकार के एआर मॉडल से मेल खाता है या उससे अधिक है। ड्रीम 7 बी असाधारण शून्य-शॉट प्लानिंग क्षमताओं और अनुमान लचीलेपन को दर्शाता है, जो संरचित कार्यों पर दीपसेक वी 3 (671 बी) जैसे बड़े मॉडलों को बेहतर बनाता है। DOLMA और OPENCODER सहित विविध डेटासेट से 580B टोकन पर प्रशिक्षित, मॉडल QWEN2.5 7B से ऑटोरेग्रेसिव वेट इनिशियलाइज़ेशन के साथ मास्क-आधारित प्रसार को नियोजित करता है। इसकी वास्तुकला शक्तिशाली द्विदिश संदर्भ प्रसंस्करण, मनमानी-आदेश उत्पादन, संक्रमित क्षमताओं और समायोज्य गुणवत्ता-गति ट्रेडऑफ़्स को निष्क्रियता के दौरान सक्षम बनाती है।
ड्रीम 7 बी प्रसार भाषा मॉडलिंग में पिछले काम पर बनाता है, RDM की सैद्धांतिक नींव और Diffullama की अनुकूलन रणनीति का उपयोग करता है। यह विविध अनुप्रयोगों के लिए डिज़ाइन किए गए वास्तुकला के साथ एक मुखौटा प्रसार प्रतिमान को लागू करता है। प्रशिक्षण डेटा पाठ, गणित और स्रोतों से कोड का उपयोग करता है, जिसमें डोलमा V1.7, OpenCoder और DCLM-BASELINE शामिल हैं। प्रीट्रेनिंग ने 580 बिलियन टोकन का उपयोग किया, जो कि 96 एनवीडिया एच 800 जीपीयू पर 256 घंटे से अधिक के बिना अप्राप्य हानि स्पाइक्स के बिना निष्पादित किया गया। 1B पैरामीटर स्तर पर व्यापक डिजाइन प्रयोग ने महत्वपूर्ण घटकों की पहचान की, जिसमें QWEN2.5 और Llama3 जैसे ऑटोरेग्रेसिव मॉडल से वजन आरंभीकरण शामिल है, साथ ही संदर्भ-अनुकूली टोकन-स्तरीय शोर पुनर्निर्धारण के साथ-साथ ड्रीम 7B प्रशिक्षण के लिए आवश्यक साबित हुआ।
प्रस्तावित विधि का मूल्यांकन काउंटडाउन और सुदोकू कार्यों पर समायोज्य नियोजन कठिनाई के साथ किया जाता है, जो कि LLADA 8B, QWEN2.5 7B, LLAMA3 8B, और DEEPSEEK V3 671B के खिलाफ तुलना करता है। यह समान रूप से आकार के आधारभूत मॉडल को बेहतर बनाता है, दोनों प्रसार मॉडल ऑटोरेग्रेसिव विकल्पों को पार करते हैं। ये प्रसार मॉडल कभी-कभी अपने बड़े पैमाने पर पैरामीटर की गिनती के बावजूद डीपसेक वी 3 से अधिक से अधिक होते हैं, जो बहु-समावेशी समस्या-समाधान और विशिष्ट-उद्देश्य कार्यों के लिए प्रसार मॉडल की प्रभावशीलता दिखाते हैं। विधि ने तीन युगों में तुलु 3 और SMOLLM2 डेटासेट से 1.8M निर्देश जोड़े का उपयोग करके ठीक-ट्यूनिंग पोस्ट-ट्रेनिंग की देखरेख की। परिणाम ऑटोरेग्रेसिव मॉडल प्रदर्शन से मेल करने के लिए ड्रीम की क्षमता का संकेत देते हैं:
अंत में, शोधकर्ताओं ने ड्रीम 7 बी की शुरुआत की, जो सावधानीपूर्वक विकसित प्रशिक्षण पद्धति के माध्यम से दक्षता, स्केलेबिलिटी और लचीलेपन की विशेषता वाले प्रसार भाषा मॉडल के एक सफलता परिवार का प्रतिनिधित्व करता है। ये मॉडल सामान्य कार्यों, गणित और कोडिंग अनुप्रयोगों में समान आकार के प्रमुख ऑटोरेग्रेसिव मॉडल के साथ तुलनात्मक रूप से प्रदर्शन करते हैं। ड्रीम की सबसे विशिष्ट ताकत उन्नत नियोजन परिदृश्यों और लचीली अनुमान क्षमताओं में उभरती है, जहां इसकी प्रसार-आधारित वास्तुकला पारंपरिक ऑटोरेसिव दृष्टिकोणों पर महत्वपूर्ण लाभ प्रदान करती है। यह उपलब्धि भाषा मॉडल विकास में एक सम्मोहक वैकल्पिक पथ के रूप में प्रसार मॉडल की व्यवहार्यता को दर्शाती है।
चेक आउट ड्रीम-ऑर्ग/ड्रीम-वी 0-इंस्ट्रक्ट -7 बी और ड्रीम-ऑर्ग/ड्रीम-वी 0-बेस -7 बी। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।
