गणित और प्रोग्रामिंग जैसे क्षेत्रों में जटिल समस्याओं को हल करने के लिए प्रभावी तर्क महत्वपूर्ण है, और एलएलएम ने लंबी श्रृंखला के विचार के माध्यम से महत्वपूर्ण सुधारों का प्रदर्शन किया है। हालांकि, ट्रांसफार्मर-आधारित मॉडल उनकी द्विघात कम्प्यूटेशनल जटिलता और रैखिक स्मृति आवश्यकताओं के कारण सीमाओं का सामना करते हैं, जिससे लंबे अनुक्रमों को कुशलता से संसाधित करने के लिए चुनौतीपूर्ण हो जाता है। जबकि चेन ऑफ थॉट (COT) रीज़निंग और एडेप्टिव कम्प्यूट आवंटन जैसी तकनीकों ने मॉडल प्रदर्शन को बढ़ावा देने में मदद की है, इन विधियों में कम्प्यूटेशनल लागत भी बढ़ जाती है। इसके अतिरिक्त, कई आउटपुट उत्पन्न करना और सबसे अच्छा एक का चयन करना तर्क सटीकता को बढ़ाने के तरीके के रूप में खोजा गया है। हालांकि, इस तरह के तरीके अभी भी ट्रांसफार्मर-आधारित आर्किटेक्चर पर निर्भर करते हैं, जो बड़े-बैच, लंबे समय से संदर्भ कार्यों में स्केलेबिलिटी के साथ संघर्ष करते हैं।
इन चुनौतियों का समाधान करने के लिए, ट्रांसफॉर्मर आर्किटेक्चर के विकल्पों का पता लगाया गया है, जिसमें आरएनएन-आधारित मॉडल, राज्य अंतरिक्ष मॉडल (एसएसएम), और रैखिक ध्यान तंत्र शामिल हैं, जो अधिक कुशल मेमोरी उपयोग और तेजी से अनुमान प्रदान करते हैं। सबक्वाड्रैटिक परतों के साथ आत्म-संलग्नन को मिलाकर हाइब्रिड मॉडल भी इन्वेंशन-टाइम स्केलिंग में सुधार करने के लिए विकसित किए गए हैं। इसके अलावा, ज्ञान आसवन तकनीक, जो बड़े मॉडल से छोटे लोगों में क्षमताओं को स्थानांतरित करती है, ने मॉडल के आकार को कम करते हुए तर्क प्रदर्शन को बनाए रखने में वादा दिखाया है। क्रॉस-आर्किटेक्चर आसवन में अनुसंधान, जैसे कि ट्रांसफार्मर से ज्ञान को आरएनएन या एसएसएम में स्थानांतरित करना, छोटे, अधिक कुशल मॉडल में उच्च तर्क क्षमताओं को प्राप्त करने के लिए जारी है।
एक साथ, कॉर्नेल विश्वविद्यालय, जिनेवा विश्वविद्यालय, और प्रिंसटन विश्वविद्यालय के शोधकर्ता एम 1, एक हाइब्रिड रैखिक आरएनएन तर्क मॉडल पेश करते हैं, जो कि एमएएमबीए आर्किटेक्चर पर बनाया गया है, जो स्मृति-कुशल अनुमान को बढ़ाता है। एम 1 को आसवन, पर्यवेक्षित ठीक-ट्यूनिंग और सुदृढीकरण सीखने के संयोजन के माध्यम से प्रशिक्षित किया जाता है। Aime और गणित बेंचमार्क पर प्रायोगिक परिणाम M1 आउटपरफॉर्म्स पिछले रैखिक RNN मॉडल को दिखाते हैं और DeepSeek R1 डिस्टिल्ड ट्रांसफार्मर के प्रदर्शन से मेल खाते हैं। इसके अतिरिक्त, M1 एक ही आकार के ट्रांसफॉर्मर की तुलना में एक 3x स्पीडअप को प्राप्त करता है, आत्म-प्रवृत्ति और सत्यापन जैसी तकनीकों के माध्यम से तर्क सटीकता को बढ़ाता है, जिससे यह बड़े पैमाने पर अनुमान के लिए एक शक्तिशाली मॉडल बन जाता है।
M1 मॉडल को तीन-चरण की प्रक्रिया के माध्यम से बनाया गया है: आसवन, SFT और RL। सबसे पहले, एक प्रीट्रेन्ड ट्रांसफार्मर मॉडल को MAMBA आर्किटेक्चर में डिस्टिल्ड किया जाता है, जिसमें रैखिक अनुमानों के लिए एक संशोधित दृष्टिकोण और बेहतर प्रदर्शन के लिए अतिरिक्त मापदंडों के साथ। SFT चरण में, मॉडल गणित की समस्या डेटासेट पर ठीक-ठीक है, पहले सामान्य डेटासेट के साथ और फिर R1 मॉडल श्रृंखला से तर्क-केंद्रित डेटासेट के साथ। अंत में, आरएल को जीआरपीओ का उपयोग करके लागू किया जाता है, जो लाभ के अनुमानों के साथ प्रशिक्षण द्वारा मॉडल की तर्क क्षमता को बढ़ाता है और इसकी प्रतिक्रियाओं में विविधता को प्रोत्साहित करता है, जिससे इसके प्रदर्शन को और बढ़ावा मिलता है।
प्रयोग LLAMA3.2-3 B-Instruct मॉडल का उपयोग आसवन के लक्ष्य के रूप में करता है, जिसमें MAMBA परतें 16-आकार के SSM राज्य का उपयोग करते हैं। मूल्यांकन में गणित के बेंचमार्क की एक श्रृंखला शामिल है, जिसमें Math500, Aime25 और ओलंपियाड बेंच शामिल हैं, जो कवरेज और सटीकता के आधार पर मॉडल प्रदर्शन का आकलन करते हैं। पास@k मीट्रिक का उपयोग कवरेज के लिए किया जाता है, जो उत्पन्न नमूनों के बीच एक सही समाधान की संभावना को दर्शाता है। मॉडल के प्रदर्शन की तुलना विभिन्न अत्याधुनिक मॉडलों के साथ की जाती है, जो प्रतिस्पर्धी परिणामों की उपज देते हैं, विशेष रूप से तर्क कार्यों में। अनुमान की गति और परीक्षण-समय स्केलिंग का मूल्यांकन किया जाता है, जो बड़ी-बैच पीढ़ी में M1 की दक्षता और लंबे समय तक अनुक्रम संदर्भों में प्रदर्शित होता है।
अंत में, M1 MAMBA आर्किटेक्चर पर आधारित एक हाइब्रिड रीज़निंग मॉडल है, जिसे ट्रांसफार्मर मॉडल में स्केलेबिलिटी मुद्दों को दूर करने के लिए डिज़ाइन किया गया है। आसवन और ठीक-ट्यूनिंग तकनीकों को नियोजित करके, M1 अत्याधुनिक तर्क मॉडल की तुलना में प्रदर्शन को प्राप्त करता है। यह समान आकार के ट्रांसफार्मर मॉडल की तुलना में 3x से अधिक तेज अनुमान प्रदान करता है, विशेष रूप से बड़े बैच आकारों के साथ, संसाधन-गहन रणनीतियों जैसी आत्म-प्रवृत्ति को अधिक संभव बनाती है। M1 रेखीय RNN मॉडल को आउट करता है और Aime और Math जैसे बेंचमार्क पर DeepSeek R1 के प्रदर्शन से मेल खाता है। इसके अतिरिक्त, यह निश्चित समय के बजट के तहत बेहतर सटीकता को प्रदर्शित करता है, जिससे यह गणितीय तर्क कार्यों के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर के लिए एक मजबूत, कुशल विकल्प बन जाता है।
यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
