Monday, April 21, 2025

क्या तर्क मॉडल को वास्तव में ट्रांसफॉर्मर की आवश्यकता है?: एक साथ, कॉर्नेल, जिनेवा, और प्रिंसटन के शोधकर्ता एम 1- एक हाइब्रिड मंबा-आधारित एआई का परिचय देते हैं जो 3x इनवेंशन स्पीड पर SOTA प्रदर्शन से मेल खाता है – Gadgets Solutions

-

गणित और प्रोग्रामिंग जैसे क्षेत्रों में जटिल समस्याओं को हल करने के लिए प्रभावी तर्क महत्वपूर्ण है, और एलएलएम ने लंबी श्रृंखला के विचार के माध्यम से महत्वपूर्ण सुधारों का प्रदर्शन किया है। हालांकि, ट्रांसफार्मर-आधारित मॉडल उनकी द्विघात कम्प्यूटेशनल जटिलता और रैखिक स्मृति आवश्यकताओं के कारण सीमाओं का सामना करते हैं, जिससे लंबे अनुक्रमों को कुशलता से संसाधित करने के लिए चुनौतीपूर्ण हो जाता है। जबकि चेन ऑफ थॉट (COT) रीज़निंग और एडेप्टिव कम्प्यूट आवंटन जैसी तकनीकों ने मॉडल प्रदर्शन को बढ़ावा देने में मदद की है, इन विधियों में कम्प्यूटेशनल लागत भी बढ़ जाती है। इसके अतिरिक्त, कई आउटपुट उत्पन्न करना और सबसे अच्छा एक का चयन करना तर्क सटीकता को बढ़ाने के तरीके के रूप में खोजा गया है। हालांकि, इस तरह के तरीके अभी भी ट्रांसफार्मर-आधारित आर्किटेक्चर पर निर्भर करते हैं, जो बड़े-बैच, लंबे समय से संदर्भ कार्यों में स्केलेबिलिटी के साथ संघर्ष करते हैं।

इन चुनौतियों का समाधान करने के लिए, ट्रांसफॉर्मर आर्किटेक्चर के विकल्पों का पता लगाया गया है, जिसमें आरएनएन-आधारित मॉडल, राज्य अंतरिक्ष मॉडल (एसएसएम), और रैखिक ध्यान तंत्र शामिल हैं, जो अधिक कुशल मेमोरी उपयोग और तेजी से अनुमान प्रदान करते हैं। सबक्वाड्रैटिक परतों के साथ आत्म-संलग्नन को मिलाकर हाइब्रिड मॉडल भी इन्वेंशन-टाइम स्केलिंग में सुधार करने के लिए विकसित किए गए हैं। इसके अलावा, ज्ञान आसवन तकनीक, जो बड़े मॉडल से छोटे लोगों में क्षमताओं को स्थानांतरित करती है, ने मॉडल के आकार को कम करते हुए तर्क प्रदर्शन को बनाए रखने में वादा दिखाया है। क्रॉस-आर्किटेक्चर आसवन में अनुसंधान, जैसे कि ट्रांसफार्मर से ज्ञान को आरएनएन या एसएसएम में स्थानांतरित करना, छोटे, अधिक कुशल मॉडल में उच्च तर्क क्षमताओं को प्राप्त करने के लिए जारी है।

एक साथ, कॉर्नेल विश्वविद्यालय, जिनेवा विश्वविद्यालय, और प्रिंसटन विश्वविद्यालय के शोधकर्ता एम 1, एक हाइब्रिड रैखिक आरएनएन तर्क मॉडल पेश करते हैं, जो कि एमएएमबीए आर्किटेक्चर पर बनाया गया है, जो स्मृति-कुशल अनुमान को बढ़ाता है। एम 1 को आसवन, पर्यवेक्षित ठीक-ट्यूनिंग और सुदृढीकरण सीखने के संयोजन के माध्यम से प्रशिक्षित किया जाता है। Aime और गणित बेंचमार्क पर प्रायोगिक परिणाम M1 आउटपरफॉर्म्स पिछले रैखिक RNN मॉडल को दिखाते हैं और DeepSeek R1 डिस्टिल्ड ट्रांसफार्मर के प्रदर्शन से मेल खाते हैं। इसके अतिरिक्त, M1 एक ही आकार के ट्रांसफॉर्मर की तुलना में एक 3x स्पीडअप को प्राप्त करता है, आत्म-प्रवृत्ति और सत्यापन जैसी तकनीकों के माध्यम से तर्क सटीकता को बढ़ाता है, जिससे यह बड़े पैमाने पर अनुमान के लिए एक शक्तिशाली मॉडल बन जाता है।

M1 मॉडल को तीन-चरण की प्रक्रिया के माध्यम से बनाया गया है: आसवन, SFT और RL। सबसे पहले, एक प्रीट्रेन्ड ट्रांसफार्मर मॉडल को MAMBA आर्किटेक्चर में डिस्टिल्ड किया जाता है, जिसमें रैखिक अनुमानों के लिए एक संशोधित दृष्टिकोण और बेहतर प्रदर्शन के लिए अतिरिक्त मापदंडों के साथ। SFT चरण में, मॉडल गणित की समस्या डेटासेट पर ठीक-ठीक है, पहले सामान्य डेटासेट के साथ और फिर R1 मॉडल श्रृंखला से तर्क-केंद्रित डेटासेट के साथ। अंत में, आरएल को जीआरपीओ का उपयोग करके लागू किया जाता है, जो लाभ के अनुमानों के साथ प्रशिक्षण द्वारा मॉडल की तर्क क्षमता को बढ़ाता है और इसकी प्रतिक्रियाओं में विविधता को प्रोत्साहित करता है, जिससे इसके प्रदर्शन को और बढ़ावा मिलता है।

प्रयोग LLAMA3.2-3 B-Instruct मॉडल का उपयोग आसवन के लक्ष्य के रूप में करता है, जिसमें MAMBA परतें 16-आकार के SSM राज्य का उपयोग करते हैं। मूल्यांकन में गणित के बेंचमार्क की एक श्रृंखला शामिल है, जिसमें Math500, Aime25 और ओलंपियाड बेंच शामिल हैं, जो कवरेज और सटीकता के आधार पर मॉडल प्रदर्शन का आकलन करते हैं। पास@k मीट्रिक का उपयोग कवरेज के लिए किया जाता है, जो उत्पन्न नमूनों के बीच एक सही समाधान की संभावना को दर्शाता है। मॉडल के प्रदर्शन की तुलना विभिन्न अत्याधुनिक मॉडलों के साथ की जाती है, जो प्रतिस्पर्धी परिणामों की उपज देते हैं, विशेष रूप से तर्क कार्यों में। अनुमान की गति और परीक्षण-समय स्केलिंग का मूल्यांकन किया जाता है, जो बड़ी-बैच पीढ़ी में M1 की दक्षता और लंबे समय तक अनुक्रम संदर्भों में प्रदर्शित होता है।

क्या तर्क मॉडल को वास्तव में ट्रांसफॉर्मर की आवश्यकता है?: एक साथ, कॉर्नेल, जिनेवा, और प्रिंसटन के शोधकर्ता एम 1- एक हाइब्रिड मंबा-आधारित एआई का परिचय देते हैं जो 3x इनवेंशन स्पीड पर SOTA प्रदर्शन से मेल खाता है
 – Gadgets Solutions

अंत में, M1 MAMBA आर्किटेक्चर पर आधारित एक हाइब्रिड रीज़निंग मॉडल है, जिसे ट्रांसफार्मर मॉडल में स्केलेबिलिटी मुद्दों को दूर करने के लिए डिज़ाइन किया गया है। आसवन और ठीक-ट्यूनिंग तकनीकों को नियोजित करके, M1 अत्याधुनिक तर्क मॉडल की तुलना में प्रदर्शन को प्राप्त करता है। यह समान आकार के ट्रांसफार्मर मॉडल की तुलना में 3x से अधिक तेज अनुमान प्रदान करता है, विशेष रूप से बड़े बैच आकारों के साथ, संसाधन-गहन रणनीतियों जैसी आत्म-प्रवृत्ति को अधिक संभव बनाती है। M1 रेखीय RNN मॉडल को आउट करता है और Aime और Math जैसे बेंचमार्क पर DeepSeek R1 के प्रदर्शन से मेल खाता है। इसके अतिरिक्त, यह निश्चित समय के बजट के तहत बेहतर सटीकता को प्रदर्शित करता है, जिससे यह गणितीय तर्क कार्यों के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर के लिए एक मजबूत, कुशल विकल्प बन जाता है।


यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »