बड़े भाषा मॉडल (एलएलएम) के तेजी से विकसित परिदृश्य में, शोधकर्ताओं और संगठनों को महत्वपूर्ण चुनौतियों का सामना करना पड़ता है। इनमें तर्क क्षमताओं को बढ़ाना, मजबूत बहुभाषी सहायता प्रदान करना, और कुशलता से जटिल, ओपन-एंडेड कार्यों का प्रबंधन करना शामिल है। हालांकि छोटे मॉडल अक्सर अधिक सुलभ और लागत प्रभावी होते हैं, वे आमतौर पर अपने बड़े समकक्षों की तुलना में प्रदर्शन में कम हो जाते हैं। इसलिए, मध्यम आकार के मॉडल विकसित करने पर जोर दिया जा रहा है जो मजबूत तर्क और निर्देश-निम्नलिखित क्षमताओं के साथ कम्प्यूटेशनल दक्षता को प्रभावी ढंग से संतुलित करते हैं।
Tsinghua विश्वविद्यालय, विशेष रूप से GLM-Z1-32B-0414 संस्करण से GLM 4 की हालिया रिलीज, इन चुनौतियों को प्रभावी ढंग से संबोधित करती है। 15 ट्रिलियन टोकन के एक पर्याप्त डेटासेट पर प्रशिक्षित, GLM 4 को विश्वसनीय बहुभाषी क्षमताओं की पेशकश करने के लिए डिज़ाइन किया गया है और “थिंकिंग मोड” के रूप में संदर्भित अभिनव तर्क रणनीतियों को शामिल करता है। यह रिलीज़ GLM 4 को अन्य उल्लेखनीय मॉडलों जैसे कि DeepSeek Distill, QWQ और O1-MINI के साथ रखता है, और व्यापक रूप से सम्मानित MIT लाइसेंस के तहत वितरित किया जाता है। विशेष रूप से, 32 बिलियन के अपने अपेक्षाकृत मध्यम पैरामीटर आकार के बावजूद, GLM 4 GPT-4O और DEEPSEEK-V3 जैसे बहुत बड़े मॉडलों के लिए प्रदर्शन को प्रदर्शित करता है, जिसमें 671 बिलियन मापदंडों तक, विशेष रूप से तर्क-केंद्रित बेंचमार्क में शामिल हैं।
एक तकनीकी स्तर पर, GLM-Z1-32B-0414 विश्लेषणात्मक क्षमताओं को मजबूत करने के लिए, सिंथेटिक रूप से उत्पन्न तर्क कार्यों सहित व्यापक उच्च गुणवत्ता वाले प्रशिक्षण डेटा का लाभ उठाता है। मॉडल एजेंट-आधारित कार्यों, कोडिंग, फ़ंक्शन कॉलिंग, और खोज-संचालित प्रश्न-उत्तर देने वाले कार्यों में प्रदर्शन में सुधार के लिए अस्वीकृति नमूनाकरण और सुदृढीकरण सीखने (आरएल) जैसी परिष्कृत तकनीकों को एकीकृत करता है। इसके अतिरिक्त, इसका “डीप रीजनिंग मॉडल” भिन्नता विस्तारित आरएल प्रशिक्षण के साथ संयुक्त कोल्ड-स्टार्ट विधियों को नियोजित करके इसे और अधिक परिष्कृत करती है, विशेष रूप से जटिल गणितीय, तार्किक और कोडिंग कार्यों में लक्षित। मॉडल के सामान्य तर्क प्रभावशीलता को बढ़ाने के लिए प्रशिक्षण के दौरान पेयरवाइज रैंकिंग फीडबैक मैकेनिज्म को नियोजित किया जाता है।
एक उन्नत संस्करण, GLM-Z1- रुमिनेशन -32B-0414, एक उपन्यास दृष्टिकोण का परिचय देता है जिसे “अफवाह” कहा जाता है, जो तुलनात्मक एआई-चालित शहरी विश्लेषण जैसे खुले-समाप्त, जटिल क्वेरी से निपटने के लिए लंबे समय तक चिंतनशील तर्क को सक्षम करता है। यह संस्करण बहु-उद्देश्य सुदृढीकरण सीखने के साथ उन्नत खोज उपकरणों को एकीकृत करता है, अनुसंधान-गहन कार्यों और जटिल पुनर्प्राप्ति-आधारित परिदृश्यों में इसकी उपयोगिता को महत्वपूर्ण रूप से बढ़ाता है। इन बड़े मॉडलों को पूरक करते हुए, GLM-Z1-9B-0414 संस्करण, अपने 9 बिलियन मापदंडों के साथ, छोटे-पैमाने पर मॉडल की व्यावहारिकता का प्रदर्शन करते हुए, मजबूत गणितीय और सामान्य तर्क क्षमता प्रदान करता है।


बेंचमार्क मूल्यांकन से प्रदर्शन डेटा GLM 4 श्रृंखला की ताकत पर जोर देता है। विशेष रूप से, GLM-4-32B-0414 कई बेंचमार्क में GPT-4O, DEEPSEEK-V3, और QWEN2.5-MAX की तुलना में मजबूत परिणाम दिखाता है। IFeval निर्देश-समन्वय बेंचमार्क पर, GLM 4 स्कोर एक प्रभावशाली 87.6। टाऊ-बेंच जैसे टास्क ऑटोमेशन बेंचमार्क में, जीएलएम 4 रिटेल (68.7) और एयरलाइन (51.2) जैसे परिदृश्यों में मजबूत स्कोर प्राप्त करता है। SIMPLQA द्वारा मूल्यांकन किए गए खोज-संवर्धित प्रश्न-उत्तर कार्यों के लिए, मॉडल 88.1 के उच्च स्कोर को रिकॉर्ड करता है। इसके अतिरिक्त, GLM 4 BFCL-V3 बेंचमार्क द्वारा मूल्यांकन किए गए फ़ंक्शन-कॉलिंग कार्यों में GPT-4O के प्रदर्शन से निकटता से मेल खाता है, जो 69.6 के समग्र स्कोर को सुरक्षित करता है। Moatless ढांचे के साथ SWE-Bench के माध्यम से परीक्षण किए गए व्यावहारिक कोड मरम्मत परिदृश्यों में, GLM 4 33.8%की सफलता दर प्राप्त करता है, इसके व्यावहारिक मूल्य को रेखांकित करता है।
सारांश में, GLM 4 भाषा मॉडल के एक प्रभावी परिवार के रूप में खुद को प्रस्तुत करता है, सफलतापूर्वक छोटे, अधिक सुलभ मॉडल और पारंपरिक रूप से बेहतर बड़े पैमाने पर समकक्षों के बीच प्रदर्शन अंतर को पाटता है। GLM-Z1 श्रृंखला, विशेष रूप से 32B संस्करण, कम्प्यूटेशनल सामर्थ्य को बनाए रखते हुए शक्तिशाली तर्क क्षमता प्रदान करके इस संतुलित दृष्टिकोण का उदाहरण देता है। अपने अनुमेय MIT लाइसेंस के अतिरिक्त लाभ के साथ, GLM 4 को अनुसंधान और उद्यम अनुप्रयोगों के लिए एक मजबूत उपकरण के रूप में तैनात किया गया है, जो पारंपरिक रूप से बड़े मॉडल के साथ जुड़े व्यापक कम्प्यूटेशनल ओवरहेड के बिना उच्च-प्रदर्शन AI समाधानों की आवश्यकता होती है।
चेक आउट GLM-4-Z1-32B-0414 नमूना और अन्य मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
