Wednesday, April 16, 2025

छोटे मॉडल, बड़ा प्रभाव: ServiceNow AI कम संसाधनों के साथ बड़े LLM को बेहतर बनाने के लिए Apriel-5b जारी करता है – Gadgets Solutions

-

जैसे -जैसे भाषा मॉडल आकार और जटिलता में बढ़ते रहते हैं, वैसे -वैसे उन्हें प्रशिक्षित करने और तैनात करने के लिए आवश्यक संसाधन आवश्यकताएं होती हैं। जबकि बड़े पैमाने पर मॉडल विभिन्न प्रकार के बेंचमार्क में उल्लेखनीय प्रदर्शन प्राप्त कर सकते हैं, वे बुनियादी ढांचे की सीमाओं और उच्च परिचालन लागतों के कारण कई संगठनों के लिए अक्सर दुर्गम होते हैं। क्षमता और तैनाती के बीच यह अंतर एक व्यावहारिक चुनौती प्रस्तुत करता है, विशेष रूप से उद्यमों के लिए भाषा मॉडल को वास्तविक समय प्रणालियों या लागत-संवेदनशील वातावरण में एम्बेड करने की मांग करता है।

हाल के वर्षों में, छोटे भाषा मॉडल (एसएलएम) एक संभावित समाधान के रूप में उभरे हैं, कम मेमोरी की पेशकश करते हैं और पूरी तरह से प्रदर्शन पर समझौता किए बिना आवश्यकताओं की गणना करते हैं। फिर भी, कई एसएलएम विविध कार्यों में लगातार परिणाम प्रदान करने के लिए संघर्ष करते हैं, और उनके डिजाइन में अक्सर व्यापार-बंद होते हैं जो सामान्यीकरण या प्रयोज्य को सीमित करते हैं।

ServiceNow AI ने Apriel-5b जारी किया: पैमाने पर व्यावहारिक AI की ओर एक कदम

इन चिंताओं को दूर करने के लिए, ServiceNow AI ने जारी किया है Apriel-5bछोटे भाषा के मॉडल का एक नया परिवार, जिसे थ्रूपुट, प्रशिक्षण दक्षता और क्रॉस-डोमेन बहुमुखी प्रतिभा पर ध्यान केंद्रित किया गया है। साथ 4.8 बिलियन पैरामीटरAPRIEL-5B मामूली हार्डवेयर पर तैनात किए जाने के लिए काफी छोटा है, लेकिन फिर भी निर्देश-निम्नलिखित और तर्क कार्यों की एक सीमा पर प्रतिस्पर्धी रूप से प्रदर्शन करता है।

Apriel परिवार में दो संस्करण शामिल हैं:

  • Apriel-5b- बेसपाइपलाइनों में आगे ट्यूनिंग या एम्बेडिंग के लिए एक प्रीट्रेन्ड मॉडल।
  • Apriel-5b-instructएक निर्देश-ट्यून संस्करण चैट, तर्क और कार्य पूरा करने के लिए संरेखित किया गया।

दोनों मॉडल के तहत जारी किए गए हैं एमआईटी लाइसेंसअनुसंधान और वाणिज्यिक उपयोग के मामलों में खुले प्रयोग और व्यापक गोद लेने का समर्थन करना।

वास्तुशिल्प डिजाइन और तकनीकी प्रकाश

Apriel-5b को प्रशिक्षित किया गया था 4.5 ट्रिलियन टोकनप्राकृतिक भाषा की समझ, तर्क और बहुभाषी क्षमताओं सहित कई कार्य श्रेणियों को कवर करने के लिए सावधानीपूर्वक निर्मित एक डेटासेट। मॉडल एक घनी वास्तुकला का उपयोग करता है, जो कि महत्वपूर्ण तकनीकी सुविधाओं के साथ, जैसे कि महत्वपूर्ण तकनीकी सुविधाओं के लिए अनुकूलित है: जैसे:

  • रोटरी पोजिशनल एम्बेडिंग (रस्सी) की एक संदर्भ विंडो के साथ 8,192 टोकनलंबे समय से अनुक्रम कार्यों का समर्थन करना।
  • फ़्लैशटेंशन -2तेजी से ध्यान संगणना और बेहतर मेमोरी उपयोग को सक्षम करना।
  • समूहित-क्वेरी ध्यान (GQA)ऑटोरेग्रेसिव डिकोडिंग के दौरान मेमोरी ओवरहेड को कम करना।
  • प्रशिक्षण Bfloat16जो संख्यात्मक स्थिरता बनाए रखते हुए आधुनिक त्वरक के साथ संगतता सुनिश्चित करता है।

ये वास्तुशिल्प निर्णय APRIEL-5B को विशेष हार्डवेयर या व्यापक समानांतर पर भरोसा किए बिना जवाबदेही और गति बनाए रखने की अनुमति देते हैं। निर्देश-ट्यून किया गया संस्करण क्यूरेट किए गए डेटासेट और पर्यवेक्षित तकनीकों का उपयोग करके ठीक-ठाक किया गया था, जिससे यह न्यूनतम संकेत के साथ निर्देश-निम्नलिखित कार्यों की एक सीमा पर अच्छा प्रदर्शन करने में सक्षम था।

छोटे मॉडल, बड़ा प्रभाव: ServiceNow AI कम संसाधनों के साथ बड़े LLM को बेहतर बनाने के लिए Apriel-5b जारी करता है
 – Gadgets Solutions

मूल्यांकन अंतर्दृष्टि और बेंचमार्क तुलना

Apriel-5b-Instruct का मूल्यांकन कई व्यापक रूप से उपयोग किए जाने वाले खुले मॉडल के खिलाफ किया गया है, जिसमें मेटा के Llama 3.1–8B, एलन AI के OLMO-2–7B, और Mistral-Nemo-12B शामिल हैं। अपने छोटे आकार के बावजूद, Apriel कई बेंचमार्क में प्रतिस्पर्धी परिणाम दिखाता है:

  • दोनों को बेहतर बनाया ओल्मो -2–7 बी-इंस्ट्रक्शन और मिस्ट्रल-नेमो -12 बी-इंस्ट्रक्शन सामान्य-उद्देश्य कार्यों में औसतन।
  • की तुलना में मजबूत परिणाम दिखाता है Llama-3.1–8b-instruct पर गणित-केंद्रित कार्य और यदि evalजो निर्देश-निम्नलिखित स्थिरता का मूल्यांकन करता है।
  • काफी कम गणना संसाधनों की आवश्यकता है-2.3x कम GPU घंटे-यह ओल्मो -2–7 बी, इसकी प्रशिक्षण दक्षता को रेखांकित करता है।

इन परिणामों से पता चलता है कि APRIEL-5B हल्के परिनियोजन और कार्य बहुमुखी प्रतिभा के बीच एक उत्पादक मिडपॉइंट को हिट करता है, विशेष रूप से उन डोमेन में जहां वास्तविक समय के प्रदर्शन और सीमित संसाधन प्रमुख विचार हैं।

निष्कर्ष: मॉडल पारिस्थितिकी तंत्र के लिए एक व्यावहारिक जोड़

Apriel-5b छोटे मॉडल डिजाइन के लिए एक विचारशील दृष्टिकोण का प्रतिनिधित्व करता है, एक जो पैमाने के बजाय संतुलन पर जोर देता है। अनुमान थ्रूपुट, प्रशिक्षण दक्षता, और कोर निर्देश-निम्नलिखित प्रदर्शन पर ध्यान केंद्रित करके, ServiceNow AI ने एक मॉडल परिवार बनाया है जो तैनात करना आसान है, विभिन्न उपयोग के मामलों के अनुकूल है, और एकीकरण के लिए खुले तौर पर उपलब्ध है।

गणित और रीजनिंग बेंचमार्क पर इसका मजबूत प्रदर्शन, एक अनुमेय लाइसेंस और कुशल गणना प्रोफ़ाइल के साथ संयुक्त है, Apriel-5b को उत्पादों, एजेंटों या वर्कफ़्लो में AI क्षमताओं का निर्माण करने वाली टीमों के लिए एक सम्मोहक विकल्प बनाता है। पहुंच और वास्तविक दुनिया की प्रयोज्यता द्वारा परिभाषित एक क्षेत्र में, APRIEL-5B एक व्यावहारिक कदम है।


चेक आउट ServiceNow-AI/APRIEL-5B-BASE और ServiceNow-AI/APRIEL-5B-INSTRUCT। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »