Tuesday, April 22, 2025

LLMS अब 2-बिट प्रिसिजन पर उच्च सटीकता बनाए रख सकता है: UNC चैपल हिल के शोधकर्ता TACQ का परिचय देते हैं, एक कार्य-जागरूक परिमाणीकरण दृष्टिकोण जो प्रदर्शन हानि के बिना संपीड़न के लिए महत्वपूर्ण वजन सर्किट को संरक्षित करता है – Gadgets Solutions

-

एलएलएम कई अनुप्रयोगों में प्रभावशाली क्षमताओं को दिखाते हैं, फिर भी वे कम्प्यूटेशनल मांगों और स्मृति आवश्यकताओं के कारण चुनौतियों का सामना करते हैं। यह चुनौती गोपनीयता की चिंताओं के लिए स्थानीय तैनाती की आवश्यकता वाले परिदृश्यों में तीव्र है, जैसे कि संवेदनशील रोगी रिकॉर्ड को संसाधित करना, या वास्तविक समय ग्राहक सेवा प्रणाली और किनारे उपकरणों जैसे विवश वातावरण की गणना करना। पोस्ट-ट्रेनिंग परिमाणीकरण (PTQ) एक आशाजनक समाधान है जो पूर्व-प्रशिक्षित मॉडल के कुशल संपीड़न की अनुमति देता है, स्मृति की खपत को 2-4 बार कम करता है। हालांकि, वर्तमान प्रक्रियाओं में 4-बिट संपीड़न में एक अड़चन होती है, जिसमें 2- या 3-बिट सटीकता का प्रयास करते समय पर्याप्त प्रदर्शन में गिरावट होती है। अधिकांश पीटीक्यू विधियाँ परिमाणीकरण के परिणामस्वरूप सक्रियण परिवर्तनों के लिए सामान्य-उद्देश्य पूर्व-प्रशिक्षण डेटा के छोटे मिनी-बैचों पर निर्भर करती हैं।

एलएलएम संपीड़न के लिए वर्तमान तरीके मुख्य रूप से तीन श्रेणियों में आते हैं। वर्दी परिमाणीकरण सबसे बुनियादी दृष्टिकोण का प्रतिनिधित्व करता है, जहां 16-बिट फ्लोट टेनर्स के रूप में संग्रहीत वजन प्रत्येक पंक्ति को स्वतंत्र रूप से इलाज करके संपीड़ित होते हैं, प्रत्येक चैनल के भीतर अधिकतम और न्यूनतम मूल्यों के आधार पर पूर्णांक को फ़्लोट करते हैं। जीपीटीक्यू-आधारित परिमाणीकरण तकनीक इस अवधारणा को लेयरवाइज पुनर्निर्माण पर ध्यान केंद्रित करके आगे बढ़ाती है, जिसका उद्देश्य परिमाणीकरण के बाद पुनर्निर्माण हानि को कम करना है। इसके अलावा, मिश्रित-सटीक परिमाणीकरण विधियाँ एक अधिक बारीक रणनीति प्रदान करती हैं, जो सभी भार के लिए निश्चित सटीकता से आगे बढ़ रही हैं। ये तकनीकें प्रदर्शन को बनाए रखने के लिए वजन महत्व के आधार पर बिट-चौड़ाई प्रदान करती हैं, कुछ दृष्टिकोणों के साथ उच्च संवेदनशीलता “बाहरी” वजन को उच्च परिशुद्धता पर संरक्षित करता है।

UNC चैपल हिल के शोधकर्ताओं ने टास्कसिरकूट परिमाणीकरण (TACQ) नामक एक उपन्यास मिश्रित-सटीक पोस्ट-ट्रेनिंग परिमाणीकरण दृष्टिकोण का प्रस्ताव दिया है। विधि विशिष्ट वजन सर्किट पर मात्रात्मक प्रक्रिया को सीधे कंडीशनिंग करके स्वचालित सर्किट खोज की समानता दिखाती है, जिसे डाउनस्ट्रीम टास्क प्रदर्शन से जुड़े वज़न के सेट के रूप में परिभाषित किया गया है। TACQ अयोग्य मॉडल वेट की तुलना समान रूप से परिमाणित लोगों के साथ करता है, जो परिमाणीकरण से अपेक्षित वजन परिवर्तनों का अनुमान लगाने के लिए, फिर कार्य प्रदर्शन पर प्रभावों की भविष्यवाणी करने के लिए ढाल जानकारी का उपयोग करता है, कार्य-विशिष्ट भार के संरक्षण को सक्षम करता है। TACQ लगातार एक ही अंशांकन डेटा और कम वजन बजट के साथ आधारभूतों को बेहतर बनाता है, और चुनौतीपूर्ण 2-बिट और 3-बिट शासनों में महत्वपूर्ण सुधार प्राप्त करता है।

LLMS अब 2-बिट प्रिसिजन पर उच्च सटीकता बनाए रख सकता है: UNC चैपल हिल के शोधकर्ता TACQ का परिचय देते हैं, एक कार्य-जागरूक परिमाणीकरण दृष्टिकोण जो प्रदर्शन हानि के बिना संपीड़न के लिए महत्वपूर्ण वजन सर्किट को संरक्षित करता है
 – Gadgets Solutions

TACQ को एक सामर्थ्य मीट्रिक द्वारा परिभाषित किया गया है जो मात्राकरण के दौरान संरक्षित करने के लिए महत्वपूर्ण वजन की पहचान करता है, स्वचालित सर्किट खोज, ज्ञान स्थानीयकरण और इनपुट अटेंशन जैसी मॉडल व्याख्याता से अवधारणाओं पर निर्माण करता है। यह मीट्रिक दो घटकों का उपयोग करता है:

  • परिमाणीकरण-जागरूक स्थानीयकरण (QAL): यह पता लगाएं कि परिमाणीकरण के कारण अपेक्षित वजन परिवर्तन का अनुमान लगाने से मॉडल का प्रदर्शन कैसे प्रभावित होता है।
  • परिमाण-शार्पेड ग्रेडिएंट (MSG): इनपुट एट्रिब्यूशन तकनीकों से अनुकूलित पूर्ण वजन महत्व के लिए एक सामान्यीकृत मीट्रिक।

MSG TACQ को स्थिर करने में मदद करता है और QAL के अनुमानों से पूर्वाग्रहों को संबोधित करता है। ये कारक एक एकीकृत सैल्यूशन मीट्रिक में गठबंधन करते हैं, जिसे एक एकल पिछड़े पास में प्रत्येक वजन के लिए कुशलता से मूल्यांकन किया जा सकता है, जिससे 16-बिट सटीकता पर शीर्ष पी% उच्चतम स्कोरिंग वेट के संरक्षण की अनुमति मिलती है।

चुनौतीपूर्ण 2-बिट सेटिंग में, TACQ ने GSM8K पर 16.0% (20.1% से 36.1% तक) के पूर्ण मार्जिन सुधार के साथ SLIM-LLM, MMLU पर 14.1% (34.8% से 49.2% तक), और 21.9% (0% से 21.9% तक) के साथ पूर्ण मार्जिन सुधार के साथ। GPTQ, Skeeezellm, और SPQR जैसे अन्य बेसलाइन तरीके इस संपीड़न स्तर पर निकट-यादृच्छिक प्रदर्शन के लिए बिगड़ते हैं। 3-बिट प्रिसिजन में, TACQ लगभग 91%, 96%, और 89% को GSM8K, MMLU, और स्पाइडर पर अयोग्य सटीकता का संरक्षण करता है, जबकि अधिकांश डेटासेट में 1-2% की सबसे मजबूत बेसलाइन, स्लिम-एलएलएम से बेहतर प्रदर्शन करते हुए। TACQ के फायदे अनुक्रमिक टोकन आउटपुट की आवश्यकता वाले पीढ़ी के कार्यों में स्पष्ट हो जाते हैं, जहां यह एकमात्र तरीका है जो स्पाइडर टेक्स्ट-टू-एसक्यूएल कार्य के लिए 2-बिट सेटिंग में गैर-पर्वतारोहण योग्य प्रदर्शन को पुनर्प्राप्त करने में सक्षम है।

अंत में, शोधकर्ताओं ने TACQ पेश किया, जो कार्य-जागरूक पोस्ट-ट्रेनिंग परिमाणीकरण में एक महत्वपूर्ण उन्नति है। यह अल्ट्रा-लो बिट-चौड़ाई (2- से 3-बिट्स) में मॉडल प्रदर्शन में सुधार करता है, जहां पिछले तरीके निकट-रैंडम आउटपुट से नीचा दिखाते हैं। TACQ 16-बिट सटीकता पर केवल मुख्य भार के एक छोटे से अंश को संरक्षित करके स्वचालित सर्किट खोज अनुसंधान के साथ संरेखित करता है, यह दर्शाता है कि विरल वजन “सर्किट” विशिष्ट कार्यों को प्रभावित करता है। इसके अलावा, स्पाइडर पर प्रयोग बताते हैं कि TACQ बेहतर मॉडल पीढ़ी क्षमताओं को संरक्षित करता है, जिससे यह कार्यक्रम-प्रेडिक्शन कार्यों के लिए उपयुक्त हो जाता है। यह एजेंटों से जुड़ी स्थितियों पर भी लागू होता है, जहां मॉडल अक्सर कई निष्पादन योग्य आउटपुट उत्पन्न करते हैं, और जहां दक्षता एक चिंता का विषय है।


इसकी जाँच पड़ताल करो कागज़ और गीथब पेज। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »