Monday, April 21, 2025

LLMs निष्क्रिय रहते हुए सोच सकते हैं: लेटा और यूसी बर्कले के शोधकर्ताओं ने ‘स्लीप-टाइम कम्प्यूट’ का परिचय दिया, जो कि स्लैश की लागत को कम कर सकता है और विलंबता का त्याग किए बिना सटीकता को बढ़ावा देता है – Gadgets Solutions

-

बड़े भाषा मॉडल (LLMS) ने जटिल तर्क कार्यों को संभालने की उनकी क्षमता के लिए प्रमुखता प्राप्त की है, चैटबॉट से कोड-जनरेशन टूल में अनुप्रयोगों को बदल दिया है। इन मॉडलों को अनुमान के दौरान अपनी गणना को बढ़ाने से काफी लाभ उठाने के लिए जाना जाता है, अक्सर कठिन समस्याओं के लिए अधिक संसाधनों को समर्पित करके उच्च सटीकता का उत्पादन करता है। हालांकि, यह दृष्टिकोण काफी कमियों के साथ लाता है। लंबे समय तक प्रसंस्करण समय और उच्चतर कंप्यूटिंग लागत वास्तविक दुनिया की सेटिंग्स में इस तरह के समाधानों को पैमाने पर चुनौतीपूर्ण बनाती है, जहां जवाबदेही और सामर्थ्य महत्वपूर्ण हैं। चूंकि प्रौद्योगिकी अधिक बुद्धिमान प्रणालियों की ओर बढ़ती है, इसलिए यह पता लगाने की आवश्यकता है कि एलएलएम न केवल होशियार बन सकते हैं, बल्कि अधिक कुशल भी हो सकते हैं, खासकर जब दोहराव या परिचित संदर्भों के भीतर काम करते हैं।

वर्तमान एलएलएम परिनियोजन में सबसे बड़ी अक्षमताओं में से एक क्वेरी रिज़ॉल्यूशन के दौरान होता है। आमतौर पर, जब कोई उपयोगकर्ता एक प्रश्न प्रस्तुत करता है, तो मॉडल इसे आवश्यक पृष्ठभूमि संदर्भ के साथ एक साथ संसाधित करता है। यह परीक्षण-समय गणना मानता है कि संदर्भ और प्रश्न हमेशा एक साथ आते हैं। लेकिन वास्तविक परिदृश्यों में, जैसे कि दस्तावेज़ Q & A या डिबगिंग कोड, संदर्भ आमतौर पर लगातार होता है और एक विशिष्ट प्रश्न के पूछे जाने से पहले अच्छी तरह से पहुँचा जा सकता है। फिर भी, मॉडल प्रत्येक क्वेरी के लिए खरोंच से सब कुछ संसाधित करता है, भले ही उसने संदर्भ को पहले देखा हो। इस अतिरेक के परिणामस्वरूप कम्प्यूटेशनल लागत और प्रतिक्रिया में देरी होती है, विशेष रूप से एक संदर्भ के भीतर कई प्रश्नों को शामिल करने वाले परिदृश्यों में।

इस अक्षमता से निपटने के लिए, विभिन्न तरीकों को विकसित किया गया है। अनुक्रमिक और समानांतर परीक्षण-समय संगणना दो प्रमुख रणनीतियाँ हैं। अनुक्रमिक दृष्टिकोण मॉडल के तर्क पथ का विस्तार करते हैं, जिससे यह अधिक संभावनाओं पर विचार करने की अनुमति देता है, जबकि समानांतर दृष्टिकोण में एक साथ कई आउटपुट का नमूना लेना शामिल है, जिसे पास@के के रूप में जाना जाता है। सट्टा डिकोडिंग जैसी तकनीकों का उद्देश्य शुरुआती अनुमान लगाकर विलंबता में कटौती करना है, लेकिन उनकी उपयोगिता सीमित है जब मॉडल को अभी भी खरोंच से सोचना पड़ता है। सहायक जबकि, ये विधियाँ बार -बार हर नए प्रश्न के साथ -साथ संदर्भ को संसाधित करने की आवश्यकता को समाप्त नहीं करती हैं। उन्हें आमतौर पर परीक्षण-समय की स्थितियों की भी आवश्यकता होती है जो हमेशा संभव नहीं होती हैं, जैसे कि एक ओरेकल या एक आदर्श सत्यापनकर्ता तक पहुंच।

लेटा और कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं ने एक उपन्यास समाधान पेश किया जिसे वे नींद-समय की गणना कहते हैं। विधि में उत्पादकता बढ़ाने के लिए उपयोगकर्ता इंटरैक्शन के बीच निष्क्रिय समय का उपयोग करना शामिल है। उपयोगकर्ता प्रश्न की प्रतीक्षा करने के बजाय, मॉडल पहले से संदर्भ का विश्लेषण करना शुरू कर देता है। यह भविष्य के संभावित प्रश्नों का अनुमान लगाता है और प्रासंगिक निष्कर्षों के साथ समृद्ध संदर्भ का एक नया संस्करण बनाता है। जब कोई उपयोगकर्ता अंत में एक प्रश्न पूछता है, तो मॉडल बस इस पूर्व-संसाधित संदर्भ को संदर्भित कर सकता है। चूंकि बहुत सी सोच पहले से ही हो चुकी है, इसलिए सटीक उत्तर देने के लिए इसे कम कम्प्यूटेशनल प्रयास की आवश्यकता होती है। यह दृष्टिकोण तब और भी प्रभावी हो जाता है जब कई प्रश्न एक ही संदर्भ से संबंधित होते हैं, साझा निष्कर्षों के लिए अनुमति देते हैं और कम्प्यूटेशनल लागत वितरित करते हैं।

स्लीप-टाइम कंप्यूट का कार्यान्वयन पारंपरिक प्रॉम्प्ट को दो भागों में विघटित करने पर निर्भर करता है: एक स्थिर संदर्भ और एक गतिशील क्वेरी। स्लीप-टाइम विंडो के दौरान, केवल संदर्भ का उपयोग पूर्व-संसाधित संस्करण उत्पन्न करने के लिए किया जाता है। यह बढ़ाया संदर्भ, जिसे C ′ कहा जाता है, को तर्क जंजीरों या सारांश जैसे परीक्षण-समय गणना तकनीकों का उपयोग करके बनाया गया है। एक बार जब यह समृद्ध संस्करण संग्रहीत हो जाता है, तो यह वास्तविक समय के प्रश्नों के दौरान कच्चे संदर्भ को बदल देता है। अंतिम उत्तर तब बहुत कम संसाधनों का उपयोग करके उत्पन्न होते हैं। यह प्रणाली न केवल निरर्थक तर्क को कम करती है, बल्कि अधिक सक्रिय एलएलएम के लिए मार्ग प्रशस्त करती है जो आगे सोच सकती है और बेहतर तरीके से तैयार हो सकती है।

स्लीप-टाइम कंप्यूट की प्रभावशीलता का मूल्यांकन करने के लिए, अनुसंधान टीम ने दो विशेष रूप से डिज़ाइन किए गए बेंचमार्क का उपयोग करके इसका परीक्षण किया: स्टेटफुल जीएसएम-प्रतीकात्मक और स्टेटफुल एइम। दोनों डेटासेट मौजूदा समस्या सेटों को अलग -अलग संदर्भों और प्रश्नों में विभाजित करके व्युत्पन्न हैं। GPT-4O और GPT-4O-MINI जैसे मॉडल का उपयोग करते हुए प्रयोगों में, शोधकर्ताओं ने समान सटीकता स्तरों के लिए परीक्षण-समय गणना में 5 × कमी देखी। विशेष रूप से, GSM-symbolic P2 डेटासेट के लिए सटीकता में 13% तक सुधार हुआ और स्लीप-टाइम कंप्यूट को बढ़ाने पर स्टेटफुल एइम पर 18% तक। बहु-क्वेरी जीएसएम-प्रतीक, इस मूल्यांकन के लिए पेश किया गया एक नया डेटासेट, यह प्रदर्शित करने में मदद करता है कि प्रति क्वेरी की लागत को 2.5 × तक कम किया जा सकता है जब 10 क्वेरी ने एक ही संदर्भ साझा किया।

LLMs निष्क्रिय रहते हुए सोच सकते हैं: लेटा और यूसी बर्कले के शोधकर्ताओं ने ‘स्लीप-टाइम कम्प्यूट’ का परिचय दिया, जो कि स्लैश की लागत को कम कर सकता है और विलंबता का त्याग किए बिना सटीकता को बढ़ावा देता है
 – Gadgets Solutions

जब पास@k जैसी लोकप्रिय रणनीतियों के खिलाफ खड़ा किया जाता है, तो नींद-समय की गणना ने लगातार उन्हें बेहतर बनाया। पास@k के विपरीत, जो एक आदर्श मूल्यांकनकर्ता तक पहुंच मानता है, नींद-समय की गणना अधिक यथार्थवादी परिस्थितियों में काम करती है। परिणाम बताते हैं कि कम परीक्षण-समय की गणना बजट में भी, नींद-समय की गणना कम टोकन का सेवन करते हुए तुलनीय या बेहतर सटीकता का उत्पादन करती है। उदाहरण के लिए, GPT-4O-MINI मॉडल ने बेसलाइन में आवश्यक 500 से अधिक टोकन की तुलना में नींद-समय की गणना का उपयोग करके 200 से कम परीक्षण-समय टोकन के साथ उच्च सटीकता हासिल की। यहां तक ​​कि जब क्लाउड सॉनेट 3.7 और डीपसेक आर 1 जैसे मॉडल का मूल्यांकन किया गया था, तो इसी तरह के सुधार देखे गए थे।

नींद-समय के लिए समर्पित गणना की मात्रा को आगे बढ़ाने के लिए बेहतर परिणाम। जटिल कार्यों पर नींद के समय के दौरान पांच समानांतर पीढ़ियों को चलाने से, शोधकर्ताओं ने पेरेटो वक्र को और आगे बढ़ाया। हालांकि, उन्होंने इस बिंदु से परे कम रिटर्न का उल्लेख किया। महत्वपूर्ण रूप से, परिणामों से पता चला कि अधिक कठिन कार्यों को संभालने वाले मजबूत मॉडल अतिरिक्त नींद-समय की गणना से अधिक लाभान्वित हुए। इसके अलावा, नींद-समय की गणना को संशोधित करना अत्यधिक लागत प्रभावी हो गया जब संदर्भों ने कई संबंधित प्रश्नों की सेवा की। नींद-समय टोकन की तुलना में दस गुना अधिक महंगा परीक्षण-समय टोकन को वजन करके, उद्योग विलंबता-लागत अनुपात के साथ गठबंधन किया गया, शोधकर्ताओं ने प्रति क्वेरी औसत लागत में 2.5 गुना तक की कमी की पुष्टि की।

एक और दिलचस्प खोज यह थी कि स्लीप-टाइम कंप्यूट ने सबसे अच्छा काम किया जब उपयोगकर्ता क्वेरीज अनुमानित थे। LLAMA2-70B का उपयोग करते हुए, शोधकर्ताओं ने अपने संदर्भ को देखते हुए प्रत्येक क्वेरी की भविष्यवाणी की और एक मजबूत सहसंबंध पाया: क्वेरी जितनी अधिक पूर्वानुमान, अधिक से अधिक लाभ। ऐसे उदाहरणों में जहां प्रश्न को दिए गए संदर्भ से तार्किक रूप से पालन किया जाता है, नींद-समय की गणना में उच्च लाभ प्राप्त होता है। इसके विपरीत, कम पूर्वानुमानित या अमूर्त प्रश्नों ने कम प्रभावशीलता का अनुभव किया, हालांकि उन्होंने अभी भी पारंपरिक परीक्षण-समय-केवल तरीकों की तुलना में लाभ दिखाया।

कुल मिलाकर, यह शोध सटीकता से समझौता किए बिना एलएलएम की दक्षता को बढ़ाने के लिए एक स्मार्ट और स्केलेबल तकनीक प्रस्तुत करता है। अन्यथा निष्क्रिय समय का लाभ उठाकर, नींद-समय कंप्यूटिंग वास्तविक समय प्रणालियों पर बोझ को कम करता है, परिचालन लागत को कम करता है, और प्रतिक्रिया समय में सुधार करता है। स्पष्ट मात्रात्मक सुधार, जैसे कि गणना में 5 × की कमी, 13-18% सटीकता लाभ, और प्रति क्वेरी की लागत में 2.5 × तक की एक बूंद, यह प्रदर्शित करता है कि इस तरह के आगे की सोच दृष्टिकोण अगली पीढ़ी को बुद्धिमान, संदर्भ-जागरूक सहायकों को आकार दे सकते हैं।

अनुसंधान से कई प्रमुख takeaways इस प्रकार हैं:

  • स्लीप-टाइम कंप्यूट मॉडल को क्वेरी आने से पहले संदर्भ पर तर्क करके क्वेरी का अनुमान लगाने की अनुमति देता है।
  • GSM-symbolic पर 13% और नींद-समय की गणना को बढ़ाने पर Aime डेटासेट पर 18% सटीकता में सुधार हुआ।
  • समान प्रदर्शन स्तरों के लिए टेस्ट-टाइम कंप्यूट आवश्यकताओं में लगभग 5 गुना कम हो गई।
  • 10 संबंधित प्रश्नों में संदर्भ साझा करते समय, औसत क्वेरी लागत 2.5 के कारक से कम हो गई।
  • समकक्ष बजट में समानांतर गणना सेटिंग्स में पास@k रणनीति को बेहतर बनाया।
  • प्रेडिक्टेबल क्वेरी पर अधिक प्रभावी, लॉग-संभावना स्कोरिंग के माध्यम से पहचाना गया।
  • नींद-समय की गणना के लिए पांच समानांतर पीढ़ियों से परे कम होने वाले रिटर्न।

इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


Bytedance UI-TARS-1.5 रिलीज़ करता है: एक शक्तिशाली दृष्टि-भाषा मॉडल पर निर्मित एक ओपन-सोर्स मल्टीमॉडल AI एजेंट
 – Gadgets Solutions

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »