एलएलएम ने मजबूत तर्क और ज्ञान क्षमताओं का प्रदर्शन किया है, फिर भी उन्हें अक्सर बाहरी ज्ञान वृद्धि की आवश्यकता होती है जब उनके आंतरिक अभ्यावेदन में विशिष्ट विवरणों की कमी होती है। नई जानकारी को शामिल करने के लिए एक विधि को ठीक-ट्यूनिंग की देखरेख की जाती है, जहां मॉडल को अपने वजन को अपडेट करने के लिए अतिरिक्त डेटासेट पर प्रशिक्षित किया जाता है। हालांकि, यह दृष्टिकोण अक्षम है क्योंकि जब भी नया ज्ञान पेश किया जाता है, तो इसे फिर से शुरू करने की आवश्यकता होती है और यह सामान्य कार्यों पर मॉडल के प्रदर्शन को कम करने के लिए भयावह भूल सकता है। इन सीमाओं को दूर करने के लिए, मॉडल के वजन को संरक्षित करने वाली वैकल्पिक तकनीकों ने लोकप्रियता हासिल की है। आरएजी एक दृष्टिकोण है जो असंरचित पाठ से प्रासंगिक ज्ञान प्राप्त करता है और मॉडल के माध्यम से इसे पारित करने से पहले इसे इनपुट क्वेरी में जोड़ता है। जानकारी को फिर से प्राप्त करने से, आरएजी एलएलएम को एक छोटे संदर्भ आकार को बनाए रखते हुए बड़े ज्ञान के ठिकानों तक पहुंचने में सक्षम बनाता है। हालांकि, जब तक जीपीटी -4 और मिथुन जैसे लंबे समय से संदर्भ मॉडल उभरे हैं, शोधकर्ताओं ने इन-संदर्भ सीखने की खोज की है, जहां बाहरी ज्ञान सीधे मॉडल के इनपुट में प्रदान किया जाता है। यह पुनर्प्राप्ति की आवश्यकता को समाप्त करता है, लेकिन कम्प्यूटेशनल चुनौतियों के साथ आता है, क्योंकि लंबे संदर्भों को संसाधित करने के लिए काफी अधिक स्मृति और समय की आवश्यकता होती है।
बाहरी ज्ञान को अधिक कुशलता से एकीकृत करने के लिए LLMS की क्षमता को बढ़ाने के लिए कई उन्नत तकनीकों को विकसित किया गया है। संरचित ध्यान तंत्र स्वतंत्र वर्गों में संदर्भ को विभाजित करके मेमोरी दक्षता में सुधार करते हैं, आत्म-ध्यान के कम्प्यूटेशनल लोड को कम करते हैं। की-वैल्यू (केवी) कैशिंग विभिन्न परतों पर प्रीकॉम्प्यूटेड एंबेडिंग को संग्रहीत करके प्रतिक्रिया उत्पादन का अनुकूलन करता है, जिससे मॉडल को पुनर्गणना के बिना प्रासंगिक जानकारी को याद करने की अनुमति मिलती है। यह संदर्भ लंबाई से संबंधित द्विघात से रैखिक तक जटिलता को कम करता है। पारंपरिक केवी कैशिंग के विपरीत, जिसे इनपुट बदले जाने पर पूर्ण पुनर्संयोजन की आवश्यकता होती है, नए तरीके चयनात्मक अपडेट की अनुमति देते हैं, जिससे बाहरी ज्ञान एकीकरण को अधिक लचीला हो जाता है।
जॉन्स हॉपकिंस विश्वविद्यालय और Microsoft के शोधकर्ताओं ने एक ज्ञान आधार संवर्धित भाषा मॉडल (KBLAM) का प्रस्ताव किया, जो बाहरी ज्ञान को LLM में एकीकृत करने के लिए एक विधि है। KBLAM संरचित ज्ञान आधार (KB) ट्रिपल को कुंजी-मूल्य वेक्टर जोड़े में परिवर्तित करता है, मूल रूप से उन्हें LLM के ध्यान परतों के भीतर एम्बेड करता है। आरएजी के विपरीत, यह बाहरी रिट्रीवर्स को समाप्त करता है, और इन-संदर्भ सीखने के विपरीत, यह केबी आकार के साथ रैखिक रूप से स्केल करता है। KBLAM व्याख्याता को पीछे हटाने और बढ़ाने के बिना कुशल गतिशील अपडेट को सक्षम करता है। सिंथेटिक डेटा पर इंस्ट्रक्शन ट्यूनिंग का उपयोग करके प्रशिक्षित, यह प्रासंगिक ज्ञान अनुपस्थित होने, मतिभ्रम को कम करने और स्केलेबिलिटी को बढ़ाने के लिए उत्तर देने से इनकार करके विश्वसनीयता में सुधार करता है।
KBLAM दो चरणों के माध्यम से एक KB को एकीकृत करके LLMS को बढ़ाता है। सबसे पहले, प्रत्येक केबी ट्रिपल को एक पूर्व-प्रशिक्षित वाक्य एनकोडर और रैखिक एडेप्टर का उपयोग करके निरंतर कुंजी-मूल्य एम्बेडिंग, ज्ञान टोकन कहा जाता है। इन टोकन को तब प्रत्येक ध्यान परत में एक आयताकार ध्यान संरचना के माध्यम से शामिल किया जाता है, जिससे एलएलएम के मुख्य मापदंडों को बदलने के बिना कुशल पुनर्प्राप्ति की अनुमति मिलती है। यह विधि स्केलेबिलिटी सुनिश्चित करती है, स्थितिगत पूर्वाग्रह को कम करती है और तर्क क्षमताओं को बनाए रखती है। इसके अतिरिक्त, निर्देश ट्यूनिंग एलएलएम को संशोधित किए बिना ज्ञान टोकन प्रक्षेपण का अनुकूलन करता है, संस्मरण को रोकने के लिए एक सिंथेटिक केबी का उपयोग करता है। यह दृष्टिकोण मॉडल की मूल क्षमताओं को संरक्षित करते हुए बड़े KBS को कुशलतापूर्वक एकीकृत करता है।
KBLAM का अनुभवजन्य मूल्यांकन एक ज्ञान पुनर्प्राप्ति और तर्क मॉडल के रूप में इसकी प्रभावशीलता को प्रदर्शित करता है। इंस्ट्रक्शन ट्यूनिंग के बाद, इसका ध्यान मैट्रिक्स व्याख्यात्मक पैटर्न प्रदर्शित करता है, जिससे सटीक पुनर्प्राप्ति की अनुमति मिलती है। KBLAM मेमोरी के उपयोग को कम करते हुए और 10k ट्रिपल तक स्केलेबिलिटी को बनाए रखते हुए इन-संदर्भ सीखने के लिए तुलनात्मक प्रदर्शन को प्राप्त करता है। यह जवाब देने से भी इनकार कर सकता है जब कोई प्रासंगिक ज्ञान नहीं पाया जाता है, जिसमें “ओवर-रिफ्यूज़ल” बाद में इन-संदर्भ सीखने की तुलना में होता है। मॉडल को एक निर्देश-ट्यून Llama3-8B पर प्रशिक्षित किया जाता है और ADAMW का उपयोग करके अनुकूलित किया जाता है। सिंथेटिक और एनरॉन डेटासेट का मूल्यांकन KBLAM की मजबूत पुनर्प्राप्ति सटीकता, कुशल ज्ञान एकीकरण और मतिभ्रम को कम करने की क्षमता की पुष्टि करता है।
अंत में, KBLAM बाहरी KBs के साथ LLM को बढ़ाने के लिए एक दृष्टिकोण है। यह KB प्रविष्टियों को रैखिक एडेप्टर के साथ पूर्व-प्रशिक्षित वाक्य एनकोडर का उपयोग करके निरंतर कुंजी-मूल्य वेक्टर जोड़े के रूप में एन्कोड करता है और उन्हें एक विशेष ध्यान तंत्र के माध्यम से एलएलएम में एकीकृत करता है। पुनर्प्राप्ति-अनुमानित पीढ़ी के विपरीत, KBLAM बाहरी पुनर्प्राप्ति मॉड्यूल को हटा देता है, और इन-संदर्भ सीखने के विपरीत, यह KB आकार के साथ रैखिक रूप से तराजू है। यह एकल A100 GPU पर 8K संदर्भ विंडो के भीतर 8B LLM में 10k से अधिक ट्रिपल के कुशल एकीकरण को सक्षम करता है। प्रयोगों को उत्तर-उत्तरदायित्व और तर्क कार्यों में अपनी प्रभावशीलता दिखाते हैं, जबकि व्याख्याता बनाए रखते हैं और गतिशील ज्ञान अपडेट को सक्षम करते हैं।
चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।