एलएलएम ने गणितीय तर्क और स्वचालन सहित विभिन्न कार्यों में मजबूत सामान्य-उद्देश्य प्रदर्शन का प्रदर्शन किया है। हालांकि, वे डोमेन-विशिष्ट अनुप्रयोगों में संघर्ष करते हैं जहां विशेष ज्ञान और बारीक तर्क आवश्यक हैं। ये चुनौतियां मुख्य रूप से परिमित पैरामीटर बजट के भीतर लंबी-पूंछ वाले डोमेन ज्ञान का सटीक रूप से प्रतिनिधित्व करने की कठिनाई से उत्पन्न होती हैं, जिससे मतिभ्रम और डोमेन-विशिष्ट तर्क क्षमताओं की कमी होती है। डोमेन अनुकूलन के लिए पारंपरिक दृष्टिकोण-जैसे कि ठीक-ट्यूनिंग या नित्य प्रीट्रेनिंग-अक्सर अप्राप्य ज्ञान और प्रशिक्षण लागत में वृद्धि के परिणामस्वरूप। ज्ञान को पूरक करने के लिए मददगार, चीर के तरीके आमतौर पर शिक्षण मॉडल में कम हो जाते हैं कि उस जानकारी के साथ कैसे तर्क दिया जाए। एक प्रमुख शोध चुनौती यह है कि डोमेन ज्ञान के सीखने को तर्क से कैसे अलग किया जाए, जिससे मॉडल सीमित संसाधनों के तहत संज्ञानात्मक कौशल विकास को प्राथमिकता दे सकते हैं।
शिक्षा सिद्धांत, विशेष रूप से ब्लूम के टैक्सोनॉमी से समानताएं आकर्षित करें, यह स्पष्ट हो जाता है कि उन्नत तर्क कौशल का निर्माण करने के लिए सिर्फ ज्ञान के संस्मरण से अधिक की आवश्यकता होती है। उच्च-क्रम संज्ञानात्मक क्षमताएं-जैसे विश्लेषण, मूल्यांकन, और संश्लेषण-अक्सर बाधा होती हैं जब मॉडल व्यापक डोमेन तथ्यों को याद करने के लिए बोझ होते हैं। यह अवलोकन इस सवाल को उठाता है कि क्या तर्क क्षमताओं को बड़े पैमाने पर ज्ञान के आंतरिककरण से स्वतंत्र रूप से बढ़ाया जा सकता है। व्यवहार में, कई मौजूदा तरीके मॉडल मापदंडों के भीतर ज्ञान को संग्रहीत करने, अपडेट को जटिल बनाने और पुराने या गलत आउटपुट के जोखिम को बढ़ाने पर बहुत अधिक ध्यान केंद्रित करते हैं। यहां तक कि पुनर्प्राप्ति-आधारित तकनीकें पुनर्प्राप्त दस्तावेजों को तर्क प्रक्रियाओं को सीखने के लिए उपकरणों के बजाय इनपुट के रूप में मानती हैं। डोमेन-विशिष्ट बुद्धिमत्ता का भविष्य उन दृष्टिकोणों पर निर्भर हो सकता है जो आंतरिक संस्मरण पर निर्भरता को कम करते हैं और इसके बजाय बाहरी ज्ञान स्रोतों का उपयोग कौशल विकास के लिए मचान के रूप में करते हैं, जिससे छोटे मॉडल को जटिल कार्यों को अधिक कुशलता से हल करने में सक्षम बनाया जाता है।
पेकिंग यूनिवर्सिटी, शंघाई जियाओ टोंग यूनिवर्सिटी, नॉर्थईस्टर्न यूनिवर्सिटी, नानकई यूनिवर्सिटी, इंस्टीट्यूट फॉर एडवांस्ड एल्गोरिदम रिसर्च (शंघाई), ओरिजिनहब टेक्नोलॉजी, मेमटेन्सर, और शंघाई आर्टिफिशियल इंटेलिजेंस लेबोरेटरी के शोधकर्ताओं ने एक नया प्रतिमान पेश किया है जिसे रिट्रीवल-एग्गेमेंटेड रीजनिंग मॉडलिंग (दुर्लभ) कहा जाता है। ब्लूम के टैक्सोनॉमी से प्रेरित होकर, दुर्लभ ज्ञान भंडारण को डोमेन ज्ञान के लिए बाहरी डेटाबेस का उपयोग करके तर्क से अलग करता है, जबकि प्रशिक्षण मॉडल को प्रासंगिक औचित्य पर ध्यान केंद्रित करने के लिए प्रशिक्षण देता है। यह मॉडल को मेमोरी-भारी तथ्यात्मक सीखने को बायपास करने और संज्ञानात्मक कौशल विकास को प्राथमिकता देने की अनुमति देता है। प्रयोगों से पता चलता है कि हल्के दुर्लभ-प्रशिक्षित मॉडल बेंचमार्क पर GPT-4 जैसे बड़े मॉडलों से बेहतर प्रदर्शन करते हैं, जो डोमेन-विशिष्ट बुद्धिमत्ता के लिए एक स्केलेबल और कुशल दृष्टिकोण प्रदान करते हैं।
एक प्रस्तावित फ्रेमवर्क डोमेन ज्ञान को याद करने से लेकर तर्क कौशल विकसित करने तक ध्यान केंद्रित करता है। चरण-दर-चरण तर्क के साथ पुनर्प्राप्त बाहरी ज्ञान को मिलाकर, मॉडल याद करने के बजाय समझ और अनुप्रयोग के आधार पर प्रतिक्रियाएं उत्पन्न करते हैं। फ्रेमवर्क ज्ञान और तर्क टोकन के अनुक्रम के रूप में प्रतिक्रिया करता है, पुनर्प्राप्त जानकारी और प्रासंगिक निष्कर्ष को एकीकृत करने के लिए अनुकूलन करता है। ज्ञान आसवन के लिए विशेषज्ञ मॉडल का उपयोग करते हुए, यह उच्च गुणवत्ता वाले प्रशिक्षण डेटा का निर्माण करता है और शुद्धता के लिए अनुकूली शोधन को नियोजित करता है। प्रासंगिक सीखने जैसे संज्ञानात्मक सिद्धांतों में आधारित, यह दृष्टिकोण हल्के मॉडल को ठीक-ट्यूनिंग और तर्क-केंद्रित प्रशिक्षण के माध्यम से मजबूत डोमेन-विशिष्ट प्रदर्शन प्राप्त करने में सक्षम बनाता है।
अध्ययन में मल्टी-हॉप तर्क की आवश्यकता वाले पांच हेल्थकेयर-केंद्रित क्यूए डेटासेट का उपयोग करके दुर्लभ ढांचे की प्रभावशीलता का मूल्यांकन किया गया है। Llama-3.1-8B, Qwen-2.5-7B, और Mistral-7B जैसे हल्के मॉडल को COT, SFT और RAG बेसलाइन के खिलाफ परीक्षण किया गया था। परिणाम बताते हैं कि दुर्लभ रूप से लगातार चिकित्सा निदान और वैज्ञानिक तर्क लाभ के साथ, सभी कार्यों में इन आधारों को बेहतर बनाता है। डीपसेक-आर 1-डिस्टिल-एलएलएएमए -8 बी और जीपीटी -4 की तुलना में, दुर्लभ प्रशिक्षित मॉडल ने कुछ कार्यों पर 20% से अधिक जीपीटी -4 से अधिक, उच्च सटीकता प्राप्त की। ये निष्कर्ष इस बात पर प्रकाश डालते हैं कि संरचित, प्रासंगिक सीखने के माध्यम से डोमेन-विशिष्ट तर्क के लिए प्रशिक्षण मॉडल केवल मॉडल के आकार को बढ़ाने या पूरी तरह से पुनर्प्राप्ति पर निर्भर होने की तुलना में अधिक प्रभावी है।
निष्कर्ष में, अध्ययन दुर्लभ प्रस्तुत करता है, एक नया ढांचा जो एलएलएम में डोमेन-विशिष्ट तर्क को बढ़ाता है, जो तर्क के विकास से ज्ञान भंडारण को अलग करके। ब्लूम के टैक्सोनॉमी से आकर्षित, दुर्लभ पैरामीटर-भारी संस्मरण से बचता है, जो कि बाहरी ज्ञान को प्राप्त करने और प्रशिक्षण के संकेतों में इसे एकीकृत करके, प्रासंगिक तर्क को प्रोत्साहित करता है। यह शिफ्ट हल्के मॉडल को चिकित्सा कार्यों पर GPT-4 जैसे बड़े लोगों को बेहतर बनाने की अनुमति देता है, 20% अधिक सटीकता प्राप्त करता है। दुर्लभ कुशल, तर्क-केंद्रित मॉडल के साथ बनाए रखने योग्य ज्ञान ठिकानों को मिलाकर डोमेन-विशिष्ट बुद्धि के लिए एक स्केलेबल दृष्टिकोण को बढ़ावा देता है। भविष्य के काम में बहु-मोडल और ओपन-डोमेन कार्यों में सुदृढीकरण सीखने, डेटा क्यूरेशन और अनुप्रयोगों का पता लगाया जाएगा।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
