Wednesday, April 16, 2025

पारंपरिक आरएजी फ्रेमवर्क कम गिरता है: मेगागोन लैब्स ‘इनसाइट-रैग’ का परिचय देता है, एक उपन्यास एआई विधि – Gadgets Solutions

-

आरएजी फ्रेमवर्क ने बाहरी ज्ञान स्रोतों को एकीकृत करके एलएलएम को बढ़ाने की अपनी क्षमता पर ध्यान आकर्षित किया है, जो मतिभ्रम और पुरानी जानकारी जैसी पते की सीमाओं में मदद करता है। पारंपरिक आरएजी दृष्टिकोण अक्सर अपनी क्षमता के बावजूद सतह-स्तरीय दस्तावेज़ प्रासंगिकता पर भरोसा करते हैं, ग्रंथों के भीतर गहराई से एम्बेडेड अंतर्दृष्टि या कई स्रोतों में फैली जानकारी को अनदेखा करते हैं। ये विधियाँ उनकी प्रयोज्यता में भी सीमित हैं, मुख्य रूप से सरल प्रश्न-उत्तर देने वाले कार्यों के लिए खानपान और अधिक जटिल अनुप्रयोगों के साथ संघर्ष करना, जैसे कि विभिन्न गुणात्मक डेटा से अंतर्दृष्टि को संश्लेषित करना या जटिल कानूनी या व्यावसायिक सामग्री का विश्लेषण करना।

जबकि पहले आरएजी मॉडल ने सारांश और ओपन-डोमेन क्यूए जैसे कार्यों में सटीकता में सुधार किया था, उनके पुनर्प्राप्ति तंत्र में बारीक जानकारी निकालने के लिए गहराई का अभाव था। नई विविधताएं, जैसे कि ITER-RETGEN और SELF-RAG, मल्टी-स्टेप तर्क का प्रबंधन करने का प्रयास करते हैं, लेकिन यहां अध्ययन किए गए गैर-विघटित कार्यों के लिए अच्छी तरह से अनुकूल नहीं हैं। अंतर्दृष्टि निष्कर्षण में समानांतर प्रयासों से पता चला है कि एलएलएमएस प्रभावी रूप से अनस्ट्रक्चर्ड टेक्स्ट से विस्तृत, संदर्भ-विशिष्ट जानकारी का उपयोग कर सकते हैं। Openie6 जैसे ट्रांसफार्मर-आधारित मॉडल सहित उन्नत तकनीकों ने महत्वपूर्ण विवरणों की पहचान करने की क्षमता को परिष्कृत किया है। एलएलएम तेजी से कीफ्रेज़ निष्कर्षण और दस्तावेज़ खनन डोमेन में लागू होते हैं, बुनियादी पुनर्प्राप्ति कार्यों से परे उनके मूल्य का प्रदर्शन करते हैं।

मेगागन लैब्स के शोधकर्ताओं ने इनसाइट-आरएजी को पेश किया, एक नया ढांचा जो एक मध्यवर्ती अंतर्दृष्टि निष्कर्षण कदम को शामिल करके पारंपरिक पुनर्प्राप्ति-अनुमानित पीढ़ी को बढ़ाता है। सतह-स्तरीय दस्तावेज़ पुनर्प्राप्ति पर भरोसा करने के बजाय, इनसाइट-रैग पहले एक क्वेरी की प्रमुख सूचनात्मक आवश्यकताओं की पहचान करने के लिए एक एलएलएम का उपयोग करता है। एक डोमेन-विशिष्ट एलएलएम इन अंतर्दृष्टि के साथ संरेखित प्रासंगिक सामग्री को पुनः प्राप्त करता है, एक अंतिम, संदर्भ-समृद्ध प्रतिक्रिया उत्पन्न करता है। दो वैज्ञानिक पेपर डेटासेट पर मूल्यांकन किया गया, इनसाइट-आरएजी ने मानक आरएजी विधियों को काफी बेहतर बनाया, विशेष रूप से छिपे हुए या बहु-स्रोत जानकारी और उद्धरण सिफारिश से जुड़े कार्यों में। ये परिणाम मानक प्रश्न-उत्तर देने वाले कार्यों से परे इसकी व्यापक प्रयोज्यता को उजागर करते हैं।

इनसाइट-आरएजी में तीन मुख्य घटक शामिल हैं जो कार्य-विशिष्ट अंतर्दृष्टि निकालने पर केंद्रित एक मध्य चरण को शामिल करके पारंपरिक चीर तरीकों की कमियों को संबोधित करने के लिए डिज़ाइन किए गए हैं। सबसे पहले, इनसाइट पहचानकर्ता अपनी मुख्य सूचनात्मक आवश्यकताओं को निर्धारित करने के लिए इनपुट क्वेरी का विश्लेषण करता है, प्रासंगिक संदर्भ को उजागर करने के लिए एक फ़िल्टर के रूप में कार्य करता है। इसके बाद, इनसाइट माइनर एक डोमेन-अनुकूलित एलएलएम का उपयोग करता है, विशेष रूप से एक लगातार पूर्व-प्रशिक्षित LLAMA-3.2 3B मॉडल, इन अंतर्दृष्टि के साथ संरेखित विस्तृत सामग्री को पुनः प्राप्त करने के लिए। अंत में, प्रतिक्रिया जनरेटर मूल क्वेरी को खनन अंतर्दृष्टि के साथ जोड़ता है, एक और एलएलएम का उपयोग करके एक प्रासंगिक समृद्ध और सटीक आउटपुट उत्पन्न करने के लिए।

इनसाइट-आरएजी का मूल्यांकन करने के लिए, शोधकर्ताओं ने एएएन और ओसी डेटासेट से सार का उपयोग करके तीन बेंचमार्क का निर्माण किया, जो पुनर्प्राप्ति-अनुमानित पीढ़ी में विभिन्न चुनौतियों पर ध्यान केंद्रित कर रहा था। गहराई से दफन अंतर्दृष्टि के लिए, उन्होंने विषय-संबंध-ऑब्जेक्ट ट्रिपल्स की पहचान की, जहां वस्तु केवल एक बार प्रकट होती है, जिससे पता लगाना कठिन हो जाता है। बहु-स्रोत अंतर्दृष्टि के लिए, उन्होंने दस्तावेजों में फैले कई वस्तुओं के साथ ट्रिपल का चयन किया। अंत में, गैर-क्यूए कार्यों जैसे उद्धरण सिफारिश के लिए, उन्होंने मूल्यांकन किया कि क्या अंतर्दृष्टि प्रासंगिक मैचों का मार्गदर्शन कर सकती है। प्रयोगों से पता चला कि इनसाइट-आरएजी ने लगातार पारंपरिक आरएजी को बेहतर बनाया, विशेष रूप से सूक्ष्म या वितरित जानकारी को संभालने में, डीपसेक-आर 1 और लामा -3.3 मॉडल के साथ सभी बेंचमार्क में मजबूत परिणाम दिखाते हैं।

पारंपरिक आरएजी फ्रेमवर्क कम गिरता है: मेगागोन लैब्स ‘इनसाइट-रैग’ का परिचय देता है, एक उपन्यास एआई विधि
 – Gadgets Solutions

अंत में, इनसाइट-आरएजी एक नया ढांचा है जो प्रमुख अंतर्दृष्टि निकालने पर केंद्रित एक मध्यवर्ती कदम जोड़कर पारंपरिक चीर को बेहतर बनाता है। यह विधि मानक आरएजी की सीमाओं से निपटती है, जैसे कि लापता छिपे हुए विवरण, बहु-दस्तावेज़ जानकारी को एकीकृत करना, और प्रश्न उत्तर देने से परे कार्यों को संभालना। इनसाइट-रैग पहले एक क्वेरी की अंतर्निहित जरूरतों को समझने के लिए बड़े भाषा मॉडल का उपयोग करता है और फिर उन अंतर्दृष्टि के साथ संरेखित सामग्री को पुनः प्राप्त करता है। वैज्ञानिक डेटासेट (एएएन और ओसी) पर मूल्यांकन किया गया, इसने लगातार पारंपरिक आरएजी को बेहतर बनाया। भविष्य के निर्देशों में कानून और चिकित्सा जैसे क्षेत्रों में विस्तार करना, पदानुक्रमित अंतर्दृष्टि निष्कर्षण का परिचय, मल्टीमॉडल डेटा को संभालना, विशेषज्ञ इनपुट को शामिल करना और क्रॉस-डोमेन इनसाइट ट्रांसफर की खोज करना शामिल है।


चेक आउट कागज़ इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट


ट्रांसफॉर्मर अब बिना ट्यूनिंग के स्प्रेडशीट कोशिकाओं की भविष्यवाणी कर सकते हैं: शोधकर्ताओं ने 100 मिलियन सिंथेटिक डेटासेट पर प्रशिक्षित TABPFN का परिचय दिया
 – Gadgets Solutions

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »