Tuesday, April 22, 2025

एलएलएम अभी भी चिकित्सा स्रोतों का हवाला देते हुए मज़बूती से संघर्ष करते हैं: स्टैनफोर्ड के शोधकर्ताओं ने एआई-जनित प्रतिक्रियाओं में तथ्यात्मक समर्थन का ऑडिट करने के लिए सोरसेचेकअप का परिचय दिया – Gadgets Solutions

-

चूंकि एलएलएम हेल्थकेयर सेटिंग्स में अधिक प्रमुख हो जाते हैं, यह सुनिश्चित करते हुए कि विश्वसनीय स्रोत वापस उनके आउटपुट महत्वपूर्ण हैं। हालांकि कोई भी एलएलएम अभी तक नैदानिक ​​निर्णय लेने के लिए एफडीए-अनुमोदित नहीं हैं, जीपीटी -4 ओ, क्लाउड, और मेडपालम जैसे शीर्ष मॉडल ने यूएसएमएलई जैसी मानकीकृत परीक्षाओं पर चिकित्सकों को बेहतर बनाया है। इन मॉडलों का उपयोग पहले से ही वास्तविक दुनिया के परिदृश्यों में किया जा रहा है, जिसमें मानसिक स्वास्थ्य सहायता और दुर्लभ बीमारियों का निदान शामिल है। हालांकि, मतिभ्रम करने की उनकी प्रवृत्ति – असुविधाजनक या गलत बयानों को उत्पन्न करने वाली – एक गंभीर जोखिम को कम करती है, विशेष रूप से चिकित्सा संदर्भों में जहां गलत सूचना नुकसान पहुंचा सकती है। यह मुद्दा चिकित्सकों के लिए एक प्रमुख चिंता का विषय बन गया है, जिसमें कई लोग विश्वास की कमी का हवाला देते हैं और एलएलएम प्रतिक्रियाओं को गोद लेने के लिए महत्वपूर्ण बाधाओं के रूप में सत्यापित करने में असमर्थता है। एफडीए जैसे नियामकों ने भी पारदर्शिता और जवाबदेही के महत्व पर जोर दिया है, मेडिकल एआई उपकरणों में विश्वसनीय स्रोत के गुण की आवश्यकता को रेखांकित करते हुए।

हाल के सुधार, जैसे कि निर्देश फाइन-ट्यूनिंग और आरएजी, ने संकेत दिया है कि एलएलएम को संकेत दिया गया है। फिर भी, यहां तक ​​कि जब संदर्भ वैध वेबसाइटों से होते हैं, तो अक्सर इस बात पर बहुत कम स्पष्टता होती है कि क्या वे स्रोत वास्तव में मॉडल के दावों का समर्थन करते हैं। पूर्व अनुसंधान ने एलएलएम स्रोत एट्रिब्यूशन का आकलन करने के लिए वेबगिप, एक्सपर्टक्यूए और हाग्रिड जैसे डेटासेट पेश किए हैं; हालांकि, ये मैनुअल मूल्यांकन पर बहुत अधिक भरोसा करते हैं, जो समय लेने वाली और पैमाने पर मुश्किल है। नए दृष्टिकोण एलएलएमएस का उपयोग स्वयं गुण की गुणवत्ता का आकलन करने के लिए करते हैं, जैसा कि एल्स, एट्रिब्यूटेडक्यूए और फैक्टस्कोर जैसे कार्यों में प्रदर्शित किया गया है। जबकि CHATGPT जैसे उपकरण प्रशस्ति पत्र सटीकता का मूल्यांकन करने में सहायता कर सकते हैं, अध्ययन से पता चलता है कि इस तरह के मॉडल अभी भी अपने आउटपुट में विश्वसनीय गुण सुनिश्चित करने के लिए संघर्ष करते हैं, इस क्षेत्र में निरंतर विकास की आवश्यकता को उजागर करते हैं।

स्टैनफोर्ड यूनिवर्सिटी और अन्य संस्थानों के शोधकर्ताओं ने सोरसेकअप को विकसित किया है, जो एक स्वचालित उपकरण है जो सटीकता का मूल्यांकन करने के लिए डिज़ाइन किया गया है जिसके साथ एलएलएम प्रासंगिक स्रोतों के साथ अपनी चिकित्सा प्रतिक्रियाओं का समर्थन करते हैं। 800 प्रश्नों और 58,000 से अधिक स्रोत-राज्य जोड़े का विश्लेषण करते हुए, उन्होंने पाया कि 50% -90% एलएलएम-जनित उत्तरों को पूरी तरह से उद्धृत स्रोतों द्वारा समर्थित नहीं किया गया था, GPT-4 के साथ लगभग 30% मामलों में असमर्थित दावे दिखाते हैं। यहां तक ​​कि वेब एक्सेस के साथ एलएलएम ने लगातार स्रोत-समर्थित प्रतिक्रियाएं प्रदान करने के लिए संघर्ष किया। चिकित्सा विशेषज्ञों द्वारा मान्य, Sourcecheckup ने एलएलएम-जनित संदर्भों की विश्वसनीयता में महत्वपूर्ण अंतराल का खुलासा किया, नैदानिक ​​निर्णय लेने में उपयोग के लिए उनकी तत्परता के बारे में महत्वपूर्ण चिंताओं को बढ़ाया।

अध्ययन ने कई शीर्ष-प्रदर्शन और ओपन-सोर्स एलएलएम के स्रोत एट्रिब्यूशन प्रदर्शन का मूल्यांकन किया, जो कि सोरसेकअप नामक एक कस्टम पाइपलाइन का उपयोग कर रहा है। इस प्रक्रिया में Reddit के R/AskDocs से 800 मेडिकल प्रश्नों को शामिल करना शामिल है और Mayoclinic ग्रंथों का उपयोग करके GPT-4O द्वारा बनाया गया आधा-फिर तथ्यात्मक सटीकता और प्रशस्ति पत्र की गुणवत्ता के लिए प्रत्येक LLM की प्रतिक्रियाओं का आकलन करता है। प्रतिक्रियाओं को सत्यापित करने योग्य बयानों में तोड़ दिया गया, उद्धृत स्रोतों के साथ मिलान किया गया, और समर्थन के लिए GPT-4 का उपयोग करके स्कोर किया। फ्रेमवर्क ने बयान और प्रतिक्रिया स्तर दोनों पर URL वैधता और समर्थन सहित मैट्रिक्स की सूचना दी। चिकित्सा विशेषज्ञों ने सभी घटकों को मान्य किया, और जीपीटी -4 से संभावित पूर्वाग्रह का आकलन करने के लिए क्लाउड सॉनेट 3.5 का उपयोग करके परिणाम क्रॉस-सत्यापित किए गए।

अध्ययन एक व्यापक मूल्यांकन प्रस्तुत करता है कि LLMS कैसे अच्छी तरह से सत्यापित करता है और चिकित्सा स्रोतों का हवाला देता है, एक प्रणाली का परिचय देता है जिसे Sourcecheckup कहा जाता है। मानव विशेषज्ञों ने पुष्टि की कि मॉडल-जनित प्रश्न प्रासंगिक और जवाबदेह थे, और उस पार्सडेंट स्टेटमेंट्स ने मूल प्रतिक्रियाओं से बारीकी से मेल खाते थे। स्रोत सत्यापन में, मॉडल की सटीकता लगभग विशेषज्ञ डॉक्टरों से मेल खाती है, जिसमें मॉडल और विशेषज्ञ निर्णयों के बीच कोई सांख्यिकीय महत्वपूर्ण अंतर नहीं पाया गया। क्लाउड सॉनेट 3.5 और GPT-4O ने विशेषज्ञ एनोटेशन के साथ तुलनीय समझौते का प्रदर्शन किया, जबकि लामा 2 और भूमध्यसाधकों जैसे ओपन-सोर्स मॉडल काफी कमज़ोर हो गए, अक्सर वैध उद्धरण URL का उत्पादन करने में विफल रहे। यहां तक ​​कि RAG के साथ GPT-4O, हालांकि इसके इंटरनेट एक्सेस के कारण दूसरों की तुलना में बेहतर है, विश्वसनीय स्रोतों के साथ अपनी प्रतिक्रियाओं का केवल 55% समर्थन किया, सभी मॉडलों में इसी तरह की सीमाएं देखी गईं।

एलएलएम अभी भी चिकित्सा स्रोतों का हवाला देते हुए मज़बूती से संघर्ष करते हैं: स्टैनफोर्ड के शोधकर्ताओं ने एआई-जनित प्रतिक्रियाओं में तथ्यात्मक समर्थन का ऑडिट करने के लिए सोरसेचेकअप का परिचय दिया
 – Gadgets Solutions

निष्कर्ष खुले अंत में चिकित्सा प्रश्नों के लिए एलएलएम प्रतिक्रियाओं में तथ्यात्मक सटीकता सुनिश्चित करने में लगातार चुनौतियों को रेखांकित करते हैं। कई मॉडल, यहां तक ​​कि पुनर्प्राप्ति के साथ बढ़े हुए, विश्वसनीय साक्ष्य के दावों को लगातार जोड़ने में विफल रहे, विशेष रूप से रेडिट जैसे सामुदायिक प्लेटफार्मों से प्रश्नों के लिए, जो अधिक अस्पष्ट हैं। मानव मूल्यांकन और Sourcecheckup आकलन ने लगातार कम प्रतिक्रिया-स्तरीय समर्थन दरों का पता लगाया, जो वर्तमान मॉडल क्षमताओं और नैदानिक ​​संदर्भों में आवश्यक मानकों के बीच एक अंतर को उजागर करता है। भरोसेमंदता में सुधार करने के लिए, अध्ययन से पता चलता है कि मॉडल को सटीक प्रशस्ति पत्र और सत्यापन के लिए स्पष्ट रूप से प्रशिक्षित या ठीक-ठीक ट्यून किया जाना चाहिए। इसके अतिरिक्त, Sourcecleanup जैसे स्वचालित उपकरणों ने तथ्यात्मक ग्राउंडिंग में सुधार करने के लिए असमर्थित बयानों को संपादित करने में वादा किया, एलएलएम आउटपुट में उद्धरण विश्वसनीयता बढ़ाने के लिए एक स्केलेबल पथ की पेशकश की।


इसकी जाँच पड़ताल करो कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »