बड़ी भाषा मॉडल (LLM) आधुनिक तकनीक के अभिन्न अंग बन रहे हैं, ड्राइविंग एजेंट सिस्टम जो बाहरी वातावरण के साथ गतिशील रूप से बातचीत करते हैं। उनकी प्रभावशाली क्षमताओं के बावजूद, एलएलएम इंजेक्शन हमलों के लिए अत्यधिक असुरक्षित हैं। ये हमले तब होते हैं जब प्रतिकूलताएं अविश्वसनीय डेटा स्रोतों के माध्यम से दुर्भावनापूर्ण निर्देशों को इंजेक्ट करती हैं, जिसका उद्देश्य संवेदनशील डेटा निकालकर या हानिकारक संचालन को निष्पादित करके सिस्टम से समझौता करना है। पारंपरिक सुरक्षा विधियों, जैसे कि मॉडल प्रशिक्षण और शीघ्र इंजीनियरिंग, ने सीमित प्रभावशीलता को दिखाया है, मजबूत बचाव की तत्काल आवश्यकता को रेखांकित करते हुए।
Google डीपमाइंड शोधकर्ता ऊंट का प्रस्ताव करते हैं, एक मजबूत रक्षा जो एलएलएम के चारों ओर एक सुरक्षात्मक प्रणाली परत बनाती है, जब भी अंतर्निहित मॉडल हमलों के लिए अतिसंवेदनशील हो सकते हैं, तब भी इसे सुरक्षित करते हैं। पारंपरिक दृष्टिकोणों के विपरीत, जिन्हें रिट्रेनिंग या मॉडल संशोधनों की आवश्यकता होती है, कैमल सिद्ध सॉफ्टवेयर सुरक्षा प्रथाओं से प्रेरित एक नया प्रतिमान पेश करता है। यह स्पष्ट रूप से उपयोगकर्ता प्रश्नों से नियंत्रण और डेटा प्रवाह को निकालता है, यह सुनिश्चित करता है कि अविश्वसनीय इनपुट सीधे प्रोग्राम लॉजिक को कभी नहीं बदलते हैं। यह डिज़ाइन संभावित रूप से हानिकारक डेटा को अलग करता है, इसे एलएलएम एजेंटों के लिए निहित निर्णय लेने की प्रक्रियाओं को प्रभावित करने से रोकता है।
तकनीकी रूप से, ऊंट एक दोहरे-मॉडल वास्तुकला को नियोजित करके कार्य करता है: एक विशेषाधिकार प्राप्त एलएलएम और एक संगरोध एलएलएम। विशेषाधिकार प्राप्त एलएलएम समग्र कार्य को ऑर्केस्ट्रेट करता है, जो संभावित हानिकारक डेटा से संवेदनशील संचालन को अलग करता है। संगरोध एलएलएम डेटा को अलग से संसाधित करता है और संभावित क्षति को सीमित करने के लिए स्पष्ट रूप से टूल-कॉलिंग क्षमताओं से छीन लिया जाता है। ऊंट प्रत्येक डेटा मूल्य के लिए मेटाडेटा या “क्षमताओं” को असाइन करके सुरक्षा को मजबूत करता है, इस बारे में सख्त नीतियों को परिभाषित करता है कि प्रत्येक जानकारी का उपयोग कैसे किया जा सकता है। एक कस्टम पायथन दुभाषिया इन बारीक-दाने वाली सुरक्षा नीतियों को लागू करता है, डेटा सिद्धता की निगरानी करता है और स्पष्ट नियंत्रण-प्रवाह बाधाओं के माध्यम से अनुपालन सुनिश्चित करता है।
AgentDojo बेंचमार्क का उपयोग करके अनुभवजन्य मूल्यांकन से परिणाम ऊंट की प्रभावशीलता को उजागर करते हैं। नियंत्रित परीक्षणों में, ऊंट ने दानेदार स्तरों पर सुरक्षा नीतियों को लागू करके शीघ्र इंजेक्शन हमलों को सफलतापूर्वक विफल कर दिया। सिस्टम ने कार्यक्षमता को बनाए रखने की क्षमता का प्रदर्शन किया, जिसमें एजेंटडोजो फ्रेमवर्क के भीतर 67% कार्यों को सुरक्षित रूप से हल किया गया। “प्रॉम्प्ट सैंडविचिंग” और “स्पॉटलाइटिंग” जैसे अन्य बचावों की तुलना में, ऊंट ने सुरक्षा के मामले में काफी बेहतर प्रदर्शन किया, मध्यम ओवरहेड्स को उकसाते हुए हमलों के खिलाफ लगभग कुल सुरक्षा प्रदान की। ओवरहेड मुख्य रूप से टोकन उपयोग में प्रकट होता है, इनपुट टोकन में लगभग 2.82 × वृद्धि और आउटपुट टोकन में 2.73 × वृद्धि के साथ, प्रदान की गई सुरक्षा गारंटी को देखते हुए स्वीकार्य है।
इसके अलावा, ऊंट सूक्ष्म कमजोरियों को संबोधित करता है, जैसे कि डेटा-टू-कंट्रोल प्रवाह जोड़तोड़, अपनी मेटाडेटा-आधारित नीतियों के माध्यम से सख्ती से निर्भरता का प्रबंधन करके। उदाहरण के लिए, एक परिदृश्य जहां सिस्टम निष्पादन प्रवाह को नियंत्रित करने के लिए ईमेल डेटा से सौम्य दिखने वाले निर्देशों का लाभ उठाने का एक विरोधी प्रयास करता है, ऊंट के कठोर डेटा टैगिंग और नीति प्रवर्तन तंत्र द्वारा प्रभावी ढंग से कम किया जाएगा। यह व्यापक सुरक्षा आवश्यक है, यह देखते हुए कि पारंपरिक तरीके इस तरह के अप्रत्यक्ष हेरफेर के खतरों को पहचानने में विफल हो सकते हैं।
अंत में, ऊंट LLM- चालित एजेंटिक सिस्टम को सुरक्षित करने में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। अंतर्निहित एलएलएम को बदलने के बिना सुरक्षा नीतियों को मजबूती से लागू करने की इसकी क्षमता शीघ्र इंजेक्शन हमलों के खिलाफ बचाव के लिए एक शक्तिशाली और लचीला दृष्टिकोण प्रदान करती है। पारंपरिक सॉफ्टवेयर सुरक्षा से सिद्धांतों को अपनाकर, ऊंट न केवल स्पष्ट त्वरित इंजेक्शन जोखिमों को कम करता है, बल्कि अप्रत्यक्ष डेटा हेरफेर का लाभ उठाने वाले परिष्कृत हमलों के खिलाफ भी सुरक्षा उपाय करता है। चूंकि एलएलएम एकीकरण संवेदनशील अनुप्रयोगों में फैलता है, ऊंट को अपनाना उपयोगकर्ता ट्रस्ट को बनाए रखने और जटिल डिजिटल पारिस्थितिक तंत्र के भीतर सुरक्षित बातचीत सुनिश्चित करने में महत्वपूर्ण हो सकता है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।