डेटा गोपनीयता एक लागत के साथ आती है। ऐसी सुरक्षा तकनीकें हैं जो संवेदनशील उपयोगकर्ता डेटा की रक्षा करती हैं, जैसे ग्राहक पते, हमलावरों से, जो उन्हें एआई मॉडल से निकालने का प्रयास कर सकते हैं – लेकिन वे अक्सर उन मॉडलों को कम सटीक बनाते हैं।
एमआईटी शोधकर्ताओं ने हाल ही में एक फ्रेमवर्क विकसित किया, जो पीएसी गोपनीयता नामक एक नए गोपनीयता मीट्रिक पर आधारित है, जो संवेदनशील डेटा, जैसे कि मेडिकल इमेज या फाइनेंशियल रिकॉर्ड्स जैसे संवेदनशील डेटा सुनिश्चित करते हुए एआई मॉडल के प्रदर्शन को बनाए रख सकता है, हमलावरों से सुरक्षित रह सकता है। अब, उन्होंने अपनी तकनीक को अधिक कम्प्यूटेशनल रूप से कुशल बनाकर, सटीकता और गोपनीयता के बीच ट्रेडऑफ में सुधार करने और एक औपचारिक टेम्पलेट बनाने के लिए इस काम को एक कदम आगे ले लिया है, जिसका उपयोग उस एल्गोरिथ्म के आंतरिक कामकाज तक पहुंच की आवश्यकता के बिना वस्तुतः किसी भी एल्गोरिथ्म का निजीकरण करने के लिए किया जा सकता है।
टीम ने डेटा विश्लेषण और मशीन-लर्निंग कार्यों के लिए कई क्लासिक एल्गोरिदम का निजीकरण करने के लिए पीएसी गोपनीयता के अपने नए संस्करण का उपयोग किया।
उन्होंने यह भी प्रदर्शित किया कि अधिक “स्थिर” एल्गोरिदम अपनी विधि के साथ निजीकरण करना आसान है। एक स्थिर एल्गोरिथ्म की भविष्यवाणियां तब भी सुसंगत रहती हैं जब इसका प्रशिक्षण डेटा थोड़ा संशोधित होता है। ग्रेटर स्थिरता एक एल्गोरिथ्म को पहले अनदेखी डेटा पर अधिक सटीक भविष्यवाणियां करने में मदद करती है।
शोधकर्ताओं का कहना है कि नए पीएसी गोपनीयता ढांचे की बढ़ी हुई दक्षता, और चार-चरण टेम्पलेट इसे लागू करने के लिए पालन कर सकते हैं, तकनीक को वास्तविक दुनिया की स्थितियों में तैनात करना आसान बना देगा।
“हम एक उच्च-प्रदर्शन एल्गोरिथ्म का निर्माण करने के लिए, या शायद संघर्ष में भी, या शायद भी मजबूती के रूप में मजबूती और गोपनीयता पर विचार करते हैं। सबसे पहले, हम एक कामकाजी एल्गोरिथ्म बनाते हैं, तो हम इसे मजबूत बनाते हैं, और फिर निजी। हमने दिखाया है कि यदि आप हमेशा सही फ्रेमिंग नहीं करते हैं, तो आप अपने एल्गोरिथ्म को विभिन्न प्रकार के सेटिंग्स में बेहतर प्रदर्शन कर सकते हैं, आप एक प्रकार की गोपनीयता प्राप्त कर सकते हैं,” रूपरेखा।
वह हैनशेन जिओ पीएचडी ’24 के पेपर में शामिल हो गई है, जो गिरावट में पर्ड्यू विश्वविद्यालय में सहायक प्रोफेसर के रूप में शुरू होगी; और वरिष्ठ लेखक श्रीनी देवदास, एमआईटी में इलेक्ट्रिकल इंजीनियरिंग के एडविन सिबली वेबस्टर प्रोफेसर। अनुसंधान को सुरक्षा और गोपनीयता पर IEEE संगोष्ठी में प्रस्तुत किया जाएगा।
आकलन शोर
एआई मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले संवेदनशील डेटा की सुरक्षा के लिए, इंजीनियर अक्सर मॉडल में शोर, या जेनेरिक यादृच्छिकता जोड़ते हैं, इसलिए मूल प्रशिक्षण डेटा का अनुमान लगाने के लिए एक विरोधी के लिए यह कठिन हो जाता है। यह शोर एक मॉडल की सटीकता को कम करता है, इसलिए कम शोर एक जोड़ सकता है, बेहतर है।
पीएसी गोपनीयता स्वचालित रूप से अनुमान लगाती है कि शोर की सबसे छोटी मात्रा को गोपनीयता के वांछित स्तर को प्राप्त करने के लिए एक एल्गोरिथ्म को जोड़ने की आवश्यकता है।
मूल पीएसी गोपनीयता एल्गोरिथ्म एक डेटासेट के विभिन्न नमूनों पर कई बार उपयोगकर्ता का एआई मॉडल चलाता है। यह विचरण के साथ -साथ इन कई आउटपुट के बीच सहसंबंधों को मापता है और इस जानकारी का उपयोग यह अनुमान लगाने के लिए करता है कि डेटा की सुरक्षा के लिए कितना शोर जोड़ा जाना चाहिए।
पीएसी गोपनीयता का यह नया संस्करण उसी तरह से काम करता है, लेकिन आउटपुट में डेटा सहसंबंधों के पूरे मैट्रिक्स का प्रतिनिधित्व करने की आवश्यकता नहीं है; यह सिर्फ आउटपुट संस्करण की आवश्यकता है।
श्रीधर बताते हैं, “क्योंकि आप जिस चीज का अनुमान लगा रहे हैं, वह पूरे कोवेरियन मैट्रिक्स की तुलना में बहुत छोटा है, आप इसे बहुत तेजी से कर सकते हैं।” इसका मतलब है कि कोई बहुत बड़े डेटासेट तक पैमाना कर सकता है।
शोर जोड़ना परिणामों की उपयोगिता को चोट पहुंचा सकता है, और उपयोगिता हानि को कम करना महत्वपूर्ण है। कम्प्यूटेशनल लागत के कारण, मूल पीएसी गोपनीयता एल्गोरिथ्म आइसोट्रोपिक शोर को जोड़ने तक सीमित था, जिसे सभी दिशाओं में समान रूप से जोड़ा जाता है। क्योंकि नया वैरिएंट अनीसोट्रोपिक शोर का अनुमान लगाता है, जो प्रशिक्षण डेटा की विशिष्ट विशेषताओं के अनुरूप है, एक उपयोगकर्ता निजीकृत एल्गोरिथ्म की सटीकता को बढ़ाते हुए, समान स्तर की गोपनीयता को प्राप्त करने के लिए कम समग्र शोर जोड़ सकता है।
गोपनीयता और स्थिरता
जैसा कि उसने पीएसी गोपनीयता का अध्ययन किया, श्रीधर ने परिकल्पना की कि इस तकनीक के साथ अधिक स्थिर एल्गोरिदम का निजीकरण करना आसान होगा। उसने कई शास्त्रीय एल्गोरिदम पर इस सिद्धांत का परीक्षण करने के लिए पीएसी गोपनीयता के अधिक कुशल संस्करण का उपयोग किया।
एल्गोरिदम जो अधिक स्थिर होते हैं, उनके आउटपुट में कम विचरण होता है जब उनका प्रशिक्षण डेटा थोड़ा बदल जाता है। पीएसी गोपनीयता एक डेटासेट को चंक्स में तोड़ती है, डेटा के प्रत्येक भाग पर एल्गोरिथ्म चलाता है, और आउटपुट के बीच विचरण को मापता है। अधिक से अधिक विचरण, एल्गोरिथ्म का निजीकरण करने के लिए उतना ही अधिक शोर जोड़ा जाना चाहिए।
एक एल्गोरिथ्म के आउटपुट में विचरण को कम करने के लिए स्थिरता तकनीकों को नियोजित करने से शोर की मात्रा भी कम हो जाएगी, जिसे निजीकरण के लिए जोड़ा जाना चाहिए, वह बताती हैं।
“सबसे अच्छे मामलों में, हम इन जीत-जीत परिदृश्यों को प्राप्त कर सकते हैं,” वह कहती हैं।
टीम ने दिखाया कि ये गोपनीयता गारंटी एल्गोरिथ्म के परीक्षण के बावजूद मजबूत बनी रही, और पीएसी गोपनीयता के नए संस्करण को शोर का अनुमान लगाने के लिए परिमाण कम परीक्षणों के एक आदेश की आवश्यकता थी। उन्होंने हमले के सिमुलेशन में विधि का परीक्षण भी किया, यह प्रदर्शित करते हुए कि इसकी गोपनीयता की गारंटी अत्याधुनिक हमलों का सामना कर सकती है।
देवदास कहते हैं, “हम यह जानना चाहते हैं कि एल्गोरिदम को पीएसी गोपनीयता के साथ कैसे-डिज़ाइन किया जा सकता है, इसलिए एल्गोरिथ्म शुरू से ही अधिक स्थिर, सुरक्षित और मजबूत है।” शोधकर्ता भी अधिक जटिल एल्गोरिदम के साथ अपनी विधि का परीक्षण करना चाहते हैं और आगे गोपनीयता-उपयोगिता व्यापार का पता लगाते हैं।
“अब सवाल यह है कि ये जीत-जीत की स्थिति कब होती हैं, और हम उन्हें अधिक बार कैसे कर सकते हैं?” श्रीधर कहते हैं।
“मुझे लगता है कि अन्य गोपनीयता परिभाषाओं पर इस सेटिंग में मुख्य लाभ पीएसी गोपनीयता यह है कि यह एक ब्लैक बॉक्स है-आपको परिणामों का निजीकरण करने के लिए प्रत्येक व्यक्तिगत क्वेरी का मैन्युअल रूप से विश्लेषण करने की आवश्यकता नहीं है। यह पूरी तरह से स्वचालित रूप से किया जा सकता है। हम सक्रिय रूप से एक पीएसी-सक्षम डेटाबेस का निर्माण कर रहे हैं, जो कि मौजूदा एसक्यूएल इंजनों को प्रैक्टिकल, ऑटोमेटेड, और कुशल प्राइवेटरी में शामिल कर रहे हैं। मैडिसन में विस्कॉन्सिन, जो इस अध्ययन में शामिल नहीं थे।
इस शोध का समर्थन किया गया है, भाग में, सिस्को सिस्टम्स, कैपिटल वन, यूएस डिपार्टमेंट ऑफ डिफेंस और एक मैथवर्क्स फैलोशिप द्वारा।
।