जैसा कि हम बचपन से परिपक्व होते हैं, हमारी शब्दावली – साथ ही साथ हम इसका उपयोग करते हैं – बढ़ता है, और हमारे अनुभव समृद्ध हो जाते हैं, जिससे हमें विशिष्टता और इरादे के साथ दूसरों के साथ सोचने, तर्क और बातचीत करने की अनुमति मिलती है। तदनुसार, हमारे शब्द विकल्प हमारे व्यक्तिगत मूल्यों, नैतिकता, सांस्कृतिक मानदंडों और विचारों के साथ संरेखित करने के लिए विकसित होते हैं। समय के साथ, हम में से अधिकांश एक आंतरिक “गाइड” विकसित करते हैं जो हमें बातचीत के पीछे संदर्भ सीखने में सक्षम बनाता है; यह अक्सर हमें जानकारी और भावनाओं को साझा करने से दूर करता है जो हानिकारक या अनुचित हो सकते हैं, या हो सकते हैं। जैसा कि यह पता चला है, बड़े भाषा मॉडल (एलएलएम) – जो व्यापक, सार्वजनिक डेटासेट पर प्रशिक्षित होते हैं और इसलिए अक्सर पूर्वाग्रह और विषाक्त भाषा में पके हुए होते हैं – अपनी भाषा को मॉडरेट करने के लिए एक समान क्षमता प्राप्त कर सकते हैं।
MIT, MIT-IBM वाटसन AI लैब, और IBM रिसर्च से एक नई विधि, जिसे स्व-अनुशासित ऑटोरेग्रेसिव सैंपलिंग (SASA) कहा जाता है, LLM को अपने स्वयं के आउटपुट को डिटॉक्सिफाई करने की अनुमति देता है, बिना प्रवाह का बलिदान किए।
अन्य डिटॉक्सिफाइंग तरीकों के विपरीत, यह डिकोडिंग एल्गोरिथ्म एलएलएम के स्वयं के आंतरिक प्रतिनिधित्व के भीतर विषाक्त/नॉनटॉक्सिक उप -स्थानों के बीच एक सीमा सीखता है, मॉडल के मापदंडों, रिट्रेनिंग की आवश्यकता, या एक बाहरी इनाम मॉडल को बदलने के बिना। फिर, निष्कर्ष के दौरान, एल्गोरिथ्म आंशिक रूप से उत्पन्न वाक्यांश के विषाक्तता मूल्य का आकलन करता है: पहले से ही उत्पन्न और स्वीकार किए गए टोकन (शब्द), प्रत्येक संभावित नए टोकन के साथ -साथ क्लासिफायर की सीमा से निकटता के लिए यथोचित रूप से चुना जा सकता है। अगला, यह एक शब्द विकल्प का चयन करता है जो वाक्यांश को नॉनटॉक्सिक स्थान में रखता है, अंततः कम-विषाक्त भाषा उत्पन्न करने के लिए एक तेज और कुशल तरीका प्रदान करता है।
अध्ययन के प्रमुख लेखक चिंग-युन “इरेने” केओ पीएचडी ’24, एमआईटी-आईबीएम वाटसन एआई लैब के साथ एक पूर्व स्नातक इंटर्न और एक वर्तमान अनुसंधान साइंटिस्ट के साथ एक पूर्व स्नातक इंटर्न, आईब-आईबीएम वॉट्सन ने कहा, “हम पीढ़ी की प्रक्रिया के दौरान किसी भी मौजूदा भाषा मॉडल (कि) के साथ एक रास्ता खोजना चाहते थे, जो कि हम जो उदाहरण हम ले रहे हैं, वह विषाक्तता है।”
KO के सह-लेखकों में MIT-IBM वॉटसन AI लैब के सदस्य, इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (EECS) के MIT विभाग में प्रोफेसर लुका डैनियल, और KO के स्नातक सलाहकार शामिल हैं; और MIT-IBM वाटसन AI लैब और/या IBM रिसर्च के कई सदस्य-पिन-यू चेन, पायल दास, यूसुफ मृउह, सोहम डैन, जॉर्जियोस कोल्लियास, सुभजित चौधरी, और तेजसविनी पेडापति। काम को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
“रेलिंग” ढूंढना
LLMS के पीछे के प्रशिक्षण संसाधनों में लगभग हमेशा इंटरनेट और अन्य आसानी से उपलब्ध डेटासेट जैसे सार्वजनिक स्थानों से एकत्र की गई सामग्री शामिल है। जैसे, शाप शब्द और बदमाशी/अप्राप्य भाषा एक घटक है, हालांकि इसमें से कुछ साहित्यिक कार्यों के संदर्भ में है। इसके बाद यह इस प्रकार है कि एलएलएम सहजता से उत्पादन कर सकते हैं – या उत्पन्न करने में छल – खतरनाक और/या पक्षपाती सामग्री, जिसमें अक्सर असहनीय शब्द या घृणित भाषा होती है, यहां तक कि सहज संकेतों से भी। इसके अलावा, यह पाया गया है कि वे भाषा सीख सकते हैं और उन भाषा को बढ़ा सकते हैं जो कई अनुप्रयोगों और डाउनस्ट्रीम कार्यों के लिए पसंद या हानिकारक नहीं हैं – शमन या सुधार रणनीतियों की आवश्यकता के लिए अग्रणी।
मजबूत भाषा पीढ़ी को प्राप्त करने के कई तरीके हैं जो उचित और मूल्य-संरेखित हैं। कुछ विधियाँ एक स्वच्छता वाले डेटासेट के साथ एलएलएम रिट्रेनिंग का उपयोग करती हैं, जो महंगा है, समय लेता है, और एलएलएम के प्रदर्शन को बदल सकता है; अन्य लोग बाहरी इनाम मॉडल को डिकोड करते हैं, जैसे कि नमूनाकरण या बीम खोज, जिन्हें चलाने में अधिक समय लगता है और अधिक मेमोरी की आवश्यकता होती है। SASA, KO, डैनियल, और IBM रिसर्च टीम के मामले में एक विधि विकसित की है जो LLMS की ऑटोरेग्रेसिव प्रकृति का लाभ उठाती है, और LLM के निष्कर्ष के दौरान एक डिकोडिंग-आधारित रणनीति का उपयोग करती है, धीरे-धीरे एक बार में एक टोकन-एक बार में एक टोकन-अनैच्छिक या अवांछनीय आउटपुट से दूर और बेहतर भाषा की ओर बढ़ती है।
अनुसंधान समूह ने एक रैखिक क्लासिफायर का निर्माण करके इसे हासिल किया जो एलएलएम के एम्बेडिंग से सीखा उप -परत पर संचालित होता है। जब एलएलएम को प्रशिक्षित किया जाता है, तो समान अर्थ वाले शब्दों को वेक्टर अंतरिक्ष में एक साथ बारीकी से रखा जाता है और आगे असमान शब्दों से दूर रखा जाता है; शोधकर्ताओं ने परिकल्पना की कि एक एलएलएम का एम्बेडिंग भी प्रासंगिक जानकारी पर कब्जा कर लेगी, जिसका उपयोग डिटॉक्सिफिकेशन के लिए किया जा सकता है। शोधकर्ताओं ने डेटासेट का उपयोग किया जिसमें एक प्रॉम्प्ट (एक वाक्य या विचार की पहली छमाही), एक प्रतिक्रिया (उस वाक्य के पूरा होने), और मानव-विशेषाधिकार प्राप्त एनोटेशन की तरह, विषाक्त या नॉनटॉक्सिक, पसंदीदा या पसंद नहीं किया गया, 0-1 से निरंतर लेबल के साथ, विषाक्तता को बढ़ावा देने के लिए सेट किया गया। एक Bayes-imptimal क्लासिफायर को तब सीखने और आलंकारिक रूप से वाक्य एम्बेडिंग के भीतर बाइनरी सबस्पेस के बीच एक रेखा खींचने के लिए लागू किया गया था, जो सकारात्मक मूल्यों (nontoxic अंतरिक्ष) और नकारात्मक संख्या (विषाक्त स्थान) द्वारा दर्शाया गया था।
SASA प्रणाली तब मूल नमूनाकरण वितरण के करीब रहने के लक्ष्य के साथ, क्लासिफायर के लिए उत्पन्न होने वाले वाक्यांश की दूरी के आधार पर नवीनतम संभावित टोकन की नमूना संभावनाओं को फिर से भारित करके काम करती है।
यह बताने के लिए, यदि कोई उपयोगकर्ता एक वाक्य में एक संभावित टोकन #12 उत्पन्न कर रहा है, तो एलएलएम एक उचित शब्द के लिए अपनी पूर्ण शब्दावली को देखेगा, जो इससे पहले आए 11 शब्दों के आधार पर, और टॉप-के, टॉप-पी का उपयोग करके, यह लगभग 10 टोकन का चयन करने के लिए फ़िल्टर और उत्पादन करेगा। SASA तब उन टोकन में से प्रत्येक का मूल्यांकन करता है, जो क्लासिफायरिफायर (यानी, टोकन 1-11 का मूल्य, साथ ही प्रत्येक संभावित टोकन 12) के निकटता के लिए आंशिक रूप से पूर्ण वाक्य में होता है। टोकन जो सकारात्मक स्थान में वाक्यों का उत्पादन करते हैं, उन्हें प्रोत्साहित किया जाता है, जबकि नकारात्मक स्थान पर उन लोगों को दंडित किया जाता है। इसके अतिरिक्त, क्लासिफायर से दूर, प्रभाव जितना मजबूत होता है।
“लक्ष्य यह है कि अच्छे टोकन की संभावना को फिर से भारित करके ऑटोरेग्रेसिव सैंपलिंग प्रक्रिया को बदलना है। यदि अगले टोकन को संदर्भ को देखते हुए विषाक्त होने की संभावना है, तो हम विषाक्त टोकन होने के लिए उन लोगों के लिए नमूने की संभावना को कम करने जा रहे हैं,” को। शोधकर्ताओं ने इसे इस तरह से करने के लिए चुना “क्योंकि हम जो चीजें कहते हैं, वह सौम्य है या नहीं, संदर्भ के अधीन है।”
मूल्य मिलान के लिए विषाक्तता को कम करना
शोधकर्ताओं ने बढ़ते आकार के तीन एलएलएम के साथ कई आधारभूत हस्तक्षेपों के खिलाफ अपनी विधि का मूल्यांकन किया; सभी ट्रांसफॉर्मर और ऑटोरेग्रेसिव-आधारित थे: GPT2-LARGE, LLAMA2-7B, और LLAMA 3.1-8B-INSTRUCT, क्रमशः 762 मिलियन, 7 बिलियन और 8 बिलियन मापदंडों के साथ। प्रत्येक प्रॉम्प्ट के लिए, एलएलएम को 25 बार वाक्य/वाक्यांश पूरा करने का काम सौंपा गया था, और पर्सपेक्टिवेपी ने उन्हें 0 से 1 तक स्कोर किया, जिसमें 0.5 से अधिक विषाक्त है। टीम ने दो मेट्रिक्स को देखा: सभी संकेतों के लिए 25 पीढ़ियों से अधिक अधिकतम विषाक्तता स्कोर, और विषाक्त दर, जो 25 पीढ़ियों से कम से कम एक विषाक्त वाक्यांश के उत्पादन की संभावना थी। कम प्रवाह (और इसलिए वृद्धि हुई है) का भी विश्लेषण किया गया। SASA को REALTOXICITYPROMPTS (RPT), बोल्ड, और Attaq डेटासेट को पूरा करने के लिए परीक्षण किया गया था, जिसमें स्वाभाविक रूप से होने वाली, अंग्रेजी वाक्य संकेत शामिल थे।
शोधकर्ताओं ने एसएएसए द्वारा डिटॉक्सिफिकेशन के लिए अपने परीक्षणों की जटिलता को बढ़ा दिया, आरपीटी डेटासेट से नॉनटॉक्सिक संकेतों के साथ शुरुआत, हानिकारक वाक्य पूर्णता की तलाश में। फिर, उन्होंने इसे आरपीटी से अधिक चुनौतीपूर्ण संकेतों के लिए आगे बढ़ाया, जो परिणामों से संबंधित उत्पादन करने की अधिक संभावना थी, और साथ ही साथ एसएएसए को निर्देश-ट्यून्ड मॉडल पर लागू किया गया था कि क्या उनकी तकनीक अवांछित ओपट्स को और कम कर सकती है। उन्होंने डिटॉक्सिफिकेशन में एसएएसए की सामान्य प्रयोज्यता की जांच करने के लिए बोल्ड और एटाक बेंचमार्क का भी उपयोग किया। बोल्ड डेटासेट के साथ, शोधकर्ताओं ने आगे भाषा की पीढ़ियों में लिंग पूर्वाग्रह की तलाश की और लिंग के बीच एक संतुलित विषाक्त दर प्राप्त करने की कोशिश की। अंत में, टीम ने रनटाइम, मेमोरी उपयोग, और कैसे SASA को स्वस्थ और/या सहायक भाषा पीढ़ी को प्राप्त करने के लिए शब्द फ़िल्टरिंग के साथ जोड़ा जा सकता है।
“अगर हम इस बारे में सोचते हैं कि इंसान दुनिया में कैसे सोचता है और प्रतिक्रिया करता है, तो हम बुरी चीजें देखते हैं, इसलिए यह भाषा मॉडल को केवल अच्छी चीजों को देखने की अनुमति देने के बारे में नहीं है। यह पूर्ण स्पेक्ट्रम को समझने के बारे में है – दोनों अच्छे और बुरे,” और जब हम बोलते हैं और कार्य करते हैं तो हमारे मूल्यों को चुनने के लिए चुनते हैं। “
कुल मिलाकर, SASA ने महत्वपूर्ण विषाक्त भाषा उत्पादन में कमी हासिल की, जो कि RAD के साथ एक अत्याधुनिक बाहरी इनाम मॉडल तकनीक के साथ सममूल्य पर प्रदर्शन करती है। हालांकि, यह सार्वभौमिक रूप से देखा गया था कि प्रवाह में कमी के साथ मजबूत विषहरण। हस्तक्षेप से पहले, एलएलएमएस ने पुरुष की तुलना में महिला लेबल संकेतों के लिए अधिक विषाक्त प्रतिक्रियाओं का उत्पादन किया; हालांकि, SASA भी हानिकारक प्रतिक्रियाओं में काफी कटौती करने में सक्षम था, जिससे वे अधिक समान हो गए। इसी तरह, SASA के शीर्ष पर शब्द फ़िल्टरिंग ने स्पष्ट रूप से विषाक्तता के स्तर को कम किया, लेकिन इसने एलएलएम की क्षमता को सुसंगत रूप से प्रतिक्रिया देने की क्षमता में भी बाधा डाली।
इस काम का एक बड़ा पहलू यह है कि यह एक अच्छी तरह से परिभाषित, विवश अनुकूलन समस्या है, केओ का कहना है, जिसका अर्थ है कि खुली भाषा पीढ़ी के बीच संतुलन जो प्राकृतिक लगता है और अवांछित भाषा को कम करने की आवश्यकता को प्राप्त किया जा सकता है और ट्यून किया जा सकता है।
इसके अलावा, को कहते हैं, SASA भविष्य में कई विशेषताओं के लिए अच्छी तरह से काम कर सकता है: “मानव के लिए, हमारे पास कई मानवीय मूल्य हैं। हम विषाक्त बातें नहीं कहना चाहते हैं, लेकिन हम भी सत्य, सहायक और वफादार होना चाहते हैं … यदि आप इन सभी मूल्यों के लिए एक मॉडल को ठीक करना चाहते हैं, तो इसे अधिक कम्प्यूटेशनल संसाधनों और, निश्चित रूप से, अतिरिक्त प्रशिक्षण की आवश्यकता होगी।” SASA के हल्के तरीके के कारण, इसे आसानी से इन परिस्थितियों में लागू किया जा सकता है: “यदि आप कई मूल्यों के साथ काम करना चाहते हैं, तो यह केवल कई उप-स्थानों में पीढ़ी की स्थिति की जांच कर रहा है। यह केवल गणना और मापदंडों के संदर्भ में सीमांत ओवरहेड जोड़ता है,” को कहते हैं, अधिक सकारात्मक, निष्पक्ष और सिद्धांत-संबद्ध भाषा के लिए अग्रणी है।
MIT-IBM वॉटसन AI लैब और नेशनल साइंस फाउंडेशन द्वारा इस काम का समर्थन किया गया था।
।