बड़े भाषा मॉडल के रूप में जाने जाने वाले कृत्रिम बुद्धिमत्ता मॉडल को अपनाने से, शोधकर्ताओं ने अपने अनुक्रम से एक प्रोटीन की संरचना की भविष्यवाणी करने की क्षमता में बहुत प्रगति की है। हालांकि, यह दृष्टिकोण एंटीबॉडी के लिए उतना सफल नहीं रहा है, जो इस प्रकार के प्रोटीन में देखी गई हाइपरवेरिटी के कारण भाग में है।
उस सीमा को पार करने के लिए, MIT शोधकर्ताओं ने एक कम्प्यूटेशनल तकनीक विकसित की है जो बड़ी भाषा मॉडल को एंटीबॉडी संरचनाओं की अधिक सटीक रूप से भविष्यवाणी करने की अनुमति देती है। उनका काम शोधकर्ताओं को उन लोगों की पहचान करने के लिए लाखों संभावित एंटीबॉडी के माध्यम से झारने में सक्षम कर सकता है जिनका उपयोग SARS-COV-2 और अन्य संक्रामक रोगों के इलाज के लिए किया जा सकता है।
“हमारी विधि हमें पैमाने की अनुमति देती है, जबकि अन्य लोग उस बिंदु पर नहीं होते हैं, जहां हम वास्तव में हेस्टैक में कुछ सुइयों को पा सकते हैं,” बोनी बर्जर कहते हैं, गणित के सिमंस प्रोफेसर, MIT के कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता प्रयोगशाला (CSAIL) में गणना और जीव विज्ञान समूह के प्रमुख, और नए अध्ययन के वरिष्ठ लेखकों में से एक। “अगर हम दवा कंपनियों को गलत चीज़ के साथ नैदानिक परीक्षणों में जाने से रोकने में मदद कर सकते हैं, तो यह वास्तव में बहुत सारे पैसे बचाएगा।”
तकनीक, जो एंटीबॉडी के हाइपरवेरेबल क्षेत्रों को मॉडलिंग करने पर केंद्रित है, व्यक्तिगत लोगों से पूरे एंटीबॉडी प्रदर्शनों का विश्लेषण करने की भी क्षमता रखता है। यह उन लोगों की प्रतिरक्षा प्रतिक्रिया का अध्ययन करने के लिए उपयोगी हो सकता है जो एचआईवी जैसे रोगों के सुपर उत्तरदाता हैं, यह पता लगाने में मदद करने के लिए कि उनके एंटीबॉडी वायरस को इतनी प्रभावी ढंग से क्यों रोकते हैं।
ब्रायन ब्रायसन, एमआईटी में बायोलॉजिकल इंजीनियरिंग के एक एसोसिएट प्रोफेसर और रागन इंस्टीट्यूट ऑफ एमजीएच, एमआईटी, और हार्वर्ड के सदस्य, पेपर के एक वरिष्ठ लेखक भी हैं, जो इस सप्ताह में दिखाई देते हैं राष्ट्रीय विज्ञान अकादमी की कार्यवाही। रोहित सिंह, एक पूर्व CSAIL अनुसंधान वैज्ञानिक, जो अब ड्यूक विश्वविद्यालय में बायोस्टैटिस्टिक्स और बायोइनफॉर्मेटिक्स और सेल बायोलॉजी के सहायक प्रोफेसर हैं, और चिहो IM ’22 पेपर के प्रमुख लेखक हैं। सनोफी और एथ ज्यूरिख के शोधकर्ताओं ने भी अनुसंधान में योगदान दिया।
मॉडलिंग अतिशयोक्ति
प्रोटीन में अमीनो एसिड की लंबी श्रृंखलाएं होती हैं, जो संभावित संरचनाओं की एक बड़ी संख्या में बदल सकती हैं। हाल के वर्षों में, इन संरचनाओं की भविष्यवाणी करना बहुत आसान हो गया है, जैसे कि कृत्रिम खुफिया कार्यक्रमों जैसे कि अल्फफोल्ड। इन कार्यक्रमों में से कई, जैसे कि ESMFOLD और OMEGAFOLD, बड़े भाषा मॉडल पर आधारित हैं, जो मूल रूप से बड़ी मात्रा में पाठ का विश्लेषण करने के लिए विकसित किए गए थे, जिससे उन्हें एक अनुक्रम में अगले शब्द की भविष्यवाणी करने के लिए सीखने की अनुमति मिलती है। यह वही दृष्टिकोण प्रोटीन अनुक्रमों के लिए काम कर सकता है – यह सीखकर कि कौन से प्रोटीन संरचनाएं अमीनो एसिड के विभिन्न पैटर्न से सबसे अधिक होने की संभावना रखते हैं।
हालांकि, यह तकनीक हमेशा एंटीबॉडी पर काम नहीं करती है, विशेष रूप से हाइपरवेरेबल क्षेत्र के रूप में जाने जाने वाले एंटीबॉडी के एक खंड पर। एंटीबॉडी में आमतौर पर एक वाई-आकार की संरचना होती है, और ये हाइपरवेरेबल क्षेत्र वाई की युक्तियों में स्थित होते हैं, जहां वे विदेशी प्रोटीन का पता लगाते हैं और बाइंड करते हैं, जिन्हें एंटीजन के रूप में भी जाना जाता है। वाई का निचला हिस्सा संरचनात्मक समर्थन प्रदान करता है और एंटीबॉडी को प्रतिरक्षा कोशिकाओं के साथ बातचीत करने में मदद करता है।
हाइपरवेरेबल क्षेत्र लंबाई में भिन्न होते हैं लेकिन आमतौर पर 40 से कम एमिनो एसिड होते हैं। यह अनुमान लगाया गया है कि मानव प्रतिरक्षा प्रणाली इन अमीनो एसिड के अनुक्रम को बदलकर 1 क्विंटिलियन अलग -अलग एंटीबॉडी का उत्पादन कर सकती है, जिससे यह सुनिश्चित करने में मदद मिल सकती है कि शरीर संभावित एंटीजन की एक विशाल विविधता का जवाब दे सकता है। उन अनुक्रमों को विकास के रूप में उसी तरह से विवश नहीं किया गया है जैसे कि अन्य प्रोटीन अनुक्रम हैं, इसलिए बड़ी भाषा के मॉडल के लिए उनकी संरचनाओं की सटीक भविष्यवाणी करना सीखना मुश्किल है।
सिंह कहते हैं, “इस कारण से कि भाषा मॉडल प्रोटीन संरचना की अच्छी तरह से भविष्यवाणी कर सकते हैं कि विकास इन अनुक्रमों को उन तरीकों से बाधित करता है जिनमें मॉडल उन बाधाओं को समझ सकता है जो उन बाधाओं का मतलब होगा,” सिंह कहते हैं। “यह एक वाक्य में शब्दों के संदर्भ को देखकर व्याकरण के नियमों को सीखने के समान है, जिससे आप यह पता लगा सकते हैं कि इसका क्या मतलब है।”
उन हाइपरवेरेबल क्षेत्रों को मॉडल करने के लिए, शोधकर्ताओं ने दो मॉड्यूल बनाए जो मौजूदा प्रोटीन भाषा मॉडल पर निर्माण करते हैं। इन मॉड्यूलों में से एक को प्रोटीन डेटा बैंक (पीडीबी) में पाए जाने वाले लगभग 3,000 एंटीबॉडी संरचनाओं से हाइपरवेरेबल अनुक्रमों पर प्रशिक्षित किया गया था, जिससे यह सीखने की अनुमति देता है कि कौन सी अनुक्रम समान संरचनाओं को उत्पन्न करने के लिए करते हैं। अन्य मॉड्यूल को डेटा पर प्रशिक्षित किया गया था जो लगभग 3,700 एंटीबॉडी अनुक्रमों को सहसंबंधित करता है कि वे तीन अलग -अलग एंटीजन को कितनी दृढ़ता से बांधते हैं।
परिणामस्वरूप कम्प्यूटेशनल मॉडल, जिसे एबीएमएपी के रूप में जाना जाता है, एंटीबॉडी संरचनाओं और उनके अमीनो एसिड अनुक्रमों के आधार पर बाध्यकारी शक्ति की भविष्यवाणी कर सकता है। इस मॉडल की उपयोगिता को प्रदर्शित करने के लिए, शोधकर्ताओं ने इसका उपयोग एंटीबॉडी संरचनाओं की भविष्यवाणी करने के लिए किया जो SARS-COV-2 वायरस के स्पाइक प्रोटीन को दृढ़ता से बेअसर कर देगा।
शोधकर्ताओं ने एंटीबॉडी के एक सेट के साथ शुरुआत की, जिसे इस लक्ष्य से बांधने की भविष्यवाणी की गई थी, फिर हाइपरवर्जी क्षेत्रों को बदलकर लाखों वेरिएंट उत्पन्न किए। उनका मॉडल एंटीबॉडी संरचनाओं की पहचान करने में सक्षम था जो कि बड़े भाषा मॉडल के आधार पर पारंपरिक प्रोटीन-संरचना मॉडल की तुलना में सबसे अधिक सफल, बहुत अधिक सटीक रूप से होगा।
फिर, शोधकर्ताओं ने एंटीबॉडी को उन समूहों में क्लस्टर करने का अतिरिक्त कदम उठाया, जिनमें समान संरचनाएं थीं। उन्होंने इन समूहों में से प्रत्येक से एंटीबॉडी को प्रयोगात्मक रूप से परीक्षण करने के लिए चुना, सनोफी में शोधकर्ताओं के साथ काम किया। उन प्रयोगों में पाया गया कि इनमें से 82 प्रतिशत एंटीबॉडी में मूल एंटीबॉडी की तुलना में बेहतर बाध्यकारी ताकत थी जो मॉडल में चली गई थी।
शोधकर्ताओं का कहना है कि विकास की प्रक्रिया में विभिन्न प्रकार के अच्छे उम्मीदवारों की पहचान करने से दवा कंपनियों को परीक्षण के उम्मीदवारों पर बहुत अधिक पैसा खर्च करने से बचने में मदद मिल सकती है जो बाद में विफल हो गए, शोधकर्ताओं का कहना है।
सिंह कहते हैं, “वे अपने सभी अंडे एक टोकरी में नहीं रखना चाहते हैं।” “वे कहना नहीं चाहते हैं, मैं इस एक एंटीबॉडी को लेने जा रहा हूं और इसे प्रीक्लिनिकल ट्रायल के माध्यम से ले जा रहा हूं, और फिर यह विषाक्त हो जाता है। उनके पास अच्छी संभावनाओं का एक सेट होगा और उन सभी को स्थानांतरित करना होगा, ताकि अगर कोई गलत हो जाए तो उनके पास कुछ विकल्प हों।”
एंटीबॉडी की तुलना करना
इस तकनीक का उपयोग करते हुए, शोधकर्ता कुछ लंबे समय से सवालों के जवाब देने की कोशिश कर सकते हैं कि विभिन्न लोग संक्रमण का जवाब क्यों अलग -अलग तरीके से जवाब देते हैं। उदाहरण के लिए, कुछ लोग कोविड के बहुत अधिक गंभीर रूपों को क्यों विकसित करते हैं, और कुछ लोग जो एचआईवी के संपर्क में आते हैं, वे कभी संक्रमित नहीं होते हैं?
वैज्ञानिक व्यक्तियों से प्रतिरक्षा कोशिकाओं की एकल-कोशिका आरएनए अनुक्रमण करके और उनकी तुलना करके उन सवालों के जवाब देने की कोशिश कर रहे हैं-एक प्रक्रिया जिसे एंटीबॉडी प्रदर्शनों की सूची के विश्लेषण के रूप में जाना जाता है। पिछले काम से पता चला है कि दो अलग -अलग लोगों के एंटीबॉडी के प्रदर्शनों को 10 प्रतिशत तक ओवरलैप किया जा सकता है। हालांकि, अनुक्रमण संरचनात्मक जानकारी के रूप में एंटीबॉडी प्रदर्शन की तस्वीर व्यापक रूप से पेश नहीं करता है, क्योंकि दो एंटीबॉडी जिनमें अलग -अलग अनुक्रम होते हैं, समान संरचनाएं और कार्य हो सकते हैं।
नया मॉडल एक व्यक्ति में पाए जाने वाले सभी एंटीबॉडी के लिए संरचनाओं को जल्दी से उत्पन्न करके उस समस्या को हल करने में मदद कर सकता है। इस अध्ययन में, शोधकर्ताओं ने दिखाया कि जब संरचना को ध्यान में रखा जाता है, तो अनुक्रम तुलना में देखे गए 10 प्रतिशत की तुलना में व्यक्तियों के बीच बहुत अधिक ओवरलैप होता है। अब वे आगे यह जांचने की योजना बना रहे हैं कि ये संरचनाएं किसी विशेष रोगज़नक़ के खिलाफ शरीर की समग्र प्रतिरक्षा प्रतिक्रिया में कैसे योगदान दे सकती हैं।
सिंह कहते हैं, “यह वह जगह है जहां एक भाषा मॉडल बहुत खूबसूरती से फिट बैठता है क्योंकि इसमें अनुक्रम-आधारित विश्लेषण की स्केलेबिलिटी है, लेकिन यह संरचना-आधारित विश्लेषण की सटीकता से संपर्क करता है।”
इस शोध को स्वास्थ्य में मशीन लर्निंग के लिए सनोफी और अब्दुल लतीफ जमील क्लिनिक द्वारा वित्त पोषित किया गया था।
।