आपके शरीर की प्रत्येक कोशिका में एक ही आनुवंशिक अनुक्रम होता है, फिर भी प्रत्येक सेल उन जीनों का केवल एक सबसेट व्यक्त करता है। ये सेल-विशिष्ट जीन अभिव्यक्ति पैटर्न, जो यह सुनिश्चित करते हैं कि एक मस्तिष्क कोशिका एक त्वचा कोशिका से अलग है, आंशिक रूप से आनुवंशिक सामग्री के तीन-आयामी संरचना द्वारा निर्धारित की जाती है, जो प्रत्येक जीन की पहुंच को नियंत्रित करती है।
एमआईटी रसायनज्ञ अब उन 3 डी जीनोम संरचनाओं को निर्धारित करने के लिए एक नया तरीका लेकर आए हैं, जो उदार कृत्रिम बुद्धिमत्ता का उपयोग करते हैं। उनकी तकनीक कुछ ही मिनटों में हजारों संरचनाओं की भविष्यवाणी कर सकती है, जिससे संरचनाओं का विश्लेषण करने के लिए मौजूदा प्रयोगात्मक तरीकों की तुलना में यह बहुत तेज हो जाता है।
इस तकनीक का उपयोग करते हुए, शोधकर्ता अधिक आसानी से अध्ययन कर सकते हैं कि जीनोम का 3 डी संगठन व्यक्तिगत कोशिकाओं के जीन अभिव्यक्ति पैटर्न और कार्यों को कैसे प्रभावित करता है।
रसायन विज्ञान के एसोसिएट प्रोफेसर और अध्ययन के वरिष्ठ लेखक बिन झांग कहते हैं, “हमारा लक्ष्य अंतर्निहित डीएनए अनुक्रम से त्रि-आयामी जीनोम संरचना की भविष्यवाणी करने की कोशिश करना था।” “अब जब हम ऐसा कर सकते हैं, जो इस तकनीक को अत्याधुनिक प्रयोगात्मक तकनीकों के साथ सममूल्य पर रखता है, तो यह वास्तव में बहुत सारे दिलचस्प अवसर खोल सकता है।”
MIT स्नातक के छात्र ग्रेग शूएट और झूहान लाओ पेपर के प्रमुख लेखक हैं, जो आज दिखाई देते हैं विज्ञान प्रगति।
अनुक्रम से संरचना तक
सेल नाभिक के अंदर, डीएनए और प्रोटीन क्रोमैटिन नामक एक जटिल बनाते हैं, जिसमें संगठन के कई स्तर होते हैं, जिससे कोशिकाओं को 2 मीटर डीएनए को एक नाभिक में रेंगने की अनुमति मिलती है जो व्यास में एक मिलीमीटर का केवल एक-सौवां हिस्सा होता है। हिस्टोन्स नामक प्रोटीन के चारों ओर डीएनए हवा के लंबे स्ट्रैंड्स, एक स्ट्रिंग पर मोतियों की तरह कुछ हद तक एक संरचना को जन्म देते हैं।
एपिजेनेटिक संशोधनों के रूप में जाने जाने वाले रासायनिक टैग को विशिष्ट स्थानों पर डीएनए से जोड़ा जा सकता है, और ये टैग, जो सेल प्रकार से भिन्न होते हैं, क्रोमेटिन के तह और आस -पास के जीन की पहुंच को प्रभावित करते हैं। क्रोमैटिन विरूपण में ये अंतर यह निर्धारित करने में मदद करते हैं कि कौन से जीन अलग -अलग सेल प्रकारों में व्यक्त किए जाते हैं, या किसी दिए गए सेल के भीतर अलग -अलग समय पर।
पिछले 20 वर्षों में, वैज्ञानिकों ने क्रोमैटिन संरचनाओं का निर्धारण करने के लिए प्रयोगात्मक तकनीकें विकसित की हैं। एक व्यापक रूप से उपयोग की जाने वाली तकनीक, जिसे हाय-सी के रूप में जाना जाता है, सेल के नाभिक में पड़ोसी डीएनए स्ट्रैंड्स को एक साथ जोड़कर काम करता है। शोधकर्ता तब निर्धारित कर सकते हैं कि डीएनए को कई छोटे टुकड़ों में काटकर और इसे अनुक्रमण करके कौन से सेगमेंट एक दूसरे के पास स्थित हैं।
इस विधि का उपयोग कोशिकाओं की बड़ी आबादी पर किया जा सकता है, जो उस विशिष्ट सेल के भीतर संरचनाओं को निर्धारित करने के लिए क्रोमैटिन के एक खंड के लिए एक औसत संरचना की गणना करने के लिए, या एकल कोशिकाओं पर किया जा सकता है। हालांकि, हाय-सी और इसी तरह की तकनीकें श्रम-गहन हैं, और एक सेल से डेटा उत्पन्न करने में लगभग एक सप्ताह लग सकता है।
उन सीमाओं को दूर करने के लिए, झांग और उनके छात्रों ने एक मॉडल विकसित किया जो एकल कोशिकाओं में क्रोमैटिन संरचनाओं की भविष्यवाणी करने के लिए एक तेज, सटीक तरीका बनाने के लिए जेनेरिक एआई में हाल के अग्रिमों का लाभ उठाता है। एआई मॉडल जो उन्होंने डिज़ाइन किया है, वह जल्दी से डीएनए अनुक्रमों का विश्लेषण कर सकता है और क्रोमेटिन संरचनाओं की भविष्यवाणी कर सकता है जो उन अनुक्रमों को एक सेल में उत्पन्न कर सकते हैं।
झांग कहते हैं, “डीप लर्निंग वास्तव में पैटर्न मान्यता में अच्छा है।” “यह हमें बहुत लंबे डीएनए खंडों, हजारों बेस जोड़े का विश्लेषण करने की अनुमति देता है, और यह पता लगाता है कि उन डीएनए बेस जोड़े में महत्वपूर्ण जानकारी क्या है।”
क्रोमोजेन, जिस मॉडल ने शोधकर्ताओं को बनाया है, उसके दो घटक हैं। पहला घटक, जीनोम को “पढ़ने” के लिए पढ़ाया जाने वाला एक गहन सीखने वाला मॉडल, अंतर्निहित डीएनए अनुक्रम और क्रोमैटिन एक्सेसिबिलिटी डेटा में एन्कोड की गई जानकारी का विश्लेषण करता है, जिसके उत्तरार्द्ध में व्यापक रूप से उपलब्ध है और सेल प्रकार-विशिष्ट है।
दूसरा घटक एक सामान्य एआई मॉडल है जो शारीरिक रूप से सटीक क्रोमैटिन अनुरूपता की भविष्यवाणी करता है, 11 मिलियन से अधिक क्रोमैटिन अनुरूपता पर प्रशिक्षित किया गया है। ये डेटा मानव बी लिम्फोसाइटों की एक लाइन से 16 कोशिकाओं पर डीआईपी-सी (हाय-सी के एक संस्करण) का उपयोग करके प्रयोगों से उत्पन्न हुए थे।
जब एकीकृत किया जाता है, तो पहला घटक जनरेटिव मॉडल को सूचित करता है कि सेल प्रकार-विशिष्ट वातावरण विभिन्न क्रोमैटिन संरचनाओं के गठन को कैसे प्रभावित करता है, और यह योजना प्रभावी रूप से अनुक्रम-संरचना संबंधों को पकड़ती है। प्रत्येक अनुक्रम के लिए, शोधकर्ता कई संभावित संरचनाओं को उत्पन्न करने के लिए अपने मॉडल का उपयोग करते हैं। ऐसा इसलिए है क्योंकि डीएनए एक बहुत ही अव्यवस्थित अणु है, इसलिए एक एकल डीएनए अनुक्रम कई अलग -अलग संभावित अनुरूपताओं को जन्म दे सकता है।
“जीनोम की संरचना की भविष्यवाणी करने का एक प्रमुख जटिल कारक यह है कि एक भी समाधान नहीं है जिसका हम लक्ष्य कर रहे हैं। संरचनाओं का वितरण है, कोई फर्क नहीं पड़ता कि आप जीनोम का कौन सा हिस्सा देख रहे हैं। यह भविष्यवाणी करना कि बहुत जटिल, उच्च-आयामी सांख्यिकीय वितरण कुछ ऐसा है जो अविश्वसनीय रूप से चुनौतीपूर्ण है।”
तेजी से विश्लेषण
एक बार प्रशिक्षित होने के बाद, मॉडल हाय-सी या अन्य प्रयोगात्मक तकनीकों की तुलना में बहुत तेज समय पर भविष्यवाणियां उत्पन्न कर सकता है।
“जब आप किसी दिए गए सेल प्रकार में कुछ दर्जन संरचनाएं प्राप्त करने के लिए छह महीने के प्रयोगों को चला सकते हैं, तो आप एक विशेष क्षेत्र में हमारे मॉडल के साथ एक विशेष क्षेत्र में 20 मिनट में सिर्फ एक जीपीयू पर एक हजार संरचनाएं उत्पन्न कर सकते हैं,” शूएट कहते हैं।
अपने मॉडल को प्रशिक्षित करने के बाद, शोधकर्ताओं ने इसका उपयोग 2,000 से अधिक डीएनए अनुक्रमों के लिए संरचना की भविष्यवाणियों को उत्पन्न करने के लिए किया, फिर उन अनुक्रमों के लिए प्रयोगात्मक रूप से निर्धारित संरचनाओं से उनकी तुलना की। उन्होंने पाया कि मॉडल द्वारा उत्पन्न संरचनाएं प्रयोगात्मक डेटा में देखी गई लोगों के समान या बहुत समान थीं।
झांग कहते हैं, “हम आम तौर पर प्रत्येक अनुक्रम के लिए सैकड़ों या हजारों अनुरूपता को देखते हैं, और यह आपको उन संरचनाओं की विविधता का एक उचित प्रतिनिधित्व देता है जो एक विशेष क्षेत्र हो सकता है,” झांग कहते हैं। “यदि आप अपने प्रयोग को कई बार दोहराते हैं, तो विभिन्न कोशिकाओं में, आप बहुत अलग -अलग विरूपण के साथ समाप्त हो जाएंगे। यही हमारा मॉडल भविष्यवाणी करने की कोशिश कर रहा है।”
शोधकर्ताओं ने यह भी पाया कि मॉडल सेल प्रकारों से डेटा के लिए सटीक भविष्यवाणियां कर सकता है, जिसके अलावा इसे प्रशिक्षित किया गया था। इससे पता चलता है कि मॉडल यह विश्लेषण करने के लिए उपयोगी हो सकता है कि क्रोमैटिन संरचनाएं सेल प्रकारों के बीच कैसे भिन्न होती हैं, और वे अंतर उनके कार्य को कैसे प्रभावित करते हैं। मॉडल का उपयोग विभिन्न क्रोमैटिन राज्यों का पता लगाने के लिए भी किया जा सकता है जो एक एकल कोशिका के भीतर मौजूद हो सकते हैं, और वे परिवर्तन जीन अभिव्यक्ति को कैसे प्रभावित करते हैं।
“क्रोमोजेन जीनोम तह सिद्धांतों की एआई-चालित खोज के लिए एक नया ढांचा प्रदान करता है और प्रदर्शित करता है कि जनजातीय एआई 3 डी जीनोम संरचना के साथ जीनोमिक और एपिजेनोमिक विशेषताओं को पा सकता है, भविष्य के काम की ओर इशारा करता है, जो जीनोम संरचना की एक विस्तृत श्रृंखला में जीनोम संरचना और कार्य की भिन्नता का अध्ययन करने की ओर इशारा करता है,” कार्नेजिंग में कम्प्यूटेशनल बायोलॉजी में एक प्रोफेसर।
एक अन्य संभावित अनुप्रयोग यह पता लगाने के लिए होगा कि एक विशेष डीएनए अनुक्रम में उत्परिवर्तन क्रोमेटिन विरूपण को कैसे बदलते हैं, जो इस बात पर प्रकाश डाल सकता है कि इस तरह के उत्परिवर्तन बीमारी का कारण बन सकते हैं।
“बहुत सारे दिलचस्प सवाल हैं जो मुझे लगता है कि हम इस प्रकार के मॉडल के साथ संबोधित कर सकते हैं,” झांग कहते हैं।
शोधकर्ताओं ने अपने सभी डेटा और मॉडल को अन्य लोगों के लिए उपलब्ध कराया है जो इसका उपयोग करना चाहते हैं।
अनुसंधान को राष्ट्रीय स्वास्थ्य संस्थान द्वारा वित्त पोषित किया गया था।
।