ट्रांसफॉर्मर मशीन लर्निंग में मूलभूत उपकरण के रूप में उभरे हैं, जो अनुक्रमिक और संरचित डेटा पर काम करते हैं। इस सेटअप में एक महत्वपूर्ण चुनौती मॉडल को टोकन या इनपुट की स्थिति को समझने के लिए सक्षम कर रही है क्योंकि ट्रांसफार्मर स्वाभाविक रूप से एन्कोडिंग ऑर्डर के लिए एक तंत्र की कमी है। रोटरी स्थिति एम्बेडिंग (रस्सी) एक लोकप्रिय समाधान बन गई, विशेष रूप से भाषा और दृष्टि कार्यों में, क्योंकि यह कुशलता से सापेक्ष स्थानिक समझ को सुविधाजनक बनाने के लिए पूर्ण पदों को एन्कोड करता है। चूंकि ये मॉडल तौर -तरीकों में जटिलता और अनुप्रयोग में बढ़ते हैं, इसलिए रस्सी की अभिव्यक्ति और आयामी लचीलेपन को बढ़ाना तेजी से महत्वपूर्ण हो गया है।
एक महत्वपूर्ण चुनौती तब उठती है जब रस्सी को स्केल करते हुए, साधारण 1D अनुक्रमों को संभालने से लेकर बहुआयामी स्थानिक डेटा को संसाधित करने तक। कठिनाई दो आवश्यक विशेषताओं को संरक्षित करने में निहित है: सापेक्षता – मॉडल को एक दूसरे के सापेक्ष पदों को अलग करने के लिए सक्षम करना – और प्रतिवर्तीता -मूल पदों की अद्वितीय वसूली का संवेदना। वर्तमान डिजाइन अक्सर प्रत्येक स्थानिक अक्ष का स्वतंत्र रूप से इलाज करते हैं, आयामों की अन्योन्याश्रयता को पकड़ने में विफल रहते हैं। यह दृष्टिकोण बहुआयामी सेटिंग्स में एक अपूर्ण स्थितिपूर्ण समझ की ओर जाता है, जो जटिल स्थानिक या बहुपद वातावरण में मॉडल के प्रदर्शन को प्रतिबंधित करता है।
रस्सी का विस्तार करने के प्रयासों में आम तौर पर कई अक्षों के साथ 1 डी संचालन की नकल करना या सीखने योग्य रोटेशन आवृत्तियों को शामिल करना शामिल है। एक सामान्य उदाहरण मानक 2 डी रस्सी है, जो स्वतंत्र रूप से ब्लॉक-डायगोनल मैट्रिक्स रूपों का उपयोग करके प्रत्येक अक्ष पर 1 डी रोटेशन लागू करता है। कम्प्यूटेशनल दक्षता बनाए रखते हुए, ये तकनीक विकर्ण या मिश्रित-दिशात्मक संबंधों का प्रतिनिधित्व नहीं कर सकती हैं। हाल ही में, सीखने योग्य रस्सी योगों, जैसे कि स्ट्रिंग, ने रोटेशन मापदंडों को सीधे प्रशिक्षण देकर अभिव्यक्ति को जोड़ने का प्रयास किया। हालांकि, इनमें एक स्पष्ट गणितीय ढांचे की कमी है और यह गारंटी नहीं है कि सापेक्षता और प्रतिवर्तीता की मौलिक बाधाएं संतुष्ट हैं।
मैनचेस्टर विश्वविद्यालय के शोधकर्ताओं ने एक नई विधि पेश की जो व्यवस्थित रूप से झूठ समूह और झूठ बीजगणित सिद्धांत का उपयोग करके एन आयामों में रस्सी का विस्तार करती है। उनका दृष्टिकोण वैध रस्सी निर्माणों को परिभाषित करता है, जो विशेष ऑर्थोगोनल झूठ बीजगणित (एन) के एक अधिकतम एबेलियन सबलेगैब्रा (एमएएसए) के भीतर झूठ बोल रहे हैं। यह रणनीति पहले से अनुपस्थित सैद्धांतिक कठोरता लाती है, यह सुनिश्चित करती है कि स्थितिगत एन्कोडिंग सापेक्षता और प्रतिवर्ती आवश्यकताओं को पूरा करती है। 1 डी संचालन को स्टैकिंग करने के बजाय, उनका फ्रेमवर्क स्थिति-निर्भर परिवर्तनों के लिए एक आधार का निर्माण करता है जो गणितीय गारंटी को बनाए रखते हुए लचीले ढंग से उच्च आयामों के अनुकूल हो सकता है।
मुख्य कार्यप्रणाली रस्सी परिवर्तन को झूठ बीजगणित के भीतर स्केव-सममितीय जनरेटर के एक मैट्रिक्स घातांक के रूप में परिभाषित करती है (एन)। मानक 1 डी और 2 डी मामलों के लिए, ये मैट्रिस पारंपरिक रोटेशन मैट्रिसेस का उत्पादन करते हैं। नवीनता n आयामों को सामान्य करने में आती है, जहां शोधकर्ता एसओ (डी) के एक मासा से एन जनरेटर के रैखिक रूप से स्वतंत्र सेट का चयन करते हैं। यह सुनिश्चित करता है कि परिणामी परिवर्तन मैट्रिक्स सभी स्थानिक आयामों को उलट और अपेक्षाकृत एन्कोड करता है। लेखक साबित करते हैं कि यह सूत्रीकरण, विशेष रूप से मानक एनडी रस्सी, मैक्सिमल टॉर्ल सबलेगैब्रा से मेल खाती है-एक संरचना जो इनपुट स्पेस को ऑर्थोगोनल दो-आयामी घुमावों में विभाजित करती है। आयामी बातचीत को सक्षम करने के लिए, शोधकर्ताओं ने एक सीखने योग्य ऑर्थोगोनल मैट्रिक्स, क्यू को शामिल किया, जो रस्सी निर्माण के गणितीय गुणों को बाधित किए बिना आधार को संशोधित करता है। क्यू सीखने के लिए कई रणनीतियाँ प्रस्तावित हैं, जिनमें केले ट्रांसफॉर्म, मैट्रिक्स एक्सपोनेंशियल और गिवेंस रोटेशन शामिल हैं, प्रत्येक की व्याख्या और कम्प्यूटेशनल दक्षता व्यापार-बंद।
विधि मजबूत सैद्धांतिक प्रदर्शन को प्रदर्शित करती है, यह साबित करती है कि निर्मित रस्सी प्रत्येक एम्बेडिंग चक्र के भीतर इंजेक्शन को बरकरार रखती है। जब Dimensiality D, आयामों की संख्या के बराबर होता है, तो मानक आधार कुशलता से ओवरलैप के बिना संरचित घुमावों का समर्थन करता है। डी के उच्च मूल्यों के लिए, अधिक लचीले जनरेटर को मल्टीमॉडल डेटा को बेहतर ढंग से समायोजित करने के लिए चुना जा सकता है। शोधकर्ताओं ने दिखाया कि SO (6) के भीतर B₁ और B, जैसे मैट्रिस छह-आयामी स्थान पर ऑर्थोगोनल और स्वतंत्र घुमाव का प्रतिनिधित्व कर सकते हैं। यद्यपि डाउनस्ट्रीम टास्क प्रदर्शन के लिए कोई अनुभवजन्य परिणाम नहीं बताए गए थे, गणितीय संरचना इस बात की पुष्टि करती है कि दोनों प्रमुख गुणों-विकास, और प्रतिवर्तीता को भी संरक्षित किया जाता है, जब भी सीखा अंतर-आयामी इंटरैक्शन पेश किया जाता है।
मैनचेस्टर विश्वविद्यालय का यह शोध वर्तमान रस्सी दृष्टिकोणों की सीमाओं के लिए एक गणितीय रूप से पूर्ण और सुरुचिपूर्ण समाधान प्रदान करता है। अनुसंधान बीजगणितीय सिद्धांत में उनकी विधि को आधार बनाकर और मूल-आयामी गुणों का त्याग किए बिना अंतर-आयामी संबंधों को सीखने के लिए एक मार्ग की पेशकश करके स्थिति एन्कोडिंग में एक महत्वपूर्ण अंतर को बंद कर देता है। फ्रेमवर्क पारंपरिक 1 डी और 2 डी इनपुट और स्केल पर अधिक जटिल एन-आयामी डेटा पर लागू होता है, जिससे यह अधिक अभिव्यंजक ट्रांसफार्मर आर्किटेक्चर की ओर एक मूलभूत कदम बन जाता है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
