Monday, April 21, 2025

फूरियर न्यूरल ऑपरेटरों को बस एक टर्बो बूस्ट मिला है: यूसी रिवरसाइड के शोधकर्ता टर्बोफनो का परिचय देते हैं, एक पूरी तरह से फ्यूज्ड एफएफटी-जेमम-इफ्ट कर्नेल को पिटोरच पर 150% स्पीडअप प्राप्त होता है – Gadgets Solutions

-

फूरियर न्यूरल ऑपरेटर्स (FNO) आंशिक अंतर समीकरण समाधान ऑपरेटरों को सीखने के लिए शक्तिशाली उपकरण हैं, लेकिन आर्किटेक्चर-जागरूक अनुकूलन की कमी है, उनके फूरियर लेयर के साथ एफएफटी, फ़िल्टरिंग, जेम, शून्य पैडिंग, और IFFT को अलग-अलग चरणों के रूप में निष्पादित किया जाता है, जिसके परिणामस्वरूप कई कर्नेल लॉन्च होते हैं और अत्यधिक वैश्विक मेमोरी ट्रैफ़िक होता है। FFT -> GEMM -> IFFT कम्प्यूटेशनल पैटर्न ने GPU कर्नेल फ्यूजन और मेमोरी लेआउट अनुकूलन के बारे में अपर्याप्त ध्यान दिया है। क्वांटम एस्प्रेसो, ऑक्टोपस और सीपी 2 के जैसे वर्तमान तरीके एफएफटी और ब्लास रूटीन के लिए अलग -अलग कॉल करते हैं। हालांकि, उनकी तीन सीमाएँ हैं: अतिरिक्त मेमोरी कॉपी संचालन के साथ आंशिक आवृत्ति उपयोग, CUFFT में देशी आवृत्ति फ़िल्टरिंग क्षमताओं की कमी, और प्रसंस्करण चरणों के बीच अत्यधिक मेमोरी लेनदेन।

FNO एक पाइपलाइन को लागू करता है जो इनपुट फ़ीचर मैप्स पर आगे FFT के साथ शुरू होता है, वर्णक्रमीय फ़िल्टरिंग को लागू करता है, और व्युत्क्रम FFT के माध्यम से आउटपुट को पुनर्निर्माण करता है। इस प्रक्रिया में आवृत्ति डोमेन ट्रंकेशन और शून्य-पैडिंग चरणों की आवश्यकता होती है, जो कि मूल इनपुट/आउटपुट ट्रिमिंग सपोर्ट में कफ की सीमाओं के कारण अलग-अलग मेमोरी-कॉपी गुठली के रूप में पाइटोरच जैसे वर्तमान फ्रेमवर्क को निष्पादित करते हैं। CUFFT और VKFFT जैसे FFT पुस्तकालयों में अंतर्निहित डेटा ट्रंकेशन क्षमताओं की कमी है। पारंपरिक 2 डी एफएफटी स्थानिक आयामों के साथ दोनों 1 डी-एफएफटी चरणों को लागू करते हैं, लेकिन एफएनओ चैनल आयाम पर वर्णक्रमीय भार को लागू करता है, जो कि छिपे हुए आयामों के साथ दूसरे एफएफटी चरण को फिर से स्थापित करते हुए स्थानिक अक्षों के साथ पहले 1 डी एफएफटी को रखकर एफएफटी चरणों को डिकॉउल करने के लिए एक अवसर का सुझाव देता है।

कैलिफोर्निया विश्वविद्यालय, रिवरसाइड, सीए, यूएसए के शोधकर्ताओं ने टर्बोफनो का प्रस्ताव दिया है, जो पहले पूरी तरह से FFT-GEMM-IFFT GPU कर्नेल के साथ अंतर्निहित FFT अनुकूलन के साथ है। यह दृष्टिकोण स्क्रैच से एफएफटी और जेमम गुठली को विकसित करने के साथ शुरू होता है जो कि बंद-स्रोत के अत्याधुनिक कुबास और कफ की तुलना में तुलना करने वाले या तेजी से प्रदर्शन को प्राप्त करते हैं। एक एफएफटी संस्करण को प्रभावी ढंग से एफएफटी और जीईएमएम वर्कलोड को फ्यूज करने के लिए पेश किया जाता है, जहां एक एकल थ्रेड ब्लॉक छिपे हुए आयाम पर पुनरावृत्ति करता है, जो कि जेम में के-लूप के साथ संरेखित करता है। इसके अलावा, दो साझा मेमोरी स्विज़लिंग पैटर्न को 100% मेमोरी बैंक उपयोग प्राप्त करने के लिए डिज़ाइन किया गया है जब FFT आउटपुट को GEMM में अग्रेषित किया जाता है और IFFT को साझा मेमोरी से सीधे GEMM परिणाम प्राप्त करने में सक्षम बनाया जाता है।

फूरियर न्यूरल ऑपरेटरों को बस एक टर्बो बूस्ट मिला है: यूसी रिवरसाइड के शोधकर्ता टर्बोफनो का परिचय देते हैं, एक पूरी तरह से फ्यूज्ड एफएफटी-जेमम-इफ्ट कर्नेल को पिटोरच पर 150% स्पीडअप प्राप्त होता है
 – Gadgets Solutions

टर्बोफनो प्रभावी संलयन और अंतर्निहित एफएफटी अनुकूलन को सक्षम करने के लिए एफएफटी और सीजीईएमएम गुने के अनुकूलित कार्यान्वयन को एकीकृत करता है। टर्बोफनो में कर्नेल फ्यूजन रणनीति तीन स्तरों के माध्यम से आगे बढ़ती है: एफएफटी-जीईएमएम फ्यूजन, जेमम-इफ्ट फ्यूजन, और पूर्ण एफएफटी-जीईएमएम-आईएफटी फ्यूजन। प्रत्येक चरण में GEMM के साथ FFT वर्कफ़्लो को संरेखित करना, डेटा लेआउट बेमेल को हल करना और साझा मेमोरी बैंक संघर्षों को समाप्त करना शामिल है। प्रमुख तकनीकों में GEMM के इनपुट प्रारूप से मेल खाने के लिए FFT आउटपुट लेआउट को संशोधित करना, संघर्ष-मुक्त साझा मेमोरी एक्सेस के लिए थ्रेड स्विज़लिंग को लागू करना, और इंटरवेट FFT को CGEMM के एक उपसंहार चरण के रूप में एकीकृत करना मध्यवर्ती वैश्विक मेमोरी लिखने और मेमोरी स्थानीयता को बढ़ाने के लिए एकीकृत करना शामिल है।

टर्बोफ्नो 1 डी और 2 डी एफएनओ मूल्यांकन दोनों में शानदार प्रदर्शन दिखाता है। 1D FNO परीक्षणों में, अनुकूलित FFT-CGEMM-IFFT वर्कफ़्लो 50% सुधार के औसत से Pytorch पर 100% स्पीडअप तक प्राप्त करता है। ये लाभ FFT pruning से आते हैं, जो कम्प्यूटेशन को 25%-67.5%तक कम कर देता है। पूरी तरह से फ्यूज्ड FFT-CGEMM-IFFT कर्नेल Pytorch पर 150% स्पीडअप तक पहुंचाता है और आंशिक संलयन रणनीतियों पर अतिरिक्त 10% -20% सुधार प्रदान करता है। इसी तरह, 2 डी एफएनओ में, अनुकूलित वर्कफ़्लो 50% से ऊपर की औसत स्पीडअप के साथ पाइटोरच को आउटपोर्स करता है और अधिकतम सुधार 100% तक पहुंच जाता है। 2 डी पूरी तरह से फ्यूज्ड कर्नेल, प्रदर्शन गिरावट के बिना पाइटोरच पर 50% -105% स्पीडअप प्राप्त करता है, सीजीईएमएम डेटाफ्लो के साथ एफएफटी वर्कलोड लेआउट को संरेखित करने के अतिरिक्त ओवरहेड के बावजूद।

इस पत्र में, शोधकर्ताओं ने टर्बोफनो की शुरुआत की, पहला पूरी तरह से फ्यूज्ड जीपीयू कर्नेल जो फूरियर न्यूरल ऑपरेटरों को तेज करने के लिए एफएफटी, सीजीईएमएम और आईएफएफटी को एकीकृत करता है। उन्होंने पारंपरिक एफएनओ कार्यान्वयन में अक्षमताओं को दूर करने के लिए वास्तुकला-जागरूक अनुकूलन की एक श्रृंखला विकसित की, जैसे कि अत्यधिक कर्नेल लॉन्च और वैश्विक मेमोरी ट्रैफ़िक। इनमें अंतर्निहित आवृत्ति फ़िल्टरिंग और शून्य पैडिंग के साथ एक कस्टम एफएफटी कर्नेल शामिल है, एक रत्न-संगत एफएफटी संस्करण है जो के-लूप व्यवहार की नकल करता है, और साझा मेमोरी स्विज़लिंग रणनीतियों को साझा करता है जो बैंक उपयोग को 25% से 100% तक बेहतर बनाता है। टर्बोफनो 150% तक स्पीडअप प्राप्त करता है और सभी परीक्षण किए गए कॉन्फ़िगरेशन में औसत 67% प्रदर्शन लाभ को बनाए रखता है।


यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


सज्जाद अंसारी IIT खड़गपुर से अंतिम वर्ष के स्नातक हैं। एक तकनीकी उत्साही के रूप में, वह एआई प्रौद्योगिकियों के प्रभाव और उनके वास्तविक दुनिया के निहितार्थों के प्रभाव को समझने पर ध्यान देने के साथ एआई के व्यावहारिक अनुप्रयोगों में देरी करता है। वह स्पष्ट और सुलभ तरीके से जटिल एआई अवधारणाओं को स्पष्ट करने का लक्ष्य रखता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »