Wednesday, April 16, 2025

ट्रांसफॉर्मर अब बिना ट्यूनिंग के स्प्रेडशीट कोशिकाओं की भविष्यवाणी कर सकते हैं: शोधकर्ताओं ने 100 मिलियन सिंथेटिक डेटासेट पर प्रशिक्षित TABPFN का परिचय दिया – Gadgets Solutions

-

वैज्ञानिक अनुसंधान, वित्त और स्वास्थ्य सेवा सहित विभिन्न क्षेत्रों में सारणीबद्ध डेटा का व्यापक रूप से उपयोग किया जाता है। परंपरागत रूप से, मशीन लर्निंग मॉडल जैसे कि ग्रेडिएंट-बूस्टेड निर्णय पेड़ों को विषम और संरचित डेटासेट को संभालने में उनकी प्रभावशीलता के कारण सारणीबद्ध डेटा का विश्लेषण करने के लिए पसंद किया गया है। उनकी लोकप्रियता के बावजूद, इन विधियों में उल्लेखनीय सीमाएं हैं, विशेष रूप से अनदेखी डेटा वितरण पर प्रदर्शन के संदर्भ में, डेटासेट के बीच सीखा ज्ञान को स्थानांतरित करना, और तंत्रिका नेटवर्क-आधारित मॉडल के साथ एकीकरण चुनौतियों को उनके गैर-विभेद्य प्रकृति के कारण।

यूनिवर्सिटी ऑफ फ्रीबर्ग, बर्लिन इंस्टीट्यूट ऑफ हेल्थ, प्रायर लैब्स और एलिस इंस्टीट्यूट के शोधकर्ताओं ने सारणीबद्ध प्रायर-डेटा फिटेड नेटवर्क (TABPFN) नामक एक उपन्यास दृष्टिकोण पेश किया है। TABPFN पारंपरिक सारणीबद्ध डेटा विधियों से जुड़ी सामान्य सीमाओं को संबोधित करने के लिए ट्रांसफार्मर आर्किटेक्चर का लाभ उठाता है। मॉडल में वर्गीकरण और प्रतिगमन दोनों कार्यों में ग्रेडिएंट-बूस्टेड निर्णय पेड़ों को महत्वपूर्ण रूप से पार कर लिया गया है, विशेष रूप से 10,000 से कम नमूनों वाले डेटासेट पर। विशेष रूप से, TABPFN उल्लेखनीय दक्षता का प्रदर्शन करता है, कुछ सेकंड में बेहतर परिणाम प्राप्त करता है, जो कि कई घंटों की तुलना में व्यापक हाइपरपैमीटर ट्यूनिंग की तुलना में होता है।

TABPFN इन-संदर्भ लर्निंग (ICL) का उपयोग करता है, जो शुरू में बड़े भाषा मॉडल द्वारा शुरू की गई एक तकनीक है, जहां मॉडल अनुमान के दौरान प्रदान किए गए प्रासंगिक उदाहरणों के आधार पर कार्यों को हल करना सीखता है। शोधकर्ताओं ने इस अवधारणा को विशेष रूप से लाखों से उत्पन्न डेटासेट पर पूर्व-प्रशिक्षण TABPFN द्वारा सारणीबद्ध डेटा के लिए अनुकूलित किया। यह प्रशिक्षण विधि मॉडल को व्यापक रूप से भविष्य कहनेवाला एल्गोरिदम के एक व्यापक स्पेक्ट्रम को सीखने की अनुमति देती है, जिससे व्यापक डेटासेट-विशिष्ट प्रशिक्षण की आवश्यकता कम हो जाती है। पारंपरिक डीप लर्निंग मॉडल के विपरीत, TABPFN नेटवर्क के माध्यम से एक ही फॉरवर्ड पास के दौरान एक साथ पूरे डेटासेट को संसाधित करता है, जो कम्प्यूटेशनल दक्षता को काफी हद तक बढ़ाता है।

TABPFN की वास्तुकला को विशेष रूप से सारणीबद्ध डेटा के लिए डिज़ाइन किया गया है, जो तालिकाओं की अंतर्निहित संरचना का प्रभावी ढंग से उपयोग करने के लिए दो-आयामी ध्यान तंत्र को नियोजित करता है। यह तंत्र प्रत्येक डेटा सेल को पंक्तियों और स्तंभों में दूसरों के साथ बातचीत करने की अनुमति देता है, प्रभावी रूप से विभिन्न डेटा प्रकारों और स्थितियों जैसे कि श्रेणीबद्ध चर, लापता डेटा और आउटलेयर का प्रबंधन करता है। इसके अलावा, TABPFN प्रशिक्षण सेट से मध्यवर्ती अभ्यावेदन को कैशिंग करके कम्प्यूटेशनल दक्षता का अनुकूलन करता है, जो बाद के परीक्षण नमूनों पर महत्वपूर्ण रूप से तेजी लाता है।

अनुभवजन्य मूल्यांकन स्थापित मॉडल पर TABPFN के पर्याप्त सुधारों को उजागर करता है। ऑटोमल बेंचमार्क और OpenML-CTR23 सहित विभिन्न बेंचमार्क डेटासेट में, TABPFN लगातार XGBOOST, CATBOOST और LIGHTGBM जैसे व्यापक रूप से उपयोग किए जाने वाले मॉडल की तुलना में उच्च प्रदर्शन प्राप्त करता है। वर्गीकरण की समस्याओं के लिए, TABPFN ने बड़े पैमाने पर ट्यून किए गए बेसलाइन विधियों के सापेक्ष सामान्यीकृत ROC AUC स्कोर में उल्लेखनीय लाभ दिखाया। इसी तरह, प्रतिगमन संदर्भों में, इसने इन स्थापित दृष्टिकोणों से बेहतर प्रदर्शन किया, सामान्यीकृत आरएमएसई स्कोर में सुधार किया।

TABPFN की मजबूती का भी बड़े पैमाने पर मूल्यांकन किया गया था, जो चुनौतीपूर्ण परिस्थितियों की विशेषता है, जैसे कि कई अप्रासंगिक विशेषताएं, आउटलेर और पर्याप्त लापता डेटा। विशिष्ट तंत्रिका नेटवर्क मॉडल के विपरीत, TABPFN ने इन चुनौतीपूर्ण परिदृश्यों के तहत लगातार और स्थिर प्रदर्शन बनाए रखा, व्यावहारिक, वास्तविक दुनिया के अनुप्रयोगों के लिए इसकी उपयुक्तता का प्रदर्शन किया।

अपनी भविष्य कहनेवाला ताकत से परे, TABPFN फाउंडेशन मॉडल की विशिष्ट क्षमताओं को भी प्रदर्शित करता है। यह प्रभावी रूप से यथार्थवादी सिंथेटिक सारणीबद्ध डेटासेट उत्पन्न करता है और व्यक्तिगत डेटा बिंदुओं के संभाव्यता वितरण का सही अनुमान लगाता है, जिससे यह विसंगति का पता लगाने और डेटा वृद्धि जैसे कार्यों के लिए उपयुक्त होता है। इसके अतिरिक्त, TABPFN द्वारा निर्मित एम्बेडिंग सार्थक और पुन: प्रयोज्य हैं, जो क्लस्टरिंग और प्रतिरूपण सहित डाउनस्ट्रीम कार्यों के लिए व्यावहारिक मूल्य प्रदान करते हैं।

सारांश में, TABPFN का विकास मॉडलिंग सारणीबद्ध डेटा में एक महत्वपूर्ण उन्नति को दर्शाता है। संरचित डेटा विश्लेषण की व्यावहारिक आवश्यकताओं के साथ ट्रांसफार्मर-आधारित मॉडल की ताकत को एकीकृत करके, TABPFN विभिन्न वैज्ञानिक और व्यावसायिक डोमेन में पर्याप्त सुधारों की सुविधा प्रदान करते हुए, सटीकता, कम्प्यूटेशनल दक्षता और मजबूती प्रदान करता है।


यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


ट्रांसफॉर्मर अब बिना ट्यूनिंग के स्प्रेडशीट कोशिकाओं की भविष्यवाणी कर सकते हैं: शोधकर्ताओं ने 100 मिलियन सिंथेटिक डेटासेट पर प्रशिक्षित TABPFN का परिचय दिया
 – Gadgets Solutions

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »