वैज्ञानिक अनुसंधान, वित्त और स्वास्थ्य सेवा सहित विभिन्न क्षेत्रों में सारणीबद्ध डेटा का व्यापक रूप से उपयोग किया जाता है। परंपरागत रूप से, मशीन लर्निंग मॉडल जैसे कि ग्रेडिएंट-बूस्टेड निर्णय पेड़ों को विषम और संरचित डेटासेट को संभालने में उनकी प्रभावशीलता के कारण सारणीबद्ध डेटा का विश्लेषण करने के लिए पसंद किया गया है। उनकी लोकप्रियता के बावजूद, इन विधियों में उल्लेखनीय सीमाएं हैं, विशेष रूप से अनदेखी डेटा वितरण पर प्रदर्शन के संदर्भ में, डेटासेट के बीच सीखा ज्ञान को स्थानांतरित करना, और तंत्रिका नेटवर्क-आधारित मॉडल के साथ एकीकरण चुनौतियों को उनके गैर-विभेद्य प्रकृति के कारण।
यूनिवर्सिटी ऑफ फ्रीबर्ग, बर्लिन इंस्टीट्यूट ऑफ हेल्थ, प्रायर लैब्स और एलिस इंस्टीट्यूट के शोधकर्ताओं ने सारणीबद्ध प्रायर-डेटा फिटेड नेटवर्क (TABPFN) नामक एक उपन्यास दृष्टिकोण पेश किया है। TABPFN पारंपरिक सारणीबद्ध डेटा विधियों से जुड़ी सामान्य सीमाओं को संबोधित करने के लिए ट्रांसफार्मर आर्किटेक्चर का लाभ उठाता है। मॉडल में वर्गीकरण और प्रतिगमन दोनों कार्यों में ग्रेडिएंट-बूस्टेड निर्णय पेड़ों को महत्वपूर्ण रूप से पार कर लिया गया है, विशेष रूप से 10,000 से कम नमूनों वाले डेटासेट पर। विशेष रूप से, TABPFN उल्लेखनीय दक्षता का प्रदर्शन करता है, कुछ सेकंड में बेहतर परिणाम प्राप्त करता है, जो कि कई घंटों की तुलना में व्यापक हाइपरपैमीटर ट्यूनिंग की तुलना में होता है।
TABPFN इन-संदर्भ लर्निंग (ICL) का उपयोग करता है, जो शुरू में बड़े भाषा मॉडल द्वारा शुरू की गई एक तकनीक है, जहां मॉडल अनुमान के दौरान प्रदान किए गए प्रासंगिक उदाहरणों के आधार पर कार्यों को हल करना सीखता है। शोधकर्ताओं ने इस अवधारणा को विशेष रूप से लाखों से उत्पन्न डेटासेट पर पूर्व-प्रशिक्षण TABPFN द्वारा सारणीबद्ध डेटा के लिए अनुकूलित किया। यह प्रशिक्षण विधि मॉडल को व्यापक रूप से भविष्य कहनेवाला एल्गोरिदम के एक व्यापक स्पेक्ट्रम को सीखने की अनुमति देती है, जिससे व्यापक डेटासेट-विशिष्ट प्रशिक्षण की आवश्यकता कम हो जाती है। पारंपरिक डीप लर्निंग मॉडल के विपरीत, TABPFN नेटवर्क के माध्यम से एक ही फॉरवर्ड पास के दौरान एक साथ पूरे डेटासेट को संसाधित करता है, जो कम्प्यूटेशनल दक्षता को काफी हद तक बढ़ाता है।
TABPFN की वास्तुकला को विशेष रूप से सारणीबद्ध डेटा के लिए डिज़ाइन किया गया है, जो तालिकाओं की अंतर्निहित संरचना का प्रभावी ढंग से उपयोग करने के लिए दो-आयामी ध्यान तंत्र को नियोजित करता है। यह तंत्र प्रत्येक डेटा सेल को पंक्तियों और स्तंभों में दूसरों के साथ बातचीत करने की अनुमति देता है, प्रभावी रूप से विभिन्न डेटा प्रकारों और स्थितियों जैसे कि श्रेणीबद्ध चर, लापता डेटा और आउटलेयर का प्रबंधन करता है। इसके अलावा, TABPFN प्रशिक्षण सेट से मध्यवर्ती अभ्यावेदन को कैशिंग करके कम्प्यूटेशनल दक्षता का अनुकूलन करता है, जो बाद के परीक्षण नमूनों पर महत्वपूर्ण रूप से तेजी लाता है।
अनुभवजन्य मूल्यांकन स्थापित मॉडल पर TABPFN के पर्याप्त सुधारों को उजागर करता है। ऑटोमल बेंचमार्क और OpenML-CTR23 सहित विभिन्न बेंचमार्क डेटासेट में, TABPFN लगातार XGBOOST, CATBOOST और LIGHTGBM जैसे व्यापक रूप से उपयोग किए जाने वाले मॉडल की तुलना में उच्च प्रदर्शन प्राप्त करता है। वर्गीकरण की समस्याओं के लिए, TABPFN ने बड़े पैमाने पर ट्यून किए गए बेसलाइन विधियों के सापेक्ष सामान्यीकृत ROC AUC स्कोर में उल्लेखनीय लाभ दिखाया। इसी तरह, प्रतिगमन संदर्भों में, इसने इन स्थापित दृष्टिकोणों से बेहतर प्रदर्शन किया, सामान्यीकृत आरएमएसई स्कोर में सुधार किया।
TABPFN की मजबूती का भी बड़े पैमाने पर मूल्यांकन किया गया था, जो चुनौतीपूर्ण परिस्थितियों की विशेषता है, जैसे कि कई अप्रासंगिक विशेषताएं, आउटलेर और पर्याप्त लापता डेटा। विशिष्ट तंत्रिका नेटवर्क मॉडल के विपरीत, TABPFN ने इन चुनौतीपूर्ण परिदृश्यों के तहत लगातार और स्थिर प्रदर्शन बनाए रखा, व्यावहारिक, वास्तविक दुनिया के अनुप्रयोगों के लिए इसकी उपयुक्तता का प्रदर्शन किया।
अपनी भविष्य कहनेवाला ताकत से परे, TABPFN फाउंडेशन मॉडल की विशिष्ट क्षमताओं को भी प्रदर्शित करता है। यह प्रभावी रूप से यथार्थवादी सिंथेटिक सारणीबद्ध डेटासेट उत्पन्न करता है और व्यक्तिगत डेटा बिंदुओं के संभाव्यता वितरण का सही अनुमान लगाता है, जिससे यह विसंगति का पता लगाने और डेटा वृद्धि जैसे कार्यों के लिए उपयुक्त होता है। इसके अतिरिक्त, TABPFN द्वारा निर्मित एम्बेडिंग सार्थक और पुन: प्रयोज्य हैं, जो क्लस्टरिंग और प्रतिरूपण सहित डाउनस्ट्रीम कार्यों के लिए व्यावहारिक मूल्य प्रदान करते हैं।
सारांश में, TABPFN का विकास मॉडलिंग सारणीबद्ध डेटा में एक महत्वपूर्ण उन्नति को दर्शाता है। संरचित डेटा विश्लेषण की व्यावहारिक आवश्यकताओं के साथ ट्रांसफार्मर-आधारित मॉडल की ताकत को एकीकृत करके, TABPFN विभिन्न वैज्ञानिक और व्यावसायिक डोमेन में पर्याप्त सुधारों की सुविधा प्रदान करते हुए, सटीकता, कम्प्यूटेशनल दक्षता और मजबूती प्रदान करता है।
यह रहा कागज़। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
