क्या आपको दरवाजे से बाहर निकलने से पहले अपनी छतरी को पकड़ना चाहिए? पहले से मौसम के पूर्वानुमान की जाँच करना केवल तभी सहायक होगा जब वह पूर्वानुमान सटीक हो।
स्थानिक भविष्यवाणी की समस्याएं, जैसे मौसम पूर्वानुमान या वायु प्रदूषण का अनुमान, अन्य स्थानों पर ज्ञात मूल्यों के आधार पर एक नए स्थान में एक चर के मूल्य की भविष्यवाणी करना शामिल है। वैज्ञानिक आम तौर पर इन भविष्यवाणियों पर भरोसा करने के लिए यह निर्धारित करने के लिए कोशिश-और-सत्य सत्यापन विधियों का उपयोग करते हैं।
लेकिन एमआईटी शोधकर्ताओं ने दिखाया है कि ये लोकप्रिय सत्यापन विधियां स्थानिक भविष्यवाणी कार्यों के लिए काफी बुरी तरह से विफल हो सकती हैं। यह किसी को यह विश्वास करने के लिए प्रेरित कर सकता है कि एक पूर्वानुमान सटीक है या यह कि एक नई भविष्यवाणी विधि प्रभावी है, जब वास्तव में ऐसा नहीं है।
शोधकर्ताओं ने भविष्यवाणी-सत्यापन विधियों का आकलन करने के लिए एक तकनीक विकसित की और इसका उपयोग यह साबित करने के लिए किया कि दो शास्त्रीय तरीके स्थानिक समस्याओं पर काफी गलत हो सकते हैं। उन्होंने तब निर्धारित किया कि ये विधियाँ विफल क्यों हो सकती हैं और स्थानिक भविष्यवाणियों के लिए उपयोग किए जाने वाले डेटा के प्रकारों को संभालने के लिए डिज़ाइन की गई एक नई विधि बनाई जा सकती हैं।
वास्तविक और नकली डेटा के साथ प्रयोगों में, उनकी नई विधि ने दो सबसे सामान्य तकनीकों की तुलना में अधिक सटीक मान्यताएं प्रदान कीं। शोधकर्ताओं ने यथार्थवादी स्थानिक समस्याओं का उपयोग करके प्रत्येक विधि का मूल्यांकन किया, जिसमें शिकागो ओ-हरे हवाई अड्डे पर हवा की गति की भविष्यवाणी करना और पांच अमेरिकी मेट्रो स्थानों पर हवा के तापमान का पूर्वानुमान शामिल है।
उनकी मान्यता पद्धति को कई समस्याओं पर लागू किया जा सकता है, जिससे जलवायु वैज्ञानिकों को कुछ बीमारियों पर वायु प्रदूषण के प्रभावों का आकलन करने में महामारी विज्ञानियों के लिए समुद्री सतह के तापमान की भविष्यवाणी करने में मदद मिलती है।
“उम्मीद है कि यह अधिक विश्वसनीय मूल्यांकन की ओर ले जाएगा जब लोग नए पूर्वानुमान के तरीकों और बेहतर समझ के साथ आ रहे हैं कि कैसे अच्छे तरीके प्रदर्शन कर रहे हैं,” एमआईटी के इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान विभाग (ईईसीएस) में एक एसोसिएट प्रोफेसर, सूचना और निर्णय प्रणालियों के लिए प्रयोगशाला के एक सदस्य और डेटा, सिस्टम, और समाज, और एक स्नेहक के लिए संस्थान, और एक स्नेहक, और एक स्नेहक, और एक संबद्धता, और एक संपूर्ण।
ब्रोडरिक को लीड लेखक और एमआईटी पोस्टडॉक डेविड आर। बर्ट और ईईसीएस ग्रेजुएट स्टूडेंट यूनी शेन द्वारा पेपर पर शामिल किया गया है। अनुसंधान को आर्टिफिशियल इंटेलिजेंस एंड स्टैटिस्टिक्स पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
सत्यापन का मूल्यांकन
ब्रोडरिक के समूह ने हाल ही में मशीन-लर्निंग भविष्यवाणी मॉडल विकसित करने के लिए समुद्र विज्ञान और वायुमंडलीय वैज्ञानिकों के साथ सहयोग किया है जिसका उपयोग एक मजबूत स्थानिक घटक के साथ समस्याओं के लिए किया जा सकता है।
इस काम के माध्यम से, उन्होंने देखा कि स्थानिक सेटिंग्स में पारंपरिक सत्यापन विधियां गलत हो सकती हैं। ये विधियां प्रशिक्षण डेटा की एक छोटी मात्रा को पकड़ती हैं, जिसे सत्यापन डेटा कहा जाता है, और इसका उपयोग भविष्यवक्ता की सटीकता का आकलन करने के लिए किया जाता है।
समस्या की जड़ को खोजने के लिए, उन्होंने एक गहन विश्लेषण किया और निर्धारित किया कि पारंपरिक तरीके उन धारणाओं को बनाते हैं जो स्थानिक डेटा के लिए अनुचित हैं। मूल्यांकन के तरीके इस बारे में धारणाओं पर निर्भर करते हैं कि कैसे सत्यापन डेटा और डेटा एक की भविष्यवाणी करना चाहता है, जिसे टेस्ट डेटा कहा जाता है, संबंधित हैं।
पारंपरिक तरीके मानते हैं कि सत्यापन डेटा और परीक्षण डेटा स्वतंत्र और पहचान के रूप में वितरित किए जाते हैं, जिसका अर्थ है कि किसी भी डेटा बिंदु का मूल्य अन्य डेटा बिंदुओं पर निर्भर नहीं करता है। लेकिन एक स्थानिक आवेदन में, यह अक्सर ऐसा नहीं होता है।
उदाहरण के लिए, एक वैज्ञानिक EPA वायु प्रदूषण सेंसर से सत्यापन डेटा का उपयोग कर सकता है ताकि संरक्षण क्षेत्रों में वायु प्रदूषण की भविष्यवाणी करने वाली विधि की सटीकता का परीक्षण किया जा सके। हालांकि, ईपीए सेंसर स्वतंत्र नहीं हैं – वे अन्य सेंसर के स्थान के आधार पर बैठे थे।
इसके अलावा, शायद सत्यापन डेटा शहरों के पास ईपीए सेंसर से हैं, जबकि संरक्षण स्थल ग्रामीण क्षेत्रों में हैं। क्योंकि ये डेटा विभिन्न स्थानों से हैं, उनके पास अलग -अलग सांख्यिकीय गुण हैं, इसलिए वे पहचान से वितरित नहीं किए जाते हैं।
“हमारे प्रयोगों से पता चला कि आपको स्थानिक मामले में कुछ गलत उत्तर मिलते हैं जब सत्यापन विधि द्वारा की गई इन धारणाओं को तोड़ दिया जाता है,” ब्रोडरिक कहते हैं।
शोधकर्ताओं को एक नई धारणा के साथ आने की जरूरत थी।
विशेष रूप से स्थानिक
विशेष रूप से एक स्थानिक संदर्भ के बारे में सोचते हुए, जहां डेटा विभिन्न स्थानों से इकट्ठा किया जाता है, उन्होंने एक ऐसी विधि तैयार की है जो मान्यता डेटा और परीक्षण डेटा को अंतरिक्ष में सुचारू रूप से बदलती है।
उदाहरण के लिए, वायु प्रदूषण का स्तर दो पड़ोसी घरों के बीच नाटकीय रूप से बदलने की संभावना नहीं है।
“यह नियमितता धारणा कई स्थानिक प्रक्रियाओं के लिए उपयुक्त है, और यह हमें स्थानिक डोमेन में स्थानिक भविष्यवाणियों का मूल्यांकन करने का एक तरीका बनाने की अनुमति देता है। हमारे ज्ञान का सबसे अच्छा करने के लिए, किसी ने भी एक व्यवस्थित सैद्धांतिक मूल्यांकन नहीं किया है कि एक बेहतर दृष्टिकोण के साथ आने के लिए क्या गलत हुआ,” ब्रोडरिक कहते हैं।
उनकी मूल्यांकन तकनीक का उपयोग करने के लिए, कोई अपने भविष्यवक्ता, उन स्थानों को इनपुट करेगा, जिनमें वे भविष्यवाणी करना चाहते हैं, और उनके सत्यापन डेटा, फिर यह स्वचालित रूप से बाकी काम करता है। अंत में, यह अनुमान लगाता है कि प्रश्न में स्थान के लिए भविष्यवक्ता का पूर्वानुमान कितना सही होगा। हालांकि, प्रभावी रूप से उनकी सत्यापन तकनीक का आकलन करना एक चुनौती साबित हुई।
“हम एक विधि का मूल्यांकन नहीं कर रहे हैं, इसके बजाय हम एक मूल्यांकन का मूल्यांकन कर रहे हैं। इसलिए, हमें वापस कदम रखना था, ध्यान से सोचना था, और उन उपयुक्त प्रयोगों के बारे में रचनात्मक होना चाहिए जो हम उपयोग कर सकते हैं,” ब्रोडरिक बताते हैं।
सबसे पहले, उन्होंने नकली डेटा का उपयोग करके कई परीक्षण डिजाइन किए, जिनमें अवास्तविक पहलू थे, लेकिन उन्हें महत्वपूर्ण मापदंडों को ध्यान से नियंत्रित करने की अनुमति दी। फिर, उन्होंने वास्तविक डेटा को संशोधित करके अधिक यथार्थवादी, अर्ध-सिम्युलेटेड डेटा बनाया। अंत में, उन्होंने कई प्रयोगों के लिए वास्तविक डेटा का उपयोग किया।
यथार्थवादी समस्याओं से तीन प्रकार के डेटा का उपयोग करना, जैसे कि इंग्लैंड में एक फ्लैट की कीमत की भविष्यवाणी करना और अपने स्थान के आधार पर और हवा की गति का पूर्वानुमान लगाना, उन्हें एक व्यापक मूल्यांकन करने में सक्षम बनाया। अधिकांश प्रयोगों में, उनकी तकनीक पारंपरिक विधि की तुलना में अधिक सटीक थी जो उन्होंने इसकी तुलना की थी।
भविष्य में, शोधकर्ताओं ने स्थानिक सेटिंग्स में अनिश्चितता की मात्रा में सुधार के लिए इन तकनीकों को लागू करने की योजना बनाई है। वे अन्य क्षेत्रों को भी ढूंढना चाहते हैं जहां नियमितता धारणा भविष्यवाणियों के प्रदर्शन में सुधार कर सकती है, जैसे कि समय-श्रृंखला डेटा के साथ।
इस शोध को नेशनल साइंस फाउंडेशन और नेवल रिसर्च के कार्यालय द्वारा भाग में वित्त पोषित किया गया है।
(टैगस्टोट्रांसलेट) तमारा ब्रोडरिक (टी) स्थानिक भविष्यवाणी विधियाँ (टी) सत्यापन विधियाँ