यह एआई पेपर कोलमोगोरोव-टेस्ट का परिचय देता है: कोड-जनरेटिंग भाषा मॉडल के मूल्यांकन के लिए एक संपीड़न-जैसा-बुद्धिमान बेंचमार्क – Gadgets Solutions

संपीड़न कम्प्यूटेशनल इंटेलिजेंस की एक आधारशिला है, जो कोलमोगोरोव जटिलता के सिद्धांत में गहराई से निहित है, जो किसी दिए गए अनुक्रम को पुन: पेश करने के लिए आवश्यक न्यूनतम कार्यक्रम को परिभाषित करता है। पारंपरिक संपीड़न विधियों के विपरीत, जो पुनरावृत्ति और अतिरेक की तलाश करते हैं, कोलमोगोरोव का फ्रेमवर्क प्रोग्रामेटिक प्रतिनिधित्व के माध्यम से संरचित पैटर्न की खोज की समस्या के रूप में संपीड़न की व्याख्या करता है। जबकि सिद्धांत इष्टतम संपीड़न का वादा करता है, इसकी असमानता एक महत्वपूर्ण बाधा है। फिर भी, कोड जनरेशन में सक्षम बड़े भाषा मॉडल का उद्भव यह परीक्षण करने के लिए एक पेचीदा अवसर खोलता है कि पैटर्न मिलान के बजाय कोड के माध्यम से तर्क द्वारा आधुनिक सिस्टम इस सैद्धांतिक आदर्श को कैसे निकटता से अनुमानित कर सकते हैं।

एक मुख्य मुद्दा संक्षिप्त, निष्पादन योग्य कोड का उपयोग करके डेटा अनुक्रमों को संपीड़ित करने में वर्तमान उपकरणों की सीमाओं से उत्पन्न होता है। मॉडल अक्सर ऐसे कार्यक्रम उत्पन्न करने के बजाय इनपुट को दोहराते हैं जो उन्हें पुन: पेश करते हैं, जो सही पैटर्न समझ में एक अंतर का संकेत देते हैं। यह वास्तविक दुनिया के ऑडियो, पाठ या डीएनए अनुक्रमों से निपटने के दौरान विशेष रूप से स्पष्ट हो जाता है, जहां कुशल संपीड़न को प्राप्त करने के लिए जटिल तार्किक संरचनाओं को उजागर किया जाना चाहिए। मुख्य चुनौती यह सुनिश्चित कर रही है कि मॉडल अनुक्रम को दोहराता है और निर्देशों के न्यूनतम और तर्कसंगत सेट का उपयोग करता है। इसके अलावा, हालांकि सिंथेटिक प्रशिक्षण डेटा नियंत्रित मूल्यांकन के लिए उपयोगी है, यह अक्सर प्राकृतिक डेटा के लिए मजबूत सामान्यीकरण का समर्थन करने में विफल रहता है, जो व्यावहारिक अनुप्रयोगों के लिए आवश्यक है।

यह एआई पेपर कोलमोगोरोव-टेस्ट का परिचय देता है: कोड-जनरेटिंग भाषा मॉडल के मूल्यांकन के लिए एक संपीड़न-जैसा-बुद्धिमान बेंचमार्क
– Gadgets Solutions

कई संपीड़न उपकरण मौजूद हैं, पारंपरिक एल्गोरिदम से लेकर GZIP जैसे नए तंत्रिका संपीड़न सिस्टम तक। GZIP सांख्यिकीय नियमितताओं के प्रभावी एन्कोडिंग के कारण, विशेष रूप से लंबे या दोहराए जाने वाले अनुक्रमों के लिए एक मजबूत आधार रेखा बना हुआ है। हाल ही में, भाषा मॉडलिंग दृष्टिकोणों ने इनपुट डेटा को संपीड़ित करने के लिए भविष्यवाणी संभावनाओं का उपयोग करते हुए, अंकगणित कोडिंग के साथ एकीकृत किया है। हालांकि, इन तरीकों को आमतौर पर डिकोडिंग समय पर पूर्ण मॉडल वेट तक पहुंच की आवश्यकता होती है, उनकी दक्षता और प्रयोज्यता को सीमित किया जाता है। GPT-4 और Llama जैसे कोड-जनरेटिंग मॉडल को भी इनपुट अनुक्रमों को पुन: पेश करने वाले पायथन कार्यक्रमों को उत्पन्न करने के लिए शून्य-शॉट सेटिंग्स में मूल्यांकन किया गया है। फिर भी, वे अक्सर सीमित सफलता के साथ लंबा, अभेद्य कोड का उत्पादन करते हैं, खासकर जब अनदेखी या जटिल अनुक्रमों के साथ सामना किया जाता है।

मेटा एआई और तेल अवीव विश्वविद्यालय के शोधकर्ताओं ने कोड-जनरेटिंग भाषा मॉडल की तर्क क्षमता का आकलन करने के लिए एक बेंचमार्क कोलमोगोरोव-टेस्ट (केटी) की शुरुआत की। परीक्षण किसी दिए गए इनपुट अनुक्रम को आउटपुट करने वाले सबसे छोटे कार्यक्रम को उत्पन्न करने के लिए एक मॉडल की क्षमता का मूल्यांकन करता है। विशिष्ट बेंचमार्क के विपरीत, केटी भविष्य कहनेवाला पाठ मॉडलिंग पर तार्किक रचना और कार्यक्रम उत्पादन पर जोर देता है। अनुक्रमों में ऑडियो (Librispeech), पाठ (विकिपीडिया Enwik9), और DNA (GRCH38) के प्राकृतिक डेटा शामिल हैं, साथ ही एक कस्टम-डिज़ाइन किए गए डोमेन-विशिष्ट भाषा (DSL) के माध्यम से उत्पन्न सिंथेटिक अनुक्रम भी शामिल हैं। यह DSL रेंज क्रिएशन, अनुक्रम संशोधन, विलय और फ़िल्टरिंग जैसे संचालन की रचना करके निर्माण अनुक्रमों का समर्थन करता है।

शोधकर्ताओं ने इस डीएसएल का उपयोग करके लाखों सिंथेटिक प्रोग्राम-अनुक्रम जोड़े उत्पन्न करने के लिए एक स्वचालित रूपरेखा विकसित की। ये कार्यक्रम तब बड़े पैमाने पर प्रशिक्षित और विशेष रूप से प्रशिक्षित लोगों जैसे सेकोडर जैसे मॉडल को प्रशिक्षित और मूल्यांकन करते हैं। प्रदर्शन को मापने के लिए, टीम ने सटीकता जैसे मैट्रिक्स को नियोजित किया – चाहे उत्पन्न कार्यक्रम अनुक्रम को पुन: पेश करता है – और सटीक – कैसे संक्षिप्त कार्यक्रम को GZIP संपीड़न की तुलना में किया जाता है। परीक्षण में अलग -अलग लंबाई के संकुचित अनुक्रम शामिल थे, जिसमें सिंथेटिक अनुक्रम औसतन 76 बाइट्स और वास्तविक अनुक्रम 128 पर कैप किए गए थे।

परिणामों से पता चला कि यहां तक कि सबसे शक्तिशाली मॉडल भी संघर्ष करते हैं। GPT-4 ने उच्च गुणवत्ता वाले ऑडियो पर 69.5% सटीकता हासिल की, लेकिन 8-बिट ऑडियो के लिए 36.4% और डीएनए डेटा के लिए 50.3% तक गिर गया। LLAMA-3.1-405B ने बदतर प्रदर्शन किया, जिसमें ऑडियो के लिए 3.9% और डीएनए के लिए केवल 24.8% कम सटीकता थी। सिंथेटिक डेटा में, Seqcoder-8b 0.56 के सटीक स्कोर के साथ 92.5% सटीकता तक पहुंच गया, जो GZIP जैसे पारंपरिक उपकरणों से बेहतर प्रदर्शन करता है। हालांकि, वास्तविक दुनिया के आंकड़ों पर इसकी सटीकता शून्य के पास रही। यह विसंगति सिंथेटिक बेंचमार्क से सफलता को और अधिक विविध और शोर वास्तविक दुनिया अनुक्रमों में स्थानांतरित करने में कठिनाई को दर्शाती है, वर्तमान प्रशिक्षण शासनों की सीमाओं को उजागर करती है और नई रणनीतियों की आवश्यकता को बढ़ाती है।

कुल मिलाकर, यह शोध स्पष्ट रूप से कोड जनरेशन के माध्यम से संपीड़न की जटिलता को रेखांकित करता है। केटी बेंचमार्क एक कठोर और विविध मॉडल तर्क और संरचना मान्यता परीक्षण प्रदान करता है, जो सिंथेटिक सीखने के वातावरण और वास्तविक दुनिया के अनुप्रयोगों के बीच स्टार्क विभाजन को उजागर करता है। शुरू की गई कार्यप्रणाली और परीक्षण ने भविष्य के मॉडल के लिए एक उच्च बार सेट किया, जो संपीड़न के साथ तर्क को एकजुट करने के उद्देश्य से है, लेकिन इस चुनौती को पूरा करने के लिए अभी भी महत्वपूर्ण नवाचार की आवश्यकता है।

चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US