फाउंडेशन मॉडल, अक्सर व्यापक पाठ और छवि डेटा पर प्रशिक्षित बड़े पैमाने पर तंत्रिका नेटवर्क, ने महत्वपूर्ण रूप से स्थानांतरित कर दिया है कि कैसे कृत्रिम बुद्धिमत्ता प्रणाली भाषा और दृष्टि कार्यों को संभालती है। इन मॉडलों को एक ही कार्य के लिए डिज़ाइन नहीं किया गया है, लेकिन उनके प्रीट्रेनिंग ज्ञान का लाभ उठाकर एक विस्तृत विविधता को सामान्य करना है। एक बार प्रशिक्षित होने के बाद, वे सुसंगत प्रतिक्रियाएं उत्पन्न कर सकते हैं, छवियों को वर्गीकृत कर सकते हैं, या नए कार्य-विशिष्ट प्रशिक्षण की आवश्यकता के बिना समस्याओं को हल कर सकते हैं। डोमेन में उनकी स्केलेबिलिटी और पुन: उपयोग उन्हें एआई विकास की आधारशिला बनाती है।
उनकी व्यापक क्षमताओं के बावजूद, एक लगातार मुद्दा यह है कि इन मॉडलों को नए, अनदेखी कार्यों के लिए कैसे अनुकूलित किया गया है। अधिकांश परिदृश्यों में, मजबूत प्रदर्शन को प्राप्त करने के लिए उन्हें दस्तकारी संकेत या लेबल किए गए उदाहरणों के साथ प्रदान करने की आवश्यकता होती है जो मॉडल को मार्गदर्शन करने के तरीके पर मार्गदर्शन करते हैं। यह प्रक्रिया, हालांकि, ओवरहेड का परिचय देती है, क्योंकि क्राफ्टिंग संकेतों में परीक्षण और त्रुटि शामिल है, और लेबल किए गए उदाहरणों को एकत्र करना महंगा और समय लेने वाला हो सकता है। इसके अलावा, वास्तविक दुनिया के अनुप्रयोगों में, इस तरह के समर्थन डेटा हमेशा आसानी से उपलब्ध नहीं हो सकते हैं, शून्य-शॉट सेटिंग्स में नींव मॉडल की प्रयोज्यता को सीमित करते हैं।
सामान्यता और कार्य-विशिष्ट प्रदर्शन के बीच इस अंतर को पाटने के लिए कई रणनीतियों का उपयोग किया गया है। इन-संदर्भ लर्निंग मॉडल को एक कार्य की नकल करने में सक्षम बनाता है, जिसमें उदाहरण के दौरान उदाहरण इनपुट-आउटपुट जोड़े को शामिल किया जाता है, जबकि ललित-ट्यूनिंग की निगरानी में लेबल किए गए डेटा का उपयोग करके मॉडल वेट को समायोजित किया जाता है। एक अन्य विधि, प्रॉम्प्ट इंजीनियरिंग में, क्राफ्टिंग संकेत शामिल हैं जो मॉडल को वांछित आउटपुट की ओर बढ़ाते हैं। हालांकि ये उपकरण प्रदर्शन को बढ़ावा देने में सफल रहे हैं, प्रत्येक बाहरी समर्थन पर निर्भर करता है – या तो मानव इनपुट या लेबल डेटा – उन्हें पूरी तरह से असुरक्षित सेटिंग्स में कम व्यवहार्य बनाता है।
स्विस फेडरल इंस्टीट्यूट ऑफ टेक्नोलॉजी लॉज़ेन (ईपीएफएल) के शोधकर्ताओं ने एक संयुक्त निष्कर्ष ढांचा पेश किया जो कि अनियंत्रित अनुकूलन का समर्थन करता है। यह ढांचा फाउंडेशन मॉडल को ग्राउंड ट्रुथ डेटा या मैनुअल प्रॉम्प्ट की आवश्यकता के बिना कई इनपुट पर समन्वित भविष्यवाणियों को करने में सक्षम बनाता है। अनुसंधान टीम ने इस ढांचे के तहत दो विशिष्ट तकनीकें प्रस्तुत कीं: अनसुनीज़ फाइन-ट्यूनिंग और अनियंत्रित इन-कॉन्टेक्स्ट लर्निंग। ये विधियाँ बाहरी मार्गदर्शन के बिना सटीकता में सुधार करने के लिए GPT-4 जैसे बंद वजन वाले मॉडल सहित मॉडल की अनुमति देती हैं।
केवल अपनी प्रतिक्रिया का उपयोग करके मॉडल को पुनरावृत्त रूप से अपनी भविष्यवाणियों में सुधार करने के द्वारा अनसुफेस्टेड फाइन-ट्यूनिंग कार्यों का दृष्टिकोण। यह एक अनुकूलन उद्देश्य तैयार करता है जहां इनपुट के एक बैच के लिए भविष्यवाणियां एक साथ उत्पन्न होती हैं, और उनकी संयुक्त संभावना अधिकतम होती है। यह विधि कुशल वजन अपडेट के लिए लोरा (कम-रैंक अनुकूलन) का उपयोग करती है और तुच्छ समाधान से बचने के लिए एक नियमितीकरण कदम का परिचय देती है, जैसे कि सभी इनपुट के लिए एक ही उत्तर की भविष्यवाणी करना। शोधकर्ताओं ने उन स्थितियों के लिए इन-कॉन्टेक्स्ट लर्निंग को अनियंत्रित रूप से विकसित किया, जहां वेट एक्सेस उपलब्ध नहीं है, जैसे कि जीपीटी -4 के साथ। यह विधि मानव एनोटेशन के बिना कई पुनरावृत्तियों पर भविष्यवाणियों को परिष्कृत करते हुए, छद्म-लेबल के रूप में पहले से उत्पन्न आउटपुट का उपयोग करके लेबल किए गए आईसीएल के प्रभाव की नकल करती है। प्रत्येक पुनरावृत्ति में पूर्व उदाहरणों पर मॉडल को कंडीशनिंग करना और एक अधिक सटीक उत्तर विकसित करना, स्व-जनित डेटा के माध्यम से एक पर्यवेक्षित सीखने वाले लूप का अनुकरण करना शामिल है।
इन असुरक्षित तरीकों से प्रदर्शन में सुधार पर्याप्त था। GSM8K डेटासेट पर, गणित के तर्क के लिए डिज़ाइन किया गया, QWEN2.5-MATH मॉडल पर लागू किए गए अनचाहे ICL ने मानक शून्य-शॉट बेसलाइन पर 39.2% पूर्ण सुधार प्राप्त किया। इसी तरह, 13 प्राकृतिक भाषा प्रसंस्करण कार्यों में परीक्षण किए गए LLAMA-3.1-8B मॉडल के लिए, अनसुनी-फाइन-ट्यूनिंग ने सटीकता में 23% औसत लाभ दिया। इसने 13 कार्यों में से 6 में पूरी तरह से पर्यवेक्षित फाइन-ट्यूनिंग के प्रदर्शन का मिलान किया। विज़न-लैंग्वेज कार्यों में, असुरक्षित आईसीएल ने भी मजबूत परिणामों का प्रदर्शन किया-फूड 101 डेटासेट पर 23% लाभ और अन्य बेंचमार्क में महत्वपूर्ण सुधार। यहां तक कि शोध ने GPT-4O, एक बंद वजन वाले मॉडल को भी बढ़ाया, जहां फ्रेमवर्क की बहुमुखी प्रतिभा को मजबूत करते हुए, इमेजनेट पर 3% सुधार देखा गया।
यह काम एक सार्थक बदलाव का खुलासा करता है कि फाउंडेशन मॉडल कैसे अनुकूलित कर सकते हैं। शोधकर्ताओं ने एक मजबूत और स्केलेबल स्व-पर्यवेक्षित रणनीति को पेश करके लेबल डेटा और मैनुअल कॉन्फ़िगरेशन पर मुख्य सीमा को सफलतापूर्वक संबोधित किया। उनका संयुक्त निष्कर्ष ढांचा एक व्यावहारिक, सामान्य दृष्टिकोण है जो बड़े पैमाने पर एआई मॉडल के लिए अनसुनी सीखने की सीमाओं को फिर से परिभाषित करता है।
चेक आउट कागज और परियोजना। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
