यह AI पेपर विविध DPO और ORPO का परिचय देता है: LLM के साथ रचनात्मक लेखन में आउटपुट विविधता को बढ़ावा देने के लिए प्रशिक्षण के बाद के तरीके – Gadgets Solutions

रचनात्मक लेखन एक डोमेन है जो विविधता और कल्पना पर पनपता है। तथ्य-आधारित या कार्य-विशिष्ट लेखन के विपरीत, जहां एक एकल सही आउटपुट मौजूद हो सकता है, रचनात्मक लेखन में एक संकेत के लिए कई मान्य प्रतिक्रियाएं शामिल हैं। कहानियां, कविताएँ और कथाएँ अनगिनत दिशाओं में शाखा कर सकती हैं, प्रत्येक शैलीगत स्वाद और अर्थ के साथ। यह अंतर्निहित खुला दिमाग क्रिएटिव राइटिंग को एआई सिस्टम के लिए एक प्रमुख चुनौती बनाता है, जिसे उपन्यास और अलग-अलग आउटपुट का उत्पादन करते हुए कथा सुसंगतता बनाए रखने की आवश्यकता होती है।

मुख्य मुद्दा यह है कि उनके प्रारंभिक प्रशिक्षण के बाद बड़े भाषा मॉडल को कैसे परिष्कृत किया जाता है। प्रशिक्षण के बाद के तरीके अक्सर उपयोगकर्ता वरीयताओं के साथ प्रतिक्रियाओं को संरेखित करके या इनाम स्कोर को अधिकतम करके गुणवत्ता में सुधार पर जोर देते हैं। हालांकि, ये समायोजन अनजाने में मॉडल को उन प्रतिक्रियाओं का उत्पादन करने का कारण बनता है जो संकेतों के समान हैं। रचनात्मक सेटिंग्स में, यह आउटपुट विविधता में ध्यान देने योग्य गिरावट की ओर जाता है। भिन्नता की कमी मॉडल की अभिव्यंजक शक्ति को सीमित करती है, जिसके परिणामस्वरूप समान कहानी या समान वाक्य निर्माण भी होते हैं, जब भी संकेत बहुत भिन्न होते हैं।

यह AI पेपर विविध DPO और ORPO का परिचय देता है: LLM के साथ रचनात्मक लेखन में आउटपुट विविधता को बढ़ावा देने के लिए प्रशिक्षण के बाद के तरीके
– Gadgets Solutions

पहले के समाधानों ने डिकोडिंग विधियों या त्वरित रणनीतियों को ट्विक करके इसे संबोधित करने का प्रयास किया। शोधकर्ताओं ने यादृच्छिकता को पेश करने के लिए नमूना तापमान समायोजन, शीर्ष-के या शीर्ष-पी फ़िल्टरिंग, या पुनरावृत्त संकेत का उपयोग किया। वैकल्पिक प्रतिक्रियाओं को प्रोत्साहित करने के लिए कुछ खोज किए गए तरीके, जैसे कि बीम खोज संशोधन या आत्म-आलोचना। जबकि ये आउटपुट में विविधता लाने में मदद करते हैं, वे अक्सर एक लागत के साथ आते थे – समग्र प्रतिक्रिया गुणवत्ता, पीढ़ी के समय में वृद्धि, या टोन और व्याकरण में विसंगतियों का परिचय देते हुए। अधिक महत्वपूर्ण रूप से, उन्होंने विविध नमूनों से सीखने के लिए मॉडल की मुख्य प्रशिक्षण प्रक्रिया को नहीं अपनाया।

मिडजॉर्नी और न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं ने प्रशिक्षण के बाद के चरण के दौरान एक उपन्यास समायोजन का प्रस्ताव रखा। उन्होंने दो लोकप्रिय वरीयता-आधारित अनुकूलन तकनीकों के “विविध DPO” और “विविध ORPO” -HANDANCED संस्करणों को पेश किया। उनका नवाचार एक विचलन स्कोर को शामिल कर रहा था, यह बताते हुए कि एक प्रशिक्षण उदाहरण दूसरों से एक ही संकेत पर प्रतिक्रिया करने से कितना भिन्न होता है। वजन प्रशिक्षण हानि के लिए इस स्कोर का उपयोग करके सीखने के दौरान दुर्लभ और विविध प्रतिक्रियाओं को अधिक महत्व दिया जाता है। शोधकर्ताओं ने विशेष रूप से बड़े मॉडलों पर इन रणनीतियों को लागू किया जैसे मेटा के llama-3.1-8b और Mistral-7B लोरा के माध्यम से पैरामीटर-कुशल फाइन-ट्यूनिंग का उपयोग करते हुए।

इस दृष्टिकोण में, विचलन एक सीखने के संकेत के रूप में कार्य करता है। एक संकेत के लिए एक बेहतर और बदतर प्रतिक्रिया की प्रत्येक प्रशिक्षण जोड़ी के लिए, बेहतर प्रतिक्रिया के विचलन की गणना सिमेंटिक और स्टाइलिस्ट दोनों एम्बेडिंग दोनों का उपयोग करके की जाती है। ये एम्बेडिंग न केवल सामग्री के अंतर को मापते हैं, बल्कि प्रतिक्रियाओं के बीच शैलीगत विशिष्टता भी हैं। परिणामी स्कोर तब प्रभावित करता है कि प्रशिक्षण जोड़ी मॉडल के वजन अपडेट में कितना योगदान देती है। यह विधि इस संभावना को बढ़ाती है कि मॉडल अलग-अलग उच्च गुणवत्ता वाले आउटपुट उत्पन्न करता है। प्रशिक्षण ने 400,000 से अधिक त्वरित-प्रतिक्रिया जोड़े को रेडिट अपवोट्स के साथ गुणवत्ता संकेतों के रूप में इस्तेमाल किया और सिमेंटिक और स्टाइल विचलन को प्रभावी ढंग से संतुलित करने के लिए मिश्रण के तरीके पेश किए।

मात्रात्मक परिणामों ने प्रस्तावित विधि की सफलता का प्रदर्शन किया। सबसे अच्छा प्रदर्शन करने वाला मॉडल, LLAMA-3.1-8B विविध DPO के साथ सिमेंटिक और स्टाइल विचलन (DDPO-दोनों) का उपयोग करते हुए, GPT-4O के रूप में लगभग एक ही इनाम स्कोर हासिल किया, जबकि विविधता में इसे काफी बेहतर बनाया। विशेष रूप से, मॉडल में सिमेंटिक विविधता थी जो मानव-तैयार किए गए संदर्भ डेटासेट और शैली की विविधता से थोड़ा नीचे थी। हेड-टू-हेड मानव मूल्यांकन में, 68% समीक्षकों ने गुणवत्ता के लिए GPT-4O पर DDPO-BOTH के आउटपुट को प्राथमिकता दी, और 100% ने उन्हें अधिक विविध के रूप में चुना। बेसलाइन डीपीओ की तुलना में, डीडीपीओ-दोनों अभी भी आगे आए, गुणवत्ता के लिए समय का 50% और विविधता के लिए 62% चुना। जब प्रशिक्षण के दौरान प्रति संकेत कम प्रतिक्रियाएं उपलब्ध थीं, तो इनाम स्कोर में मामूली बूंदों को न्यूनतम विचलन सीमा का उपयोग करके कम किया गया था या उच्च-गुणवत्ता वाली प्रतिक्रियाओं का नमूना लिया गया था।

इस शोध ने एआई-जनित रचनात्मक लेखन में विविधता-गुणवत्ता वाले व्यापार-बंद के लिए एक सम्मोहक समाधान पर प्रकाश डाला। प्रशिक्षण में विचलन पर जोर देकर, शोधकर्ताओं ने मॉडल को सुसंगतता से समझौता किए बिना विशिष्टता को महत्व देने में सक्षम बनाया। परिणाम एक मॉडल है जो रचनात्मक एआई विकास में एक सार्थक कदम को चिह्नित करता है, जो समृद्ध और अधिक विविध कहानी को वितरित करता है।

चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US