Monday, April 21, 2025

यह AI पेपर विविध DPO और ORPO का परिचय देता है: LLM के साथ रचनात्मक लेखन में आउटपुट विविधता को बढ़ावा देने के लिए प्रशिक्षण के बाद के तरीके – Gadgets Solutions

-

रचनात्मक लेखन एक डोमेन है जो विविधता और कल्पना पर पनपता है। तथ्य-आधारित या कार्य-विशिष्ट लेखन के विपरीत, जहां एक एकल सही आउटपुट मौजूद हो सकता है, रचनात्मक लेखन में एक संकेत के लिए कई मान्य प्रतिक्रियाएं शामिल हैं। कहानियां, कविताएँ और कथाएँ अनगिनत दिशाओं में शाखा कर सकती हैं, प्रत्येक शैलीगत स्वाद और अर्थ के साथ। यह अंतर्निहित खुला दिमाग क्रिएटिव राइटिंग को एआई सिस्टम के लिए एक प्रमुख चुनौती बनाता है, जिसे उपन्यास और अलग-अलग आउटपुट का उत्पादन करते हुए कथा सुसंगतता बनाए रखने की आवश्यकता होती है।

मुख्य मुद्दा यह है कि उनके प्रारंभिक प्रशिक्षण के बाद बड़े भाषा मॉडल को कैसे परिष्कृत किया जाता है। प्रशिक्षण के बाद के तरीके अक्सर उपयोगकर्ता वरीयताओं के साथ प्रतिक्रियाओं को संरेखित करके या इनाम स्कोर को अधिकतम करके गुणवत्ता में सुधार पर जोर देते हैं। हालांकि, ये समायोजन अनजाने में मॉडल को उन प्रतिक्रियाओं का उत्पादन करने का कारण बनता है जो संकेतों के समान हैं। रचनात्मक सेटिंग्स में, यह आउटपुट विविधता में ध्यान देने योग्य गिरावट की ओर जाता है। भिन्नता की कमी मॉडल की अभिव्यंजक शक्ति को सीमित करती है, जिसके परिणामस्वरूप समान कहानी या समान वाक्य निर्माण भी होते हैं, जब भी संकेत बहुत भिन्न होते हैं।

यह AI पेपर विविध DPO और ORPO का परिचय देता है: LLM के साथ रचनात्मक लेखन में आउटपुट विविधता को बढ़ावा देने के लिए प्रशिक्षण के बाद के तरीके
 – Gadgets Solutions

पहले के समाधानों ने डिकोडिंग विधियों या त्वरित रणनीतियों को ट्विक करके इसे संबोधित करने का प्रयास किया। शोधकर्ताओं ने यादृच्छिकता को पेश करने के लिए नमूना तापमान समायोजन, शीर्ष-के या शीर्ष-पी फ़िल्टरिंग, या पुनरावृत्त संकेत का उपयोग किया। वैकल्पिक प्रतिक्रियाओं को प्रोत्साहित करने के लिए कुछ खोज किए गए तरीके, जैसे कि बीम खोज संशोधन या आत्म-आलोचना। जबकि ये आउटपुट में विविधता लाने में मदद करते हैं, वे अक्सर एक लागत के साथ आते थे – समग्र प्रतिक्रिया गुणवत्ता, पीढ़ी के समय में वृद्धि, या टोन और व्याकरण में विसंगतियों का परिचय देते हुए। अधिक महत्वपूर्ण रूप से, उन्होंने विविध नमूनों से सीखने के लिए मॉडल की मुख्य प्रशिक्षण प्रक्रिया को नहीं अपनाया।

मिडजॉर्नी और न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं ने प्रशिक्षण के बाद के चरण के दौरान एक उपन्यास समायोजन का प्रस्ताव रखा। उन्होंने दो लोकप्रिय वरीयता-आधारित अनुकूलन तकनीकों के “विविध DPO” और “विविध ORPO” -HANDANCED संस्करणों को पेश किया। उनका नवाचार एक विचलन स्कोर को शामिल कर रहा था, यह बताते हुए कि एक प्रशिक्षण उदाहरण दूसरों से एक ही संकेत पर प्रतिक्रिया करने से कितना भिन्न होता है। वजन प्रशिक्षण हानि के लिए इस स्कोर का उपयोग करके सीखने के दौरान दुर्लभ और विविध प्रतिक्रियाओं को अधिक महत्व दिया जाता है। शोधकर्ताओं ने विशेष रूप से बड़े मॉडलों पर इन रणनीतियों को लागू किया जैसे मेटा के llama-3.1-8b और Mistral-7B लोरा के माध्यम से पैरामीटर-कुशल फाइन-ट्यूनिंग का उपयोग करते हुए।

इस दृष्टिकोण में, विचलन एक सीखने के संकेत के रूप में कार्य करता है। एक संकेत के लिए एक बेहतर और बदतर प्रतिक्रिया की प्रत्येक प्रशिक्षण जोड़ी के लिए, बेहतर प्रतिक्रिया के विचलन की गणना सिमेंटिक और स्टाइलिस्ट दोनों एम्बेडिंग दोनों का उपयोग करके की जाती है। ये एम्बेडिंग न केवल सामग्री के अंतर को मापते हैं, बल्कि प्रतिक्रियाओं के बीच शैलीगत विशिष्टता भी हैं। परिणामी स्कोर तब प्रभावित करता है कि प्रशिक्षण जोड़ी मॉडल के वजन अपडेट में कितना योगदान देती है। यह विधि इस संभावना को बढ़ाती है कि मॉडल अलग-अलग उच्च गुणवत्ता वाले आउटपुट उत्पन्न करता है। प्रशिक्षण ने 400,000 से अधिक त्वरित-प्रतिक्रिया जोड़े को रेडिट अपवोट्स के साथ गुणवत्ता संकेतों के रूप में इस्तेमाल किया और सिमेंटिक और स्टाइल विचलन को प्रभावी ढंग से संतुलित करने के लिए मिश्रण के तरीके पेश किए।

मात्रात्मक परिणामों ने प्रस्तावित विधि की सफलता का प्रदर्शन किया। सबसे अच्छा प्रदर्शन करने वाला मॉडल, LLAMA-3.1-8B विविध DPO के साथ सिमेंटिक और स्टाइल विचलन (DDPO-दोनों) का उपयोग करते हुए, GPT-4O के रूप में लगभग एक ही इनाम स्कोर हासिल किया, जबकि विविधता में इसे काफी बेहतर बनाया। विशेष रूप से, मॉडल में सिमेंटिक विविधता थी जो मानव-तैयार किए गए संदर्भ डेटासेट और शैली की विविधता से थोड़ा नीचे थी। हेड-टू-हेड मानव मूल्यांकन में, 68% समीक्षकों ने गुणवत्ता के लिए GPT-4O पर DDPO-BOTH के आउटपुट को प्राथमिकता दी, और 100% ने उन्हें अधिक विविध के रूप में चुना। बेसलाइन डीपीओ की तुलना में, डीडीपीओ-दोनों अभी भी आगे आए, गुणवत्ता के लिए समय का 50% और विविधता के लिए 62% चुना। जब प्रशिक्षण के दौरान प्रति संकेत कम प्रतिक्रियाएं उपलब्ध थीं, तो इनाम स्कोर में मामूली बूंदों को न्यूनतम विचलन सीमा का उपयोग करके कम किया गया था या उच्च-गुणवत्ता वाली प्रतिक्रियाओं का नमूना लिया गया था।

इस शोध ने एआई-जनित रचनात्मक लेखन में विविधता-गुणवत्ता वाले व्यापार-बंद के लिए एक सम्मोहक समाधान पर प्रकाश डाला। प्रशिक्षण में विचलन पर जोर देकर, शोधकर्ताओं ने मॉडल को सुसंगतता से समझौता किए बिना विशिष्टता को महत्व देने में सक्षम बनाया। परिणाम एक मॉडल है जो रचनात्मक एआई विकास में एक सार्थक कदम को चिह्नित करता है, जो समृद्ध और अधिक विविध कहानी को वितरित करता है।


चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »