रचनात्मक लेखन एक डोमेन है जो विविधता और कल्पना पर पनपता है। तथ्य-आधारित या कार्य-विशिष्ट लेखन के विपरीत, जहां एक एकल सही आउटपुट मौजूद हो सकता है, रचनात्मक लेखन में एक संकेत के लिए कई मान्य प्रतिक्रियाएं शामिल हैं। कहानियां, कविताएँ और कथाएँ अनगिनत दिशाओं में शाखा कर सकती हैं, प्रत्येक शैलीगत स्वाद और अर्थ के साथ। यह अंतर्निहित खुला दिमाग क्रिएटिव राइटिंग को एआई सिस्टम के लिए एक प्रमुख चुनौती बनाता है, जिसे उपन्यास और अलग-अलग आउटपुट का उत्पादन करते हुए कथा सुसंगतता बनाए रखने की आवश्यकता होती है।
मुख्य मुद्दा यह है कि उनके प्रारंभिक प्रशिक्षण के बाद बड़े भाषा मॉडल को कैसे परिष्कृत किया जाता है। प्रशिक्षण के बाद के तरीके अक्सर उपयोगकर्ता वरीयताओं के साथ प्रतिक्रियाओं को संरेखित करके या इनाम स्कोर को अधिकतम करके गुणवत्ता में सुधार पर जोर देते हैं। हालांकि, ये समायोजन अनजाने में मॉडल को उन प्रतिक्रियाओं का उत्पादन करने का कारण बनता है जो संकेतों के समान हैं। रचनात्मक सेटिंग्स में, यह आउटपुट विविधता में ध्यान देने योग्य गिरावट की ओर जाता है। भिन्नता की कमी मॉडल की अभिव्यंजक शक्ति को सीमित करती है, जिसके परिणामस्वरूप समान कहानी या समान वाक्य निर्माण भी होते हैं, जब भी संकेत बहुत भिन्न होते हैं।
पहले के समाधानों ने डिकोडिंग विधियों या त्वरित रणनीतियों को ट्विक करके इसे संबोधित करने का प्रयास किया। शोधकर्ताओं ने यादृच्छिकता को पेश करने के लिए नमूना तापमान समायोजन, शीर्ष-के या शीर्ष-पी फ़िल्टरिंग, या पुनरावृत्त संकेत का उपयोग किया। वैकल्पिक प्रतिक्रियाओं को प्रोत्साहित करने के लिए कुछ खोज किए गए तरीके, जैसे कि बीम खोज संशोधन या आत्म-आलोचना। जबकि ये आउटपुट में विविधता लाने में मदद करते हैं, वे अक्सर एक लागत के साथ आते थे – समग्र प्रतिक्रिया गुणवत्ता, पीढ़ी के समय में वृद्धि, या टोन और व्याकरण में विसंगतियों का परिचय देते हुए। अधिक महत्वपूर्ण रूप से, उन्होंने विविध नमूनों से सीखने के लिए मॉडल की मुख्य प्रशिक्षण प्रक्रिया को नहीं अपनाया।
मिडजॉर्नी और न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं ने प्रशिक्षण के बाद के चरण के दौरान एक उपन्यास समायोजन का प्रस्ताव रखा। उन्होंने दो लोकप्रिय वरीयता-आधारित अनुकूलन तकनीकों के “विविध DPO” और “विविध ORPO” -HANDANCED संस्करणों को पेश किया। उनका नवाचार एक विचलन स्कोर को शामिल कर रहा था, यह बताते हुए कि एक प्रशिक्षण उदाहरण दूसरों से एक ही संकेत पर प्रतिक्रिया करने से कितना भिन्न होता है। वजन प्रशिक्षण हानि के लिए इस स्कोर का उपयोग करके सीखने के दौरान दुर्लभ और विविध प्रतिक्रियाओं को अधिक महत्व दिया जाता है। शोधकर्ताओं ने विशेष रूप से बड़े मॉडलों पर इन रणनीतियों को लागू किया जैसे मेटा के llama-3.1-8b और Mistral-7B लोरा के माध्यम से पैरामीटर-कुशल फाइन-ट्यूनिंग का उपयोग करते हुए।
इस दृष्टिकोण में, विचलन एक सीखने के संकेत के रूप में कार्य करता है। एक संकेत के लिए एक बेहतर और बदतर प्रतिक्रिया की प्रत्येक प्रशिक्षण जोड़ी के लिए, बेहतर प्रतिक्रिया के विचलन की गणना सिमेंटिक और स्टाइलिस्ट दोनों एम्बेडिंग दोनों का उपयोग करके की जाती है। ये एम्बेडिंग न केवल सामग्री के अंतर को मापते हैं, बल्कि प्रतिक्रियाओं के बीच शैलीगत विशिष्टता भी हैं। परिणामी स्कोर तब प्रभावित करता है कि प्रशिक्षण जोड़ी मॉडल के वजन अपडेट में कितना योगदान देती है। यह विधि इस संभावना को बढ़ाती है कि मॉडल अलग-अलग उच्च गुणवत्ता वाले आउटपुट उत्पन्न करता है। प्रशिक्षण ने 400,000 से अधिक त्वरित-प्रतिक्रिया जोड़े को रेडिट अपवोट्स के साथ गुणवत्ता संकेतों के रूप में इस्तेमाल किया और सिमेंटिक और स्टाइल विचलन को प्रभावी ढंग से संतुलित करने के लिए मिश्रण के तरीके पेश किए।
मात्रात्मक परिणामों ने प्रस्तावित विधि की सफलता का प्रदर्शन किया। सबसे अच्छा प्रदर्शन करने वाला मॉडल, LLAMA-3.1-8B विविध DPO के साथ सिमेंटिक और स्टाइल विचलन (DDPO-दोनों) का उपयोग करते हुए, GPT-4O के रूप में लगभग एक ही इनाम स्कोर हासिल किया, जबकि विविधता में इसे काफी बेहतर बनाया। विशेष रूप से, मॉडल में सिमेंटिक विविधता थी जो मानव-तैयार किए गए संदर्भ डेटासेट और शैली की विविधता से थोड़ा नीचे थी। हेड-टू-हेड मानव मूल्यांकन में, 68% समीक्षकों ने गुणवत्ता के लिए GPT-4O पर DDPO-BOTH के आउटपुट को प्राथमिकता दी, और 100% ने उन्हें अधिक विविध के रूप में चुना। बेसलाइन डीपीओ की तुलना में, डीडीपीओ-दोनों अभी भी आगे आए, गुणवत्ता के लिए समय का 50% और विविधता के लिए 62% चुना। जब प्रशिक्षण के दौरान प्रति संकेत कम प्रतिक्रियाएं उपलब्ध थीं, तो इनाम स्कोर में मामूली बूंदों को न्यूनतम विचलन सीमा का उपयोग करके कम किया गया था या उच्च-गुणवत्ता वाली प्रतिक्रियाओं का नमूना लिया गया था।
इस शोध ने एआई-जनित रचनात्मक लेखन में विविधता-गुणवत्ता वाले व्यापार-बंद के लिए एक सम्मोहक समाधान पर प्रकाश डाला। प्रशिक्षण में विचलन पर जोर देकर, शोधकर्ताओं ने मॉडल को सुसंगतता से समझौता किए बिना विशिष्टता को महत्व देने में सक्षम बनाया। परिणाम एक मॉडल है जो रचनात्मक एआई विकास में एक सार्थक कदम को चिह्नित करता है, जो समृद्ध और अधिक विविध कहानी को वितरित करता है।
चेक आउट कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।