भाषा मॉडल में सहयोग की समस्या पर पुनर्विचार करना
बड़े भाषा मॉडल (एलएलएम) ने एकल-एजेंट कार्यों में उल्लेखनीय क्षमताओं का प्रदर्शन किया है जैसे कि प्रश्न उत्तर और संरचित तर्क। हालांकि, सहयोगात्मक रूप से तर्क करने की क्षमता – जहां कई एजेंट बातचीत करते हैं, असहमत हैं, और समाधानों पर संरेखित करते हैं – अविकसित हैं। बातचीत का यह रूप कई मानवीय कार्यों के लिए केंद्रीय है, अकादमिक सहयोग से लेकर पेशेवर संदर्भों में निर्णय लेने तक। फिर भी, अधिकांश एलएलएम प्रशिक्षण पाइपलाइनों और बेंचमार्क अलग-थलग, एकल-टर्न आउटपुट पर ध्यान केंद्रित करते हैं, जो समस्या-समाधान के सामाजिक आयामों जैसे मुखरता, परिप्रेक्ष्य लेने और अनुनय के सामाजिक आयामों की अनदेखी करते हैं। सहयोगी क्षमताओं को आगे बढ़ाने में एक प्राथमिक चुनौती है कि स्केलेबल, उच्च गुणवत्ता वाले बहु-टर्न संवाद डेटासेट की कमी के कार्यों के लिए डिज़ाइन किया गया है।
मेटा एआई सहयोगी कारण का परिचय देता है: एक मल्टी-एजेंट मूल्यांकन और प्रशिक्षण ढांचा
इस सीमा को संबोधित करने के लिए, मेटा एआई परिचय देता है सहयोगी कारण (कोरल)-एक फ्रेमवर्क विशेष रूप से एलएलएमएस में सहयोगी तर्क कौशल का मूल्यांकन और बढ़ाने के लिए डिज़ाइन किया गया है। कोरल मल्टी-एजेंट, मल्टी-टर्न कार्यों में पारंपरिक तर्क समस्याओं को सुधारता है, जहां दो एजेंटों को न केवल एक समस्या को हल करना चाहिए, बल्कि प्राकृतिक बातचीत के माध्यम से आम सहमति तक पहुंचना चाहिए। ये इंटरैक्शन वास्तविक दुनिया की सामाजिक गतिशीलता का अनुकरण करते हैं, एजेंटों को गलत निष्कर्षों को चुनौती देने, परस्पर विरोधी दृष्टिकोण पर बातचीत करने और संयुक्त निर्णयों पर पहुंचने की आवश्यकता होती है।
फ्रेमवर्क पांच डोमेन, जिसमें गणित (गणित), स्टेम मल्टीपल-चॉइस (MMLU-PRO, GPQA), और सोशल कॉग्निशन (Exploretom, Hitom) शामिल हैं। ये कार्य यह मूल्यांकन करने के लिए टेस्टबेड के रूप में काम करते हैं कि क्या मॉडल एक सहकारी, संवाद-संचालित संदर्भ में अपनी तर्क क्षमताओं को लागू कर सकते हैं।

कार्यप्रणाली: सिंथेटिक सहयोग और बुनियादी ढांचा समर्थन
कोरल मल्टी-एजेंट सेटिंग्स के अनुरूप नए मूल्यांकन मेट्रिक्स को परिभाषित करता है। बातचीत के स्तर पर, समझौता शुद्धता उपाय कि क्या एजेंट सही समाधान पर परिवर्तित होते हैं। बारी स्तर पर, सामाजिक व्यवहार जैसे विद्या (दूसरे एजेंट को प्रभावित करने की क्षमता) और मुखरता (किसी की स्थिति को बनाए रखने की क्षमता) स्पष्ट रूप से मात्रा निर्धारित की जाती है।
डेटा अड़चन को संबोधित करने के लिए, मेटा एआई प्रस्तावित करता है आत्मनिर्णय दृष्टिकोणजहां एक एकल एलएलएम एक बातचीत में दोनों भूमिकाएँ निभाता है। इन सिंथेटिक वार्तालापों का उपयोग पाइपलाइन के माध्यम से प्रशिक्षण डेटा उत्पन्न करने के लिए किया जाता है ट्री सैंपलिंग, विश्वास फ़िल्टरिंगऔर वरीयता ठीक ट्यूनिंग का उपयोग करते हुए प्रत्यक्ष वरीयता अनुकूलन।
पैमाने पर डेटा जनरेशन का समर्थन करने के लिए, मेटा परिचय देता है मैट्रिक्सएक उच्च-प्रदर्शन सेवारत ढांचा। मैट्रिक्स विभिन्न प्रकार के बैकेंड का समर्थन करता है, कुशल नेटवर्किंग के लिए जीआरपीसी को नियुक्त करता है, और बड़े पैमाने पर ऑर्केस्ट्रेशन के लिए स्लरम और किरण के साथ एकीकृत करता है। अनुभवजन्य तुलना बताती है कि मैट्रिक्स चेहरे के एलएलएम-घुलने की तरह तुलनीय प्रणालियों की तुलना में 1.87x उच्च थ्रूपुट तक प्राप्त करता है, जिससे यह उच्च-मात्रा वाले संवादी प्रशिक्षण के लिए उपयुक्त हो जाता है।
अनुभवजन्य परिणाम: प्रदर्शन लाभ और सामान्यीकरण
पांच बेंचमार्क में मूल्यांकन से पता चलता है कि सहयोग, जब ठीक से मॉडलिंग और प्रशिक्षित किया जाता है, तो औसत दर्जे का लाभ प्राप्त करता है। फाइन-ट्यून्ड कोरल मॉडल काफी बेहतर बेसलाइन सिंगल-एगेंट चेन-ऑफ-थॉ पर (COT) दृष्टिकोणों से बेहतर प्रदर्शन करते हैं। उदाहरण के लिए, llama-3.1-8b-instruct दिखाता है 47.8% सुधार कोरल+डीपीओ प्रशिक्षण के बाद एक्सप्लोरटॉम पर। LLAMA-3.1-70B मॉडल मूंगा पर ठीक-ठाक-ट्यून्ड GPT-4O और O1 को प्रमुख सहयोगी तर्क कार्यों जैसे कि MMLU-PRO और EXPLORETOM पर पार करता है।
विशेष रूप से, कोरल प्रदर्शनी के माध्यम से प्रशिक्षित मॉडल बेहतर सामान्यीकरण में सुधार करते हैं। जब अनदेखी कार्यों (जैसे, GPQA और Hitom) पर परीक्षण किया जाता है, तो मूंगा प्रशिक्षित मॉडल लगातार लाभ का प्रदर्शन करते हैं-यह बताते हुए कि सीखा सहयोगी व्यवहार डोमेन में स्थानांतरित कर सकते हैं।
सुधारों के बावजूद, कोरल-प्रशिक्षित मॉडल अभी भी जटिल गणितीय समस्याओं (जैसे, गणित) पर खाट-प्रशिक्षित बेसलाइन को कम करते हैं, यह सुझाव देते हैं कि अकेले सहयोग गहरे प्रतीकात्मक तर्क की आवश्यकता वाले डोमेन में पर्याप्त नहीं हो सकता है।

निष्कर्ष: सामान्य सामाजिक तर्क एजेंटों की ओर
सहयोगी तर्क भाषा मॉडल में बहु-एजेंट तर्क का मूल्यांकन और सुधार करने के लिए एक संरचित और स्केलेबल मार्ग प्रदान करता है। सिंथेटिक आत्म-डायलॉग और लक्षित सामाजिक मैट्रिक्स के माध्यम से, मेटा एआई प्रभावी सहयोग में सक्षम एलएलएम की खेती के लिए एक उपन्यास दृष्टिकोण प्रस्तुत करता है। मैट्रिक्स इन्फ्रास्ट्रक्चर के साथ मूंगा का एकीकरण आगे प्रजनन योग्य और बड़े पैमाने पर प्रयोग को सक्षम बनाता है।
चूंकि LLMS मानव वर्कफ़्लोज़ में तेजी से एम्बेडेड हो जाता है, इसलिए सहयोग करने की क्षमता – केवल प्रदर्शन के बजाय – एक परिभाषित क्षमता होने की संभावना है। कोरल उस दिशा की ओर एक कदम है, जो जटिल, बहु-एजेंट वातावरण को नेविगेट करने में सक्षम सामाजिक एजेंटों पर भविष्य के अनुसंधान के लिए एक नींव पेश करता है।
यह रहा कागज़, सहयोगी कारण कोड डाउनलोड करें और मैट्रिक्स कोड डाउनलोड करें। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
