एआई एजेंट जटिल मानव इंटरैक्शन को संभालने में जल्दी से मुख्य घटक बन जाते हैं, विशेष रूप से व्यावसायिक वातावरण में जहां वार्तालाप कई मोड़ों में फैलता है और विशिष्ट प्रक्रियात्मक नियमों के लिए कार्य निष्पादन, सूचना निष्कर्षण और पालन को शामिल करता है। एकल-टर्न प्रश्नों को संभालने वाले पारंपरिक चैटबॉट्स के विपरीत, इन एजेंटों को बाहरी डेटा और टूल उपयोग को एकीकृत करते हुए कई संवाद एक्सचेंजों पर संदर्भ रखना चाहिए। ये चुनौतियां उपयोगकर्ता लक्ष्यों को बढ़ाने, फीडबैक लूप में संलग्न होने और वार्तालाप राज्य के आधार पर एपीआई कॉल जैसे संरचित कार्यों को लागू करने में सक्षम सिस्टम की मांग करती हैं। ये क्षमताएं प्रशिक्षण डेटासेट की उपलब्धता पर बहुत अधिक निर्भर करती हैं जो इस तरह के कार्यों की प्राकृतिक जटिलता और अनुक्रम को दर्शाती हैं। चूंकि इन एआई एजेंटों को डोमेन-विशिष्ट बाधाओं के तहत काम करने और वित्त, खुदरा और ग्राहक सहायता में कार्य-प्रासंगिक कार्यों को निष्पादित करने की उम्मीद है, इसलिए बारीक और सत्यापित प्रशिक्षण डेटा की मांग काफी बढ़ जाती है।
स्केलिंग एजेंट क्षमता में केंद्रीय अड़चन उच्च गुणवत्ता वाले, बहु-टर्न डेटासेट की कमी है जो यथार्थवादी उपयोगकर्ता इंटरैक्शन को दर्शाता है। इस तरह के डेटा को मैन्युअल रूप से एकत्र करना धीमा और महंगा है और वास्तविक उपयोग के मामलों का प्रतिनिधित्व करने वाले कार्यों के निर्माण के लिए डोमेन ज्ञान की आवश्यकता होती है। इसके अलावा, यहां तक कि अग्रणी भाषा मॉडल वार्तालापों में अंडरपरफॉर्म करते हैं, जिन्हें पूर्व संदर्भ में ट्रैकिंग की आवश्यकता होती है, उपकरणों का सटीक रूप से उपयोग किया जाता है, या गतिशील रूप से उनकी रणनीति को समायोजित किया जाता है। इन चुनौतियों को दर्शाने वाले संरचित प्रशिक्षण डेटासेट के बिना, मॉडल निष्पादन में त्रुटियों के लिए प्रवण हैं और मोड़ पर लक्ष्य संरेखण को बनाए रखने के साथ संघर्ष करते हैं। ये सीमाएँ उन परिदृश्यों में अधिक स्पष्ट हो जाती हैं जिनमें टूल उपयोग शामिल होता है, जैसे कि फ़ंक्शन कॉल को निष्पादित करना, बाहरी डेटा को पुनः प्राप्त करना, या सूचना विनिमय के कई चरणों के साथ सेवा अनुरोधों को पूरा करना।
विभिन्न रूपरेखाओं ने सिंथेटिक डेटा जनरेशन या टास्क-विशिष्ट ट्यूनिंग के माध्यम से इस अंतर को पाटने का प्रयास किया है। एपीजेन और नॉलेज डिस्टिलेशन मेथड्स जैसे कुछ प्रयासों ने सिंगल-टर्न टास्क डेटा या सरलीकृत टेम्प्लेट उत्पन्न करने में मदद की है। टूल-यूज़ेज मॉडल को उन फ्रेमवर्क का उपयोग करके बढ़ाया गया है जो कार्यों के निश्चित सेट प्रदान करते हैं, लेकिन अक्सर गतिशील उपकरण वातावरण के अनुकूल होने के लिए लचीलेपन की कमी होती है। अन्य प्रयास, जैसे कि एमएजी-वी, मैट्रिक्स और बटन, प्रशिक्षण इंटरैक्शन का अनुकरण करने के लिए मल्टी-एजेंट सिस्टम का उपयोग करते हैं, लेकिन अपर्याप्त गुणवत्ता नियंत्रण से पीड़ित हैं या निश्चित निर्देश संरचनाओं पर भरोसा करते हैं। इन उपकरणों में से कई या तो दीर्घकालिक निर्भरता को पकड़ने में विफल होते हैं या भंगुर नियम-आधारित प्रणालियों पर भरोसा करते हैं जिनमें सामान्यता की कमी होती है। यहां तक कि लोकप्रिय मूल्यांकन बेंचमार्क जैसे मल्टीचैलेंज और टोल्डियल संघर्ष यथार्थवादी बातचीत की पेचीदगियों का अनुकरण करने के लिए, अक्सर सरलीकृत बातचीत प्रारूपों के कारण।
Salesforce AI रिसर्च की एक शोध टीम शुरू की गई एक प्रकार काएक उपन्यास दो-चरण डेटा जनरेशन पाइपलाइन को एजेंटों और सिम्युलेटेड मानव उपयोगकर्ताओं के बीच उच्च गुणवत्ता, बहु-टर्न इंटरैक्शन डेटा बनाने के लिए डिज़ाइन किया गया है। दृष्टिकोण मान्य कार्य ब्लूप्रिंट का निर्माण करके और फिर निष्पादन योग्य वातावरण में विस्तृत एजेंट-मानव बातचीत का अनुकरण करके यथार्थवाद, संरचना और सत्यापन पर ध्यान केंद्रित करता है। पहले के दृष्टिकोणों के विपरीत, यह विधि कार्य सामंजस्य, सटीकता और व्यवहार्यता का आकलन करने के लिए बड़े भाषा मॉडल के स्वचालित चेकर्स और समितियों दोनों का उपयोग करके एक स्तरित सत्यापन तंत्र को नियोजित करती है। शोधकर्ताओं के तहत मॉडल के एक परिवार को प्रशिक्षित करते हैं XLAM-2-FC-R श्रृंखलामल्टी-टर्न एजेंट मूल्यांकन में प्रमुख बेंचमार्क को बेहतर बनाने के लिए इस सिंथेटिक डेटा का उपयोग करते हुए, 1 बिलियन से 70 बिलियन मापदंडों तक, महत्वपूर्ण रूप से।
APIGEN-MT के पीछे की वास्तुकला दो मुख्य परिचालन चरणों में विभाजित है। चरण 1 में, एक कार्य कॉन्फ़िगरेशन एक एलएलएम-चालित जनरेटर का उपयोग करके बनाया जाता है जो उपयोगकर्ता इरादे निर्देशों, ग्राउंडट्रूथ क्रियाओं का एक अनुक्रम और अपेक्षित आउटपुट का प्रस्ताव करता है। इन प्रस्तावों को नियम-आधारित चेकर्स और एक मल्टी-एजेंट एलएलएम समीक्षा समिति के संयोजन का उपयोग करके प्रारूप शुद्धता, निष्पादन और शब्दार्थ सुसंगतता के लिए मान्य किया जाता है। यदि कोई प्रस्ताव किसी भी स्तर पर विफल हो जाता है, तो एक प्रतिक्रिया तंत्र त्रुटियों पर प्रतिबिंबित करेगा और सुधार का प्रस्ताव करेगा। सफल कार्य चरण 2 पर जाते हैं, जहां एक सिमुलेशन इंजन एक नकली मानव उपयोगकर्ता और एक परीक्षण एजेंट के बीच यथार्थवादी संवाद उत्पन्न करता है। एजेंट एपीआई को कॉल करके, आउटपुट की व्याख्या करके, और मोड़ पर बातचीत को विकसित करके उपयोगकर्ता इनपुट का जवाब देता है। केवल उन संवाद प्रक्षेपवक्र जो अपेक्षित ग्राउंडट्रूथ से मेल खाते हैं, अंतिम प्रशिक्षण डेटासेट में शामिल हैं, कार्यात्मक सटीकता और प्राकृतिक संवाद प्रवाह सुनिश्चित करते हैं।
APIGEN-MT डेटा पर प्रशिक्षित मॉडल, विशेष रूप से XLAM-2-FC-R मॉडल, दो उद्योग-मानक मूल्यांकन बेंचमार्क में बेहतर प्रदर्शन का प्रदर्शन करते हैं: and-Bench और BFCL V3। उदाहरण के लिए, रिटेल डोमेन में BFCL V3 बेंचमार्क पर, XLAM-2-70B-FC-R मॉडल ने 78.2 का स्कोर हासिल किया, जिसमें क्लाउड 3.5 (56.5) और GPT-4O (72.1) को पार किया गया। इसी तरह, GPT-4O के 62.8 की तुलना में एयरलाइन डोमेन ने 67.1 स्कोर किया। अधिक जटिल वातावरणों में, पुनरावृत्त इंटरैक्शन को शामिल करते हुए, XLAM-2-8B-FC-R मॉडल ने बड़े पारंपरिक मॉडल को बेहतर बनाया, जो उच्च गुणवत्ता वाले प्रशिक्षण डेटा के प्रभाव को दर्शाता है। ये परिणाम इस बात की पुष्टि करते हैं कि फीडबैक लूप और टास्क सत्यापन के माध्यम से सावधानीपूर्वक संरचित होने पर विस्तृत और सत्यापित प्रशिक्षण इंटरैक्शन सरासर मॉडल आकार की तुलना में अधिक मूल्यवान हैं। इसके अलावा, कई परीक्षणों में इन मॉडलों की निरंतरता में वृद्धि की मजबूती दिखाई देती है, उद्यम वातावरण में तैनाती के लिए एक महत्वपूर्ण कारक है।
एपीजेन-एमटी फ्रेमवर्क न केवल इसके प्रदर्शन के कारण बल्कि इसकी स्केलेबिलिटी और ओपन-सोर्स योगदान के कारण भी प्रभावशाली है। सिंथेटिक डेटासेट और XLAM-2-FC-R मॉडल दोनों को जनता के लिए जारी करके, शोधकर्ताओं का उद्देश्य उच्च गुणवत्ता वाले एजेंट प्रशिक्षण डेटा तक पहुंच का लोकतंत्रीकरण करना है। यह मॉड्यूलर, सत्यापित और इंटरैक्शन-ग्राउंडेड दृष्टिकोण एआई एजेंटों में भविष्य की प्रगति के लिए रास्ते खोलता है। यह शोधकर्ताओं को विभिन्न डोमेन, कार्यों और उपकरणों में रूपरेखा का विस्तार करने में सक्षम बनाता है, जिससे यह संवाद यथार्थवाद या निष्पादन अखंडता का त्याग किए बिना विशिष्ट औद्योगिक आवश्यकताओं के अनुकूल हो जाता है।

अनुसंधान से कुछ प्रमुख takeaways:
- Apigen-Mt दो-चरण कार्य ब्लूप्रिंट पीढ़ी का उपयोग करके मल्टी-टर्न इंटरैक्शन डेटासेट बनाता है, जिसके बाद नकली बातचीत होती है।
- सिस्टम प्रारूप चेक, निष्पादन परीक्षण और एलएलएम समीक्षा समितियों के माध्यम से सत्यापन को एकीकृत करता है।
- फीडबैक लूप्स विफल कार्यों के सुधार की अनुमति देते हैं, जिससे पाइपलाइन के भीतर एक सीखने का तंत्र बनता है।
- इस डेटा के साथ प्रशिक्षित मॉडल GPT-4O और क्लाउड 3.5 को τ-Bench और BFCL V3 बेंचमार्क में।
- XLAM-2-70B-FC-R ने रिटेल पर 78.2 और BFCL V3 के तहत एयरलाइन पर 67.1 स्कोर किया, जो सभी बेसलाइन से अधिक है।
- XLAM-2-8B-FC-R जैसे छोटे मॉडल भी लंबे समय तक इंटरैक्शन में बड़े विकल्पों को हरा देते हैं, जो बेहतर दक्षता का संकेत देते हैं।
- डेटा और मॉडल दोनों का ओपन-सोर्स रिलीज़ अनुसंधान और औद्योगिक उपयोग के लिए व्यापक पहुंच सुनिश्चित करता है।
- फ्रेमवर्क एजेंट प्रशिक्षण में यथार्थवाद और तकनीकी विश्वसनीयता को बढ़ाता है, सिंथेटिक इंटरैक्शन डेटा के लिए एक नया मानक स्थापित करता है।
चेक आउट कागज़ और नमूना। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
