मिलिए रिसर्च: एक उपन्यास एआई फ्रेमवर्क जो एलएलएम को रीजनिंग स्टेप्स पर किसी भी पर्यवेक्षित डेटा का उपयोग किए बिना सुदृढीकरण सीखने के माध्यम से खोज के लिए तर्क देने के लिए प्रशिक्षित करता है – Gadgets Solutions

बड़े भाषा मॉडल (एलएलएम) ने विभिन्न कार्यों में महत्वपूर्ण प्रगति का प्रदर्शन किया है, विशेष रूप से तर्क क्षमताओं में। हालांकि, बाहरी खोज संचालन के साथ तर्क प्रक्रियाओं को प्रभावी ढंग से एकीकृत करना चुनौतीपूर्ण है, विशेष रूप से बहु-हॉप प्रश्नों के लिए जटिल तर्क श्रृंखलाओं और कई पुनर्प्राप्ति चरणों की आवश्यकता होती है। वर्तमान तरीके मुख्य रूप से मैन्युअल रूप से डिज़ाइन किए गए संकेतों या हेयूरिस्टिक्स पर निर्भर करते हैं, स्केलेबिलिटी और लचीलेपन में सीमाएं प्रस्तुत करते हैं। इसके अतिरिक्त, मल्टी-स्टेप रीज़निंग परिदृश्यों के लिए पर्यवेक्षित डेटा उत्पन्न करना अक्सर निषेधात्मक रूप से महंगा और व्यावहारिक रूप से संक्रामक होता है।

बैचुआन इंक, टोंगजी विश्वविद्यालय, एडिनबर्ग विश्वविद्यालय, और झेजियांग विश्वविद्यालय के शोधकर्ताओं ने अनुसंधान का परिचय दिया, एक उपन्यास एआई फ्रेमवर्क, जिसे एलएलएम को सुदृढीकरण सीखने के माध्यम से खोज के साथ तर्क को एकीकृत करने के लिए प्रशिक्षित करने के लिए डिज़ाइन किया गया है, विशेष रूप से पर्यवेक्षित तर्क कदमों पर भरोसा किए बिना। अनुसंधान की मुख्य कार्यप्रणाली खोज संचालन को सीधे तर्क श्रृंखला में शामिल करती है। समूह सापेक्ष नीति अनुकूलन (GRPO) का उपयोग करते हुए, एक सुदृढीकरण सीखने की तकनीक, अनुसंधान गाइड LLMS स्वायत्त रूप से खोज संचालन के लिए इष्टतम क्षणों और रणनीतियों की पहचान करने के लिए, जो बाद में चल रहे तर्क को प्रभावित करता है। यह दृष्टिकोण मॉडल को उत्तरोत्तर अपने तर्क को परिष्कृत करने में सक्षम बनाता है और स्वाभाविक रूप से उन्नत क्षमताओं जैसे प्रतिबिंब और आत्म-सुधार की सुविधा देता है।

मिलिए रिसर्च: एक उपन्यास एआई फ्रेमवर्क जो एलएलएम को रीजनिंग स्टेप्स पर किसी भी पर्यवेक्षित डेटा का उपयोग किए बिना सुदृढीकरण सीखने के माध्यम से खोज के लिए तर्क देने के लिए प्रशिक्षित करता है
– Gadgets Solutions

एक तकनीकी दृष्टिकोण से, अनुसंधान विशिष्ट टैग को एम्बेड करके संरचित आउटपुट प्रारूपों को नियोजित करता है – जैसे कि जैसे ,

, और —हाइथिन रीज़निंग चेन। ये टैग मॉडल और बाहरी पुनर्प्राप्ति वातावरण के बीच स्पष्ट संचार की सुविधा प्रदान करते हैं, व्यवस्थित रूप से उत्पन्न आउटपुट का आयोजन करते हैं। प्रशिक्षण के दौरान, अनुसंधान जानबूझकर मॉडल पूर्वाग्रह को रोकने के लिए नुकसान की गणना से पुनर्प्राप्ति परिणामों को बाहर करता है। सुदृढीकरण सीखने की प्रक्रिया का मार्गदर्शन करने वाले रिवार्ड सिग्नल सीधे मानदंडों पर आधारित होते हैं: एफ 1 स्कोर के माध्यम से सटीकता का आकलन और पूर्वनिर्धारित संरचित आउटपुट प्रारूप के पालन। यह डिजाइन परिष्कृत तर्क पैटर्न के स्वायत्त विकास को प्रोत्साहित करता है, मैन्युअल रूप से एनोटेट तर्क डेटासेट की आवश्यकता को दरकिनार करता है।

प्रायोगिक मूल्यांकन अनुसंधान की मजबूती की पुष्टि करता है। जब HotPotqa, 2wikimultihopqa, Musique, और Bamboogle सहित मल्टी-हॉप प्रश्न-उत्तर बेंचमार्क पर मूल्यांकन किया जाता है, तो अनुसंधान लगातार बेसलाइन विधियों को बेहतर बनाता है। विशेष रूप से, अनुसंधान-qwen-32b-instruct ने स्थापित बेसलाइन की तुलना में प्रदर्शन में 8.9% और 22.4% के बीच सुधार प्राप्त किया। विशेष रूप से, इन प्रगति को एक एकल डेटासेट पर विशेष रूप से प्रशिक्षित किए जाने के बावजूद, इसकी मजबूत सामान्यीकरण क्षमताओं को रेखांकित करने के बावजूद हासिल किया गया था। आगे के विश्लेषणों से पता चला है कि मॉडल ने धीरे -धीरे प्रशिक्षण के दौरान पुनरावृत्त खोज कार्यों पर अपनी निर्भरता बढ़ाई, बढ़ी हुई तर्क प्रवीणता का संकेत। एक विस्तृत केस स्टडी ने सबप्टिमल खोज क्वेरी की पहचान करने के लिए मॉडल की क्षमता को चित्रित किया, इसके तर्क के कदमों पर प्रतिबिंबित किया, और सुधारात्मक कार्यों को स्वायत्त रूप से लागू किया।

सारांश में, अनुसंधान ने सुदृढीकरण सीखने के माध्यम से बाहरी खोज तंत्र के साथ तर्क को एकीकृत करने के लिए एलएलएम को प्रशिक्षण में एक महत्वपूर्ण कार्यप्रणाली प्रगति प्रस्तुत की है। पर्यवेक्षित तर्क डेटा पर निर्भरता को समाप्त करके, यह ढांचा प्रभावी रूप से महत्वपूर्ण स्केलेबिलिटी और मल्टी-हॉप रीजनिंग परिदृश्यों में निहित अनुकूलनशीलता के मुद्दों को संबोधित करता है। आत्म-प्रतिबिंब और सुधार के लिए इसकी क्षमता जटिल, यथार्थवादी संदर्भों में इसकी व्यावहारिक प्रयोज्यता को बढ़ाती है। भविष्य के अनुसंधान दिशाएँ इस सुदृढीकरण सीखने-आधारित ढांचे को व्यापक अनुप्रयोगों के लिए आगे बढ़ा सकती हैं और अतिरिक्त बाहरी ज्ञान संसाधनों को शामिल कर सकती हैं।

चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US