बड़े भाषा मॉडल (एलएलएम) ने विभिन्न कार्यों में महत्वपूर्ण प्रगति का प्रदर्शन किया है, विशेष रूप से तर्क क्षमताओं में। हालांकि, बाहरी खोज संचालन के साथ तर्क प्रक्रियाओं को प्रभावी ढंग से एकीकृत करना चुनौतीपूर्ण है, विशेष रूप से बहु-हॉप प्रश्नों के लिए जटिल तर्क श्रृंखलाओं और कई पुनर्प्राप्ति चरणों की आवश्यकता होती है। वर्तमान तरीके मुख्य रूप से मैन्युअल रूप से डिज़ाइन किए गए संकेतों या हेयूरिस्टिक्स पर निर्भर करते हैं, स्केलेबिलिटी और लचीलेपन में सीमाएं प्रस्तुत करते हैं। इसके अतिरिक्त, मल्टी-स्टेप रीज़निंग परिदृश्यों के लिए पर्यवेक्षित डेटा उत्पन्न करना अक्सर निषेधात्मक रूप से महंगा और व्यावहारिक रूप से संक्रामक होता है।
बैचुआन इंक, टोंगजी विश्वविद्यालय, एडिनबर्ग विश्वविद्यालय, और झेजियांग विश्वविद्यालय के शोधकर्ताओं ने अनुसंधान का परिचय दिया, एक उपन्यास एआई फ्रेमवर्क, जिसे एलएलएम को सुदृढीकरण सीखने के माध्यम से खोज के साथ तर्क को एकीकृत करने के लिए प्रशिक्षित करने के लिए डिज़ाइन किया गया है, विशेष रूप से पर्यवेक्षित तर्क कदमों पर भरोसा किए बिना। अनुसंधान की मुख्य कार्यप्रणाली खोज संचालन को सीधे तर्क श्रृंखला में शामिल करती है। समूह सापेक्ष नीति अनुकूलन (GRPO) का उपयोग करते हुए, एक सुदृढीकरण सीखने की तकनीक, अनुसंधान गाइड LLMS स्वायत्त रूप से खोज संचालन के लिए इष्टतम क्षणों और रणनीतियों की पहचान करने के लिए, जो बाद में चल रहे तर्क को प्रभावित करता है। यह दृष्टिकोण मॉडल को उत्तरोत्तर अपने तर्क को परिष्कृत करने में सक्षम बनाता है और स्वाभाविक रूप से उन्नत क्षमताओं जैसे प्रतिबिंब और आत्म-सुधार की सुविधा देता है।

एक तकनीकी दृष्टिकोण से, अनुसंधान विशिष्ट टैग को एम्बेड करके संरचित आउटपुट प्रारूपों को नियोजित करता है – जैसे कि जैसे
,
,
और
—हाइथिन रीज़निंग चेन। ये टैग मॉडल और बाहरी पुनर्प्राप्ति वातावरण के बीच स्पष्ट संचार की सुविधा प्रदान करते हैं, व्यवस्थित रूप से उत्पन्न आउटपुट का आयोजन करते हैं। प्रशिक्षण के दौरान, अनुसंधान जानबूझकर मॉडल पूर्वाग्रह को रोकने के लिए नुकसान की गणना से पुनर्प्राप्ति परिणामों को बाहर करता है। सुदृढीकरण सीखने की प्रक्रिया का मार्गदर्शन करने वाले रिवार्ड सिग्नल सीधे मानदंडों पर आधारित होते हैं: एफ 1 स्कोर के माध्यम से सटीकता का आकलन और पूर्वनिर्धारित संरचित आउटपुट प्रारूप के पालन। यह डिजाइन परिष्कृत तर्क पैटर्न के स्वायत्त विकास को प्रोत्साहित करता है, मैन्युअल रूप से एनोटेट तर्क डेटासेट की आवश्यकता को दरकिनार करता है।
प्रायोगिक मूल्यांकन अनुसंधान की मजबूती की पुष्टि करता है। जब HotPotqa, 2wikimultihopqa, Musique, और Bamboogle सहित मल्टी-हॉप प्रश्न-उत्तर बेंचमार्क पर मूल्यांकन किया जाता है, तो अनुसंधान लगातार बेसलाइन विधियों को बेहतर बनाता है। विशेष रूप से, अनुसंधान-qwen-32b-instruct ने स्थापित बेसलाइन की तुलना में प्रदर्शन में 8.9% और 22.4% के बीच सुधार प्राप्त किया। विशेष रूप से, इन प्रगति को एक एकल डेटासेट पर विशेष रूप से प्रशिक्षित किए जाने के बावजूद, इसकी मजबूत सामान्यीकरण क्षमताओं को रेखांकित करने के बावजूद हासिल किया गया था। आगे के विश्लेषणों से पता चला है कि मॉडल ने धीरे -धीरे प्रशिक्षण के दौरान पुनरावृत्त खोज कार्यों पर अपनी निर्भरता बढ़ाई, बढ़ी हुई तर्क प्रवीणता का संकेत। एक विस्तृत केस स्टडी ने सबप्टिमल खोज क्वेरी की पहचान करने के लिए मॉडल की क्षमता को चित्रित किया, इसके तर्क के कदमों पर प्रतिबिंबित किया, और सुधारात्मक कार्यों को स्वायत्त रूप से लागू किया।

सारांश में, अनुसंधान ने सुदृढीकरण सीखने के माध्यम से बाहरी खोज तंत्र के साथ तर्क को एकीकृत करने के लिए एलएलएम को प्रशिक्षण में एक महत्वपूर्ण कार्यप्रणाली प्रगति प्रस्तुत की है। पर्यवेक्षित तर्क डेटा पर निर्भरता को समाप्त करके, यह ढांचा प्रभावी रूप से महत्वपूर्ण स्केलेबिलिटी और मल्टी-हॉप रीजनिंग परिदृश्यों में निहित अनुकूलनशीलता के मुद्दों को संबोधित करता है। आत्म-प्रतिबिंब और सुधार के लिए इसकी क्षमता जटिल, यथार्थवादी संदर्भों में इसकी व्यावहारिक प्रयोज्यता को बढ़ाती है। भविष्य के अनुसंधान दिशाएँ इस सुदृढीकरण सीखने-आधारित ढांचे को व्यापक अनुप्रयोगों के लिए आगे बढ़ा सकती हैं और अतिरिक्त बाहरी ज्ञान संसाधनों को शामिल कर सकती हैं।
चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।