Monday, April 21, 2025

मिलिए रिसर्च: एक उपन्यास एआई फ्रेमवर्क जो एलएलएम को रीजनिंग स्टेप्स पर किसी भी पर्यवेक्षित डेटा का उपयोग किए बिना सुदृढीकरण सीखने के माध्यम से खोज के लिए तर्क देने के लिए प्रशिक्षित करता है – Gadgets Solutions

-

बड़े भाषा मॉडल (एलएलएम) ने विभिन्न कार्यों में महत्वपूर्ण प्रगति का प्रदर्शन किया है, विशेष रूप से तर्क क्षमताओं में। हालांकि, बाहरी खोज संचालन के साथ तर्क प्रक्रियाओं को प्रभावी ढंग से एकीकृत करना चुनौतीपूर्ण है, विशेष रूप से बहु-हॉप प्रश्नों के लिए जटिल तर्क श्रृंखलाओं और कई पुनर्प्राप्ति चरणों की आवश्यकता होती है। वर्तमान तरीके मुख्य रूप से मैन्युअल रूप से डिज़ाइन किए गए संकेतों या हेयूरिस्टिक्स पर निर्भर करते हैं, स्केलेबिलिटी और लचीलेपन में सीमाएं प्रस्तुत करते हैं। इसके अतिरिक्त, मल्टी-स्टेप रीज़निंग परिदृश्यों के लिए पर्यवेक्षित डेटा उत्पन्न करना अक्सर निषेधात्मक रूप से महंगा और व्यावहारिक रूप से संक्रामक होता है।

बैचुआन इंक, टोंगजी विश्वविद्यालय, एडिनबर्ग विश्वविद्यालय, और झेजियांग विश्वविद्यालय के शोधकर्ताओं ने अनुसंधान का परिचय दिया, एक उपन्यास एआई फ्रेमवर्क, जिसे एलएलएम को सुदृढीकरण सीखने के माध्यम से खोज के साथ तर्क को एकीकृत करने के लिए प्रशिक्षित करने के लिए डिज़ाइन किया गया है, विशेष रूप से पर्यवेक्षित तर्क कदमों पर भरोसा किए बिना। अनुसंधान की मुख्य कार्यप्रणाली खोज संचालन को सीधे तर्क श्रृंखला में शामिल करती है। समूह सापेक्ष नीति अनुकूलन (GRPO) का उपयोग करते हुए, एक सुदृढीकरण सीखने की तकनीक, अनुसंधान गाइड LLMS स्वायत्त रूप से खोज संचालन के लिए इष्टतम क्षणों और रणनीतियों की पहचान करने के लिए, जो बाद में चल रहे तर्क को प्रभावित करता है। यह दृष्टिकोण मॉडल को उत्तरोत्तर अपने तर्क को परिष्कृत करने में सक्षम बनाता है और स्वाभाविक रूप से उन्नत क्षमताओं जैसे प्रतिबिंब और आत्म-सुधार की सुविधा देता है।

मिलिए रिसर्च: एक उपन्यास एआई फ्रेमवर्क जो एलएलएम को रीजनिंग स्टेप्स पर किसी भी पर्यवेक्षित डेटा का उपयोग किए बिना सुदृढीकरण सीखने के माध्यम से खोज के लिए तर्क देने के लिए प्रशिक्षित करता है
 – Gadgets Solutions

एक तकनीकी दृष्टिकोण से, अनुसंधान विशिष्ट टैग को एम्बेड करके संरचित आउटपुट प्रारूपों को नियोजित करता है – जैसे कि जैसे , , और —हाइथिन रीज़निंग चेन। ये टैग मॉडल और बाहरी पुनर्प्राप्ति वातावरण के बीच स्पष्ट संचार की सुविधा प्रदान करते हैं, व्यवस्थित रूप से उत्पन्न आउटपुट का आयोजन करते हैं। प्रशिक्षण के दौरान, अनुसंधान जानबूझकर मॉडल पूर्वाग्रह को रोकने के लिए नुकसान की गणना से पुनर्प्राप्ति परिणामों को बाहर करता है। सुदृढीकरण सीखने की प्रक्रिया का मार्गदर्शन करने वाले रिवार्ड सिग्नल सीधे मानदंडों पर आधारित होते हैं: एफ 1 स्कोर के माध्यम से सटीकता का आकलन और पूर्वनिर्धारित संरचित आउटपुट प्रारूप के पालन। यह डिजाइन परिष्कृत तर्क पैटर्न के स्वायत्त विकास को प्रोत्साहित करता है, मैन्युअल रूप से एनोटेट तर्क डेटासेट की आवश्यकता को दरकिनार करता है।

प्रायोगिक मूल्यांकन अनुसंधान की मजबूती की पुष्टि करता है। जब HotPotqa, 2wikimultihopqa, Musique, और Bamboogle सहित मल्टी-हॉप प्रश्न-उत्तर बेंचमार्क पर मूल्यांकन किया जाता है, तो अनुसंधान लगातार बेसलाइन विधियों को बेहतर बनाता है। विशेष रूप से, अनुसंधान-qwen-32b-instruct ने स्थापित बेसलाइन की तुलना में प्रदर्शन में 8.9% और 22.4% के बीच सुधार प्राप्त किया। विशेष रूप से, इन प्रगति को एक एकल डेटासेट पर विशेष रूप से प्रशिक्षित किए जाने के बावजूद, इसकी मजबूत सामान्यीकरण क्षमताओं को रेखांकित करने के बावजूद हासिल किया गया था। आगे के विश्लेषणों से पता चला है कि मॉडल ने धीरे -धीरे प्रशिक्षण के दौरान पुनरावृत्त खोज कार्यों पर अपनी निर्भरता बढ़ाई, बढ़ी हुई तर्क प्रवीणता का संकेत। एक विस्तृत केस स्टडी ने सबप्टिमल खोज क्वेरी की पहचान करने के लिए मॉडल की क्षमता को चित्रित किया, इसके तर्क के कदमों पर प्रतिबिंबित किया, और सुधारात्मक कार्यों को स्वायत्त रूप से लागू किया।

सारांश में, अनुसंधान ने सुदृढीकरण सीखने के माध्यम से बाहरी खोज तंत्र के साथ तर्क को एकीकृत करने के लिए एलएलएम को प्रशिक्षण में एक महत्वपूर्ण कार्यप्रणाली प्रगति प्रस्तुत की है। पर्यवेक्षित तर्क डेटा पर निर्भरता को समाप्त करके, यह ढांचा प्रभावी रूप से महत्वपूर्ण स्केलेबिलिटी और मल्टी-हॉप रीजनिंग परिदृश्यों में निहित अनुकूलनशीलता के मुद्दों को संबोधित करता है। आत्म-प्रतिबिंब और सुधार के लिए इसकी क्षमता जटिल, यथार्थवादी संदर्भों में इसकी व्यावहारिक प्रयोज्यता को बढ़ाती है। भविष्य के अनुसंधान दिशाएँ इस सुदृढीकरण सीखने-आधारित ढांचे को व्यापक अनुप्रयोगों के लिए आगे बढ़ा सकती हैं और अतिरिक्त बाहरी ज्ञान संसाधनों को शामिल कर सकती हैं।


चेक आउट पेपर और गिथब पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट


Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »