एक कॉफी कंपनी की कल्पना करें जो इसकी आपूर्ति श्रृंखला को अनुकूलित करने की कोशिश कर रहा है। कंपनी तीन आपूर्तिकर्ताओं से बीन्स की बीन्स, उन्हें दो सुविधाओं में या तो अंधेरे या हल्के कॉफी में भूनती है, और फिर भुना हुआ कॉफी को तीन खुदरा स्थानों पर भेजती है। आपूर्तिकर्ताओं के पास अलग -अलग निश्चित क्षमता होती है, और भूनने की लागत और शिपिंग लागत एक जगह से अलग -अलग होती हैं।
कंपनी मांग में 23 प्रतिशत की वृद्धि को पूरा करते हुए लागत को कम करना चाहती है।
क्या कंपनी के लिए यह आसान नहीं होगा कि वह चटप्ट को एक इष्टतम योजना के साथ आने के लिए कहें? वास्तव में, उनकी सभी अविश्वसनीय क्षमताओं के लिए, बड़ी भाषा मॉडल (एलएलएम) अक्सर खराब प्रदर्शन करते हैं जब अपने दम पर इस तरह की जटिल योजना समस्याओं को सीधे हल करने का काम सौंपा जाता है।
एलएलएम को एक बेहतर योजनाकार बनाने के लिए मॉडल को बदलने की कोशिश करने के बजाय, एमआईटी शोधकर्ताओं ने एक अलग दृष्टिकोण लिया। उन्होंने एक फ्रेमवर्क पेश किया जो एक मानव की तरह समस्या को तोड़ने के लिए एक एलएलएम का मार्गदर्शन करता है, और फिर एक शक्तिशाली सॉफ्टवेयर टूल का उपयोग करके इसे स्वचालित रूप से हल करता है।
एक उपयोगकर्ता को केवल प्राकृतिक भाषा में समस्या का वर्णन करने की आवश्यकता है-एलएलएम को प्रशिक्षित या संकेत देने के लिए कोई कार्य-विशिष्ट उदाहरण की आवश्यकता नहीं है। मॉडल एक उपयोगकर्ता के पाठ प्रॉम्प्ट को एक प्रारूप में एन्कोड करता है जिसे एक अनुकूलन सॉल्वर द्वारा अनियंत्रित किया जा सकता है जो कुशलता से बेहद कठिन योजना चुनौतियों को कुशलता से क्रैक करने के लिए डिज़ाइन किया गया है।
सूत्रीकरण प्रक्रिया के दौरान, एलएलएम यह सुनिश्चित करने के लिए कई मध्यवर्ती चरणों में अपने काम की जांच करता है कि योजना को सॉल्वर को सही ढंग से वर्णित किया गया है। यदि यह एक त्रुटि को स्पॉट करता है, तो देने के बजाय, एलएलएम सूत्रीकरण के टूटे हुए हिस्से को ठीक करने की कोशिश करता है।
जब शोधकर्ताओं ने नौ जटिल चुनौतियों पर अपने ढांचे का परीक्षण किया, जैसे कि डिस्टेंस वेयरहाउस रोबोट को कम से कम करना, कार्यों को पूरा करने के लिए यात्रा करनी चाहिए, तो इसने 85 प्रतिशत सफलता दर हासिल की, जबकि सबसे अच्छी बेसलाइन ने केवल 39 प्रतिशत सफलता दर हासिल की।
बहुमुखी ढांचे को मल्टीस्टेप प्लानिंग कार्यों की एक श्रृंखला पर लागू किया जा सकता है, जैसे कि शेड्यूलिंग एयरलाइन क्रू या किसी कारखाने में मशीन के समय का प्रबंधन।
“हमारा शोध एक ढांचे का परिचय देता है जो अनिवार्य रूप से योजना की समस्याओं के लिए एक स्मार्ट सहायक के रूप में कार्य करता है। यह सबसे अच्छी योजना का पता लगा सकता है जो आपके पास मौजूद सभी जरूरतों को पूरा करता है, भले ही नियम जटिल या असामान्य हों,” यिलुन हाओ कहते हैं, सूचना और निर्णय प्रणालियों (Lids) के लिए MIT प्रयोगशाला में एक स्नातक छात्र और इस शोध पर एक पेपर के प्रमुख लेखक कहते हैं।
वह एमआईटी-आईबीएम वॉटसन एआई लैब के एक शोध वैज्ञानिक यांग झांग द्वारा कागज पर शामिल है; और वरिष्ठ लेखक चुचू फैन, एरोनॉटिक्स और एस्ट्रोनॉटिक्स के एक एसोसिएट प्रोफेसर और लिड्स के प्रमुख अन्वेषक। अनुसंधान को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
अनुकूलन 101
फैन समूह एल्गोरिदम विकसित करता है जो स्वचालित रूप से हल करता है जिसे कॉम्बिनेटरियल ऑप्टिमाइज़ेशन समस्याओं के रूप में जाना जाता है। इन विशाल समस्याओं में कई परस्पर संबंधित निर्णय चर हैं, जिनमें से प्रत्येक में कई विकल्प हैं जो तेजी से अरबों संभावित विकल्पों को जोड़ते हैं।
मनुष्य इस तरह की समस्याओं को कुछ विकल्पों के लिए संकीर्ण करके और फिर यह निर्धारित करते हैं कि कौन सा सबसे अच्छा समग्र योजना की ओर जाता है। शोधकर्ताओं के एल्गोरिथम सॉल्वर अनुकूलन समस्याओं के लिए समान सिद्धांतों को लागू करते हैं जो मानव के लिए दरार करने के लिए बहुत जटिल हैं।
लेकिन वे जिन सॉल्वरों को विकसित करते हैं, उनमें सीखने की वक होती है और आमतौर पर केवल विशेषज्ञों द्वारा उपयोग किया जाता है।
“हमने सोचा था कि LLMS NONEXPERTS को इन हल करने वाले एल्गोरिदम का उपयोग करने की अनुमति दे सकता है। हमारी प्रयोगशाला में, हम एक डोमेन विशेषज्ञ की समस्या लेते हैं और इसे एक समस्या में औपचारिक रूप देते हैं जो हमारे सॉल्वर हल कर सकते हैं। क्या हम एक एलएलएम को एक ही काम करने के लिए सिखा सकते हैं?” फैन कहते हैं।
शोधकर्ताओं द्वारा विकसित किए गए फ्रेमवर्क का उपयोग करते हुए, जिसे एलएलएम-आधारित औपचारिक प्रोग्रामिंग (एलएलएमएफपी) कहा जाता है, एक व्यक्ति समस्या का एक प्राकृतिक भाषा विवरण, कार्य पर पृष्ठभूमि की जानकारी और एक क्वेरी प्रदान करता है जो उनके लक्ष्य का वर्णन करता है।
तब LLMFP समस्या के बारे में तर्क करने के लिए एक एलएलएम को संकेत देता है और निर्णय चर और प्रमुख बाधाओं को निर्धारित करता है जो इष्टतम समाधान को आकार देगा।
LLMFP एक अनुकूलन समस्या के गणितीय सूत्रीकरण में जानकारी को एन्कोड करने से पहले प्रत्येक चर की आवश्यकताओं का विस्तार करने के लिए LLM से कहता है। यह कोड लिखता है जो समस्या को एनकोड करता है और संलग्न अनुकूलन सॉल्वर को कॉल करता है, जो एक आदर्श समाधान पर आता है।
“यह समान है कि हम MIT में अनुकूलन समस्याओं के बारे में कैसे पढ़ाते हैं। हम उन्हें सिर्फ एक डोमेन नहीं सिखाते हैं। हम उन्हें कार्यप्रणाली सिखाते हैं,” फैन कहते हैं।
जब तक सॉल्वर के इनपुट सही हैं, तब तक यह सही उत्तर देगा। समाधान में कोई भी गलती सूत्रीकरण प्रक्रिया में त्रुटियों से आती है।
यह सुनिश्चित करने के लिए कि यह एक कार्य योजना मिली है, LLMFP समाधान का विश्लेषण करता है और समस्या निर्माण में किसी भी गलत चरण को संशोधित करता है। एक बार जब योजना इस आत्म-मूल्यांकन से गुजरती है, तो समाधान को प्राकृतिक भाषा में उपयोगकर्ता को वर्णित किया जाता है।
योजना को पूरा करना
यह स्व-मूल्यांकन मॉड्यूल भी एलएलएम को किसी भी निहित बाधाओं को जोड़ने की अनुमति देता है जो पहली बार चूक गया था, हाओ कहते हैं।
उदाहरण के लिए, यदि फ्रेमवर्क एक कॉफ़ेशॉप के लिए लागत को कम करने के लिए एक आपूर्ति श्रृंखला का अनुकूलन कर रहा है, तो एक मानव जानता है कि कॉफ़ेशॉप भुना हुआ फलियों की नकारात्मक मात्रा में जहाज नहीं कर सकता है, लेकिन एक एलएलएम को यह एहसास नहीं हो सकता है।
स्व-मूल्यांकन कदम उस त्रुटि को ध्वजांकित करेगा और मॉडल को इसे ठीक करने के लिए प्रेरित करेगा।
“इसके अलावा, एक एलएलएम उपयोगकर्ता की वरीयताओं के अनुकूल हो सकता है। यदि मॉडल को पता चलता है कि किसी विशेष उपयोगकर्ता को अपनी यात्रा योजनाओं के समय या बजट को बदलना पसंद नहीं है, तो यह उन चीजों को बदलने का सुझाव दे सकता है जो उपयोगकर्ता की जरूरतों को पूरा करती हैं,” फैन कहते हैं।
परीक्षणों की एक श्रृंखला में, उनके ढांचे ने कई एलएलएम का उपयोग करके नौ विविध नियोजन समस्याओं में 83 और 87 प्रतिशत के बीच औसत सफलता दर हासिल की। जबकि कुछ बेसलाइन मॉडल कुछ समस्याओं में बेहतर थे, LLMFP ने बेसलाइन तकनीकों के रूप में लगभग दोगुना उच्च सफलता दर हासिल की।
इन अन्य दृष्टिकोणों के विपरीत, LLMFP को प्रशिक्षण के लिए डोमेन-विशिष्ट उदाहरणों की आवश्यकता नहीं है। यह बॉक्स के ठीक बाहर एक नियोजन समस्या का इष्टतम समाधान पा सकता है।
इसके अलावा, उपयोगकर्ता एलएलएम को खिलाए गए संकेतों को समायोजित करके विभिन्न अनुकूलन सॉल्वर के लिए LLMFP को अनुकूलित कर सकता है।
“एलएलएमएस के साथ, हमारे पास एक इंटरफ़ेस बनाने का अवसर है जो लोगों को अन्य डोमेन से उपकरणों का उपयोग करने की अनुमति देता है ताकि समस्याओं को उन तरीकों से हल किया जा सके, जिनके बारे में वे पहले नहीं सोच रहे थे,” फैन कहते हैं।
भविष्य में, शोधकर्ता LLMFP को एक नियोजन समस्या के विवरण के पूरक के लिए इनपुट के रूप में छवियों को लेने में सक्षम करना चाहते हैं। यह फ्रेमवर्क को उन कार्यों को हल करने में मदद करेगा जो प्राकृतिक भाषा के साथ पूरी तरह से वर्णन करने के लिए विशेष रूप से कठिन हैं।
यह काम, भाग में, नौसेना अनुसंधान कार्यालय और MIT-IBM वाटसन AI लैब द्वारा वित्त पोषित किया गया था।
।