Openai EVALS API का परिचय देता है: डेवलपर्स के लिए सुव्यवस्थित मॉडल मूल्यांकन – Gadgets Solutions

डेवलपर्स और बड़ी भाषा मॉडल (LLMS) के साथ काम करने वाली टीमों को सशक्त बनाने के लिए एक महत्वपूर्ण कदम में, Openai ने पेश किया है इवल्स एपीआईएक नया टूलसेट जो प्रोग्रामेटिक मूल्यांकन क्षमताओं को सबसे आगे लाता है। जबकि मूल्यांकन पहले ओपनईए डैशबोर्ड के माध्यम से सुलभ थे, नया एपीआई डेवलपर्स को अनुमति देता है परीक्षणों को परिभाषित करें, मूल्यांकन को स्वचालित करें, और संकेतों पर पुनरावृत्ति करें सीधे उनके वर्कफ़्लोज़ से।

क्यों evals एपीआई मायने रखता है

एलएलएम प्रदर्शन का मूल्यांकन अक्सर एक मैनुअल, समय लेने वाली प्रक्रिया है, विशेष रूप से विविध डोमेन में अनुप्रयोगों को स्केल करने वाली टीमों के लिए। EVALS API के साथ, Openai एक व्यवस्थित दृष्टिकोण प्रदान करता है:

कस्टम परीक्षण मामलों पर मॉडल प्रदर्शन का आकलन करें
त्वरित पुनरावृत्तियों में सुधार को मापें
विकास पाइपलाइनों में गुणवत्ता आश्वासन को स्वचालित करें

अब, प्रत्येक डेवलपर विकास चक्र में एक प्रथम श्रेणी के नागरिक के रूप में मूल्यांकन का इलाज कर सकता है-पारंपरिक सॉफ्टवेयर इंजीनियरिंग में यूनिट परीक्षणों का इलाज कैसे किया जाता है।

EVALS API की मुख्य विशेषताएं

कस्टम एवल परिभाषाएँ: डेवलपर्स आधार कक्षाओं का विस्तार करके अपने स्वयं के मूल्यांकन तर्क को लिख सकते हैं।
परीक्षण डेटा एकीकरण: विशिष्ट परिदृश्यों का परीक्षण करने के लिए मूल रूप से मूल्यांकन डेटासेट को एकीकृत करें।
पैरामीटर विन्यास: मॉडल, तापमान, अधिकतम टोकन और अन्य पीढ़ी के मापदंडों को कॉन्फ़िगर करें।
स्वचालित रन: कोड के माध्यम से मूल्यांकन को ट्रिगर करें, और परिणाम को प्रोग्रामेटिक रूप से पुनः प्राप्त करें।

EVALS API एक YAML- आधारित कॉन्फ़िगरेशन संरचना का समर्थन करता है, जो लचीलापन और पुन: प्रयोज्य दोनों के लिए अनुमति देता है।

EVALS API के साथ शुरुआत करना

EVALS API का उपयोग करने के लिए, आप पहले OpenAI पायथन पैकेज स्थापित करते हैं:

फिर, आप एक अंतर्निहित EVAL का उपयोग करके एक मूल्यांकन चला सकते हैं, जैसे factuality_qna

oai evals registry:evaluation:factuality_qna \
  --completion_fns gpt-4 \
  --record_path eval_results.jsonl

या पायथन में एक कस्टम ईवल को परिभाषित करें:

import openai.evals

class MyRegressionEval(openai.evals.Eval):
    def run(self):
        for example in self.get_examples():
            result = self.completion_fn(example('input'))
            score = self.compute_score(result, example('ideal'))
            yield self.make_result(result=result, score=score)

यह उदाहरण दिखाता है कि आप एक कस्टम मूल्यांकन तर्क को कैसे परिभाषित कर सकते हैं – इस मामले में, प्रतिगमन सटीकता को मापना।

मामले का उपयोग करें: प्रतिगमन मूल्यांकन

Openai की कुकबुक उदाहरण API का उपयोग करके एक प्रतिगमन मूल्यांकनकर्ता के निर्माण के माध्यम से चलता है। यहाँ एक सरलीकृत संस्करण है:

from sklearn.metrics import mean_squared_error

class RegressionEval(openai.evals.Eval):
    def run(self):
        predictions, labels = (), ()
        for example in self.get_examples():
            response = self.completion_fn(example('input'))
            predictions.append(float(response.strip()))
            labels.append(example('ideal'))
        mse = mean_squared_error(labels, predictions)
        yield self.make_result(result={"mse": mse}, score=-mse)

यह डेवलपर्स को मॉडल से संख्यात्मक भविष्यवाणियों को बेंचमार्क करने और समय के साथ परिवर्तनों को ट्रैक करने की अनुमति देता है।

निर्बाध वर्कफ़्लो एकीकरण

चाहे आप एक चैटबॉट, सारांश इंजन, या वर्गीकरण प्रणाली का निर्माण कर रहे हों, मूल्यांकन अब आपके CI/CD पाइपलाइन के हिस्से के रूप में ट्रिगर किया जा सकता है। यह सुनिश्चित करता है कि प्रत्येक शीघ्र या मॉडल अपडेट लाइव जाने से पहले प्रदर्शन को बनाए रखता है या बेहतर बनाता है।

openai.evals.run(
  eval_name="my_eval",
  completion_fn="gpt-4",
  eval_config={"path": "eval_config.yaml"}
)

निष्कर्ष

EVALS API का लॉन्च LLM विकास में मजबूत, स्वचालित मूल्यांकन मानकों की ओर एक बदलाव को चिह्नित करता है। प्रोग्राम को कॉन्फ़िगर करने, चलाने और विश्लेषण करने की क्षमता की पेशकश करके, प्रोग्रामेटिक रूप से, Openai टीमों को आत्मविश्वास के साथ निर्माण करने में सक्षम कर रहा है और अपने AI अनुप्रयोगों की गुणवत्ता में लगातार सुधार कर रहा है।

आगे का पता लगाने के लिए, आधिकारिक OpenAI EVALS प्रलेखन और रसोई की किताब के उदाहरण देखें।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

Salesforce AI ने APIGEN-MT और XLAM-2-FC-R मॉडल श्रृंखला जारी की: सत्यापित डेटा पाइपलाइनों और स्केलेबल LLM आर्किटेक्चर के साथ मल्टी-टर्न एजेंट प्रशिक्षण को आगे बढ़ाया – Gadgets Solutions

यदि आप पूर्ण गूंगा नहीं चाहते हैं तो न्यूनतम फोन एक बढ़िया विकल्प हैं – Gadgets Solutions

Openai EVALS API का परिचय देता है: डेवलपर्स के लिए सुव्यवस्थित मॉडल मूल्यांकन – Gadgets Solutions

क्यों evals एपीआई मायने रखता है

EVALS API की मुख्य विशेषताएं

EVALS API के साथ शुरुआत करना

मामले का उपयोग करें: प्रतिगमन मूल्यांकन

निर्बाध वर्कफ़्लो एकीकरण

निष्कर्ष

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US