Monday, April 21, 2025

Openai EVALS API का परिचय देता है: डेवलपर्स के लिए सुव्यवस्थित मॉडल मूल्यांकन – Gadgets Solutions

-

डेवलपर्स और बड़ी भाषा मॉडल (LLMS) के साथ काम करने वाली टीमों को सशक्त बनाने के लिए एक महत्वपूर्ण कदम में, Openai ने पेश किया है इवल्स एपीआईएक नया टूलसेट जो प्रोग्रामेटिक मूल्यांकन क्षमताओं को सबसे आगे लाता है। जबकि मूल्यांकन पहले ओपनईए डैशबोर्ड के माध्यम से सुलभ थे, नया एपीआई डेवलपर्स को अनुमति देता है परीक्षणों को परिभाषित करें, मूल्यांकन को स्वचालित करें, और संकेतों पर पुनरावृत्ति करें सीधे उनके वर्कफ़्लोज़ से।

क्यों evals एपीआई मायने रखता है

एलएलएम प्रदर्शन का मूल्यांकन अक्सर एक मैनुअल, समय लेने वाली प्रक्रिया है, विशेष रूप से विविध डोमेन में अनुप्रयोगों को स्केल करने वाली टीमों के लिए। EVALS API के साथ, Openai एक व्यवस्थित दृष्टिकोण प्रदान करता है:

  • कस्टम परीक्षण मामलों पर मॉडल प्रदर्शन का आकलन करें
  • त्वरित पुनरावृत्तियों में सुधार को मापें
  • विकास पाइपलाइनों में गुणवत्ता आश्वासन को स्वचालित करें

अब, प्रत्येक डेवलपर विकास चक्र में एक प्रथम श्रेणी के नागरिक के रूप में मूल्यांकन का इलाज कर सकता है-पारंपरिक सॉफ्टवेयर इंजीनियरिंग में यूनिट परीक्षणों का इलाज कैसे किया जाता है।

EVALS API की मुख्य विशेषताएं

  1. कस्टम एवल परिभाषाएँ: डेवलपर्स आधार कक्षाओं का विस्तार करके अपने स्वयं के मूल्यांकन तर्क को लिख सकते हैं।
  2. परीक्षण डेटा एकीकरण: विशिष्ट परिदृश्यों का परीक्षण करने के लिए मूल रूप से मूल्यांकन डेटासेट को एकीकृत करें।
  3. पैरामीटर विन्यास: मॉडल, तापमान, अधिकतम टोकन और अन्य पीढ़ी के मापदंडों को कॉन्फ़िगर करें।
  4. स्वचालित रन: कोड के माध्यम से मूल्यांकन को ट्रिगर करें, और परिणाम को प्रोग्रामेटिक रूप से पुनः प्राप्त करें।

EVALS API एक YAML- आधारित कॉन्फ़िगरेशन संरचना का समर्थन करता है, जो लचीलापन और पुन: प्रयोज्य दोनों के लिए अनुमति देता है।

EVALS API के साथ शुरुआत करना

EVALS API का उपयोग करने के लिए, आप पहले OpenAI पायथन पैकेज स्थापित करते हैं:

फिर, आप एक अंतर्निहित EVAL का उपयोग करके एक मूल्यांकन चला सकते हैं, जैसे factuality_qna

oai evals registry:evaluation:factuality_qna \
  --completion_fns gpt-4 \
  --record_path eval_results.jsonl

या पायथन में एक कस्टम ईवल को परिभाषित करें:

import openai.evals

class MyRegressionEval(openai.evals.Eval):
    def run(self):
        for example in self.get_examples():
            result = self.completion_fn(example('input'))
            score = self.compute_score(result, example('ideal'))
            yield self.make_result(result=result, score=score)

यह उदाहरण दिखाता है कि आप एक कस्टम मूल्यांकन तर्क को कैसे परिभाषित कर सकते हैं – इस मामले में, प्रतिगमन सटीकता को मापना।

मामले का उपयोग करें: प्रतिगमन मूल्यांकन

Openai की कुकबुक उदाहरण API का उपयोग करके एक प्रतिगमन मूल्यांकनकर्ता के निर्माण के माध्यम से चलता है। यहाँ एक सरलीकृत संस्करण है:

from sklearn.metrics import mean_squared_error

class RegressionEval(openai.evals.Eval):
    def run(self):
        predictions, labels = (), ()
        for example in self.get_examples():
            response = self.completion_fn(example('input'))
            predictions.append(float(response.strip()))
            labels.append(example('ideal'))
        mse = mean_squared_error(labels, predictions)
        yield self.make_result(result={"mse": mse}, score=-mse)

यह डेवलपर्स को मॉडल से संख्यात्मक भविष्यवाणियों को बेंचमार्क करने और समय के साथ परिवर्तनों को ट्रैक करने की अनुमति देता है।

निर्बाध वर्कफ़्लो एकीकरण

चाहे आप एक चैटबॉट, सारांश इंजन, या वर्गीकरण प्रणाली का निर्माण कर रहे हों, मूल्यांकन अब आपके CI/CD पाइपलाइन के हिस्से के रूप में ट्रिगर किया जा सकता है। यह सुनिश्चित करता है कि प्रत्येक शीघ्र या मॉडल अपडेट लाइव जाने से पहले प्रदर्शन को बनाए रखता है या बेहतर बनाता है।

openai.evals.run(
  eval_name="my_eval",
  completion_fn="gpt-4",
  eval_config={"path": "eval_config.yaml"}
)

निष्कर्ष

EVALS API का लॉन्च LLM विकास में मजबूत, स्वचालित मूल्यांकन मानकों की ओर एक बदलाव को चिह्नित करता है। प्रोग्राम को कॉन्फ़िगर करने, चलाने और विश्लेषण करने की क्षमता की पेशकश करके, प्रोग्रामेटिक रूप से, Openai टीमों को आत्मविश्वास के साथ निर्माण करने में सक्षम कर रहा है और अपने AI अनुप्रयोगों की गुणवत्ता में लगातार सुधार कर रहा है।

आगे का पता लगाने के लिए, आधिकारिक OpenAI EVALS प्रलेखन और रसोई की किताब के उदाहरण देखें।


Openai EVALS API का परिचय देता है: डेवलपर्स के लिए सुव्यवस्थित मॉडल मूल्यांकन
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »