डेवलपर्स और बड़ी भाषा मॉडल (LLMS) के साथ काम करने वाली टीमों को सशक्त बनाने के लिए एक महत्वपूर्ण कदम में, Openai ने पेश किया है इवल्स एपीआईएक नया टूलसेट जो प्रोग्रामेटिक मूल्यांकन क्षमताओं को सबसे आगे लाता है। जबकि मूल्यांकन पहले ओपनईए डैशबोर्ड के माध्यम से सुलभ थे, नया एपीआई डेवलपर्स को अनुमति देता है परीक्षणों को परिभाषित करें, मूल्यांकन को स्वचालित करें, और संकेतों पर पुनरावृत्ति करें सीधे उनके वर्कफ़्लोज़ से।
क्यों evals एपीआई मायने रखता है
एलएलएम प्रदर्शन का मूल्यांकन अक्सर एक मैनुअल, समय लेने वाली प्रक्रिया है, विशेष रूप से विविध डोमेन में अनुप्रयोगों को स्केल करने वाली टीमों के लिए। EVALS API के साथ, Openai एक व्यवस्थित दृष्टिकोण प्रदान करता है:
- कस्टम परीक्षण मामलों पर मॉडल प्रदर्शन का आकलन करें
- त्वरित पुनरावृत्तियों में सुधार को मापें
- विकास पाइपलाइनों में गुणवत्ता आश्वासन को स्वचालित करें
अब, प्रत्येक डेवलपर विकास चक्र में एक प्रथम श्रेणी के नागरिक के रूप में मूल्यांकन का इलाज कर सकता है-पारंपरिक सॉफ्टवेयर इंजीनियरिंग में यूनिट परीक्षणों का इलाज कैसे किया जाता है।
EVALS API की मुख्य विशेषताएं
- कस्टम एवल परिभाषाएँ: डेवलपर्स आधार कक्षाओं का विस्तार करके अपने स्वयं के मूल्यांकन तर्क को लिख सकते हैं।
- परीक्षण डेटा एकीकरण: विशिष्ट परिदृश्यों का परीक्षण करने के लिए मूल रूप से मूल्यांकन डेटासेट को एकीकृत करें।
- पैरामीटर विन्यास: मॉडल, तापमान, अधिकतम टोकन और अन्य पीढ़ी के मापदंडों को कॉन्फ़िगर करें।
- स्वचालित रन: कोड के माध्यम से मूल्यांकन को ट्रिगर करें, और परिणाम को प्रोग्रामेटिक रूप से पुनः प्राप्त करें।
EVALS API एक YAML- आधारित कॉन्फ़िगरेशन संरचना का समर्थन करता है, जो लचीलापन और पुन: प्रयोज्य दोनों के लिए अनुमति देता है।
EVALS API के साथ शुरुआत करना
EVALS API का उपयोग करने के लिए, आप पहले OpenAI पायथन पैकेज स्थापित करते हैं:
फिर, आप एक अंतर्निहित EVAL का उपयोग करके एक मूल्यांकन चला सकते हैं, जैसे factuality_qna
oai evals registry:evaluation:factuality_qna \
--completion_fns gpt-4 \
--record_path eval_results.jsonl
या पायथन में एक कस्टम ईवल को परिभाषित करें:
import openai.evals
class MyRegressionEval(openai.evals.Eval):
def run(self):
for example in self.get_examples():
result = self.completion_fn(example('input'))
score = self.compute_score(result, example('ideal'))
yield self.make_result(result=result, score=score)
यह उदाहरण दिखाता है कि आप एक कस्टम मूल्यांकन तर्क को कैसे परिभाषित कर सकते हैं – इस मामले में, प्रतिगमन सटीकता को मापना।
मामले का उपयोग करें: प्रतिगमन मूल्यांकन
Openai की कुकबुक उदाहरण API का उपयोग करके एक प्रतिगमन मूल्यांकनकर्ता के निर्माण के माध्यम से चलता है। यहाँ एक सरलीकृत संस्करण है:
from sklearn.metrics import mean_squared_error
class RegressionEval(openai.evals.Eval):
def run(self):
predictions, labels = (), ()
for example in self.get_examples():
response = self.completion_fn(example('input'))
predictions.append(float(response.strip()))
labels.append(example('ideal'))
mse = mean_squared_error(labels, predictions)
yield self.make_result(result={"mse": mse}, score=-mse)
यह डेवलपर्स को मॉडल से संख्यात्मक भविष्यवाणियों को बेंचमार्क करने और समय के साथ परिवर्तनों को ट्रैक करने की अनुमति देता है।
निर्बाध वर्कफ़्लो एकीकरण
चाहे आप एक चैटबॉट, सारांश इंजन, या वर्गीकरण प्रणाली का निर्माण कर रहे हों, मूल्यांकन अब आपके CI/CD पाइपलाइन के हिस्से के रूप में ट्रिगर किया जा सकता है। यह सुनिश्चित करता है कि प्रत्येक शीघ्र या मॉडल अपडेट लाइव जाने से पहले प्रदर्शन को बनाए रखता है या बेहतर बनाता है।
openai.evals.run(
eval_name="my_eval",
completion_fn="gpt-4",
eval_config={"path": "eval_config.yaml"}
)
निष्कर्ष
EVALS API का लॉन्च LLM विकास में मजबूत, स्वचालित मूल्यांकन मानकों की ओर एक बदलाव को चिह्नित करता है। प्रोग्राम को कॉन्फ़िगर करने, चलाने और विश्लेषण करने की क्षमता की पेशकश करके, प्रोग्रामेटिक रूप से, Openai टीमों को आत्मविश्वास के साथ निर्माण करने में सक्षम कर रहा है और अपने AI अनुप्रयोगों की गुणवत्ता में लगातार सुधार कर रहा है।
आगे का पता लगाने के लिए, आधिकारिक OpenAI EVALS प्रलेखन और रसोई की किताब के उदाहरण देखें।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।
