Monday, April 21, 2025

आईबीएम और हगिंग फेस शोधकर्ताओं ने स्मोल्डोकलिंग रिलीज़ किया: एक 256 मी – Gadgets Solutions

-

जटिल दस्तावेजों को संरचित डेटा में परिवर्तित करने से कंप्यूटर विज्ञान के क्षेत्र में महत्वपूर्ण चुनौतियां हैं। पारंपरिक दृष्टिकोण, कलाकारों की टुकड़ी या बहुत बड़े मूलभूत मॉडल को शामिल करते हुए, अक्सर ठीक-ट्यूनिंग, सामान्यीकरण मुद्दों, मतिभ्रम और उच्च कम्प्यूटेशनल लागतों में कठिनाई जैसे पर्याप्त बाधाओं का सामना करते हैं। एनसेंबल सिस्टम, हालांकि विशिष्ट कार्यों के लिए कुशल, प्रत्येक उप-कार्य के लिए दस्तकारी पाइपलाइनों पर उनकी निर्भरता के कारण अक्सर सामान्यीकरण करने में विफल रहता है। दूसरी ओर, मल्टीमॉडल फाउंडेशनल मॉडल, हालांकि शक्तिशाली, अक्सर उच्च कम्प्यूटेशनल लागत और मतिभ्रम जैसे विश्वसनीयता के मुद्दों से पीड़ित होते हैं।

आईबीएम और हगिंग फेस के शोधकर्ताओं ने हाल ही में स्मोल्डोकलिंग को जारी करके इन चुनौतियों को संबोधित किया है, 256 मीटर ओपन-सोर्स विज़न-लैंग्वेज मॉडल (वीएलएम) ने स्पष्ट रूप से एंड-टू-एंड मल्टी-मोडल डॉक्यूमेंट रूपांतरण कार्यों के लिए डिज़ाइन किया है। बड़े मूलभूत मॉडल के विपरीत, स्मोल्डोकलिंग एक सुव्यवस्थित समाधान प्रदान करता है जो एक एकल मॉडल के माध्यम से पूरे पृष्ठों को संसाधित करता है, जिससे जटिलता और कम्प्यूटेशनल मांगों को काफी कम होता है। इसकी अल्ट्रा-कॉम्पैक्ट प्रकृति, केवल 256 मिलियन मापदंडों पर, यह विशेष रूप से हल्के और संसाधन-कुशल बनाता है। शोधकर्ताओं ने DOCTAGS नामक एक सार्वभौमिक मार्कअप प्रारूप भी विकसित किया, जो एक उच्च कॉम्पैक्ट और स्पष्ट रूप में पृष्ठ तत्वों, उनकी संरचनाओं और स्थानिक संदर्भों को ठीक से पकड़ लेता है।

आईबीएम और हगिंग फेस शोधकर्ताओं ने स्मोल्डोकलिंग रिलीज़ किया: एक 256 मी
 – Gadgets Solutions

Sloldocling अपने आर्किटेक्चर बेस के रूप में चेहरे के कॉम्पैक्ट SMOLVLM-256M को हग करने का लाभ उठाता है, जो अनुकूलित टोकन और आक्रामक दृश्य सुविधा संपीड़न विधियों के माध्यम से कम्प्यूटेशनल जटिलता में महत्वपूर्ण कटौती करता है। इसकी मुख्य शक्ति अभिनव DOCTAGS प्रारूप में निहित है, जो संरचित मार्कअप प्रदान करती है जो विशिष्ट रूप से दस्तावेज़ लेआउट, पाठ्य सामग्री और दृश्य जानकारी जैसे समीकरण, टेबल, कोड स्निपेट और चार्ट को अलग करती है। स्मोल्डोकलिंग कुशल प्रशिक्षण के लिए पाठ्यक्रम सीखने का उपयोग करता है, जिसमें शुरू में अपने विज़न एनकोडर को ठंड करना शामिल होता है और धीरे-धीरे इसे समृद्ध डेटासेट का उपयोग करके ठीक-ठीक ट्यूनिंग करता है जो विभिन्न दस्तावेज़ तत्वों में दृश्य-अर्थ संरेखण को बढ़ाता है। इसके अतिरिक्त, मॉडल की दक्षता इसे 500MB VRAM के तहत उपभोग करते हुए उपभोक्ता GPU पर केवल 0.35 सेकंड प्रति पृष्ठ औसत से बिजली-तेज गति से पूरे दस्तावेज़ पृष्ठों को संसाधित करने की अनुमति देती है।

प्रदर्शन डेटा स्पष्ट रूप से वर्तमान प्रौद्योगिकियों में सबसे आगे बढ़ते हुए तैनात करता है। विभिन्न दस्तावेज़ रूपांतरण कार्यों को शामिल करने वाले व्यापक बेंचमार्क परीक्षणों में, स्मोल्डोकलिंग ने काफी बड़े प्रतिस्पर्धी मॉडल को बेहतर बनाया। उदाहरण के लिए, पूर्ण-पृष्ठ दस्तावेज़ ओसीआर कार्यों में, स्मोल्डोकलिंग ने काफी बेहतर सटीकता मेट्रिक्स प्राप्त की, जैसे कि विशेष रूप से कम संपादन दूरी (0.48) और उच्च F1-स्कोर (0.80), Qwen2.5 VL (7B मापदंडों) और Nougat (350m मापदंडों) जैसे मॉडल की तुलना में। इसने समीकरण प्रतिलेखन में भी उत्कृष्ट प्रदर्शन किया, 0.95 एफ 1-स्कोर प्राप्त किया, जैसे कि अत्याधुनिक मॉडल मिलान करते हैं। इसके अलावा, Sloldocling ने कोड स्निपेट मान्यता में एक नया बेंचमार्क सेट किया, जिसमें क्रमशः उच्च परिशुद्धता और 0.94 और 0.91 के स्कोर को याद किया।

अन्य दस्तावेजों से अलग स्मोल्डोकलिंग क्या सेट करता है OCR समाधान दस्तावेजों के भीतर विविध तत्वों को संभालने की इसकी क्षमता है, जिसमें जटिल आइटम जैसे कोड, चार्ट, समीकरण और विभिन्न लेआउट शामिल हैं। इसकी क्षमताएं पेटेंट, रूपों और व्यावसायिक प्रलेखन को मज़बूती से संभालने के लिए विशिष्ट वैज्ञानिक पत्रों से परे फैली हुई हैं। DOCTAGS के माध्यम से व्यापक संरचित मेटाडेटा की पेशकश करके, Smoldocling HTML या मार्कडाउन जैसे प्रारूपों में निहित अस्पष्टता को समाप्त करता है, दस्तावेज़ रूपांतरणों के डाउनस्ट्रीम प्रयोज्य को बढ़ाता है। इसका कॉम्पैक्ट आकार बड़े पैमाने पर बैच प्रसंस्करण को उल्लेखनीय रूप से कम संसाधन मांगों पर सक्षम बनाता है, जिससे पैमाने पर लागत प्रभावी तैनाती की सुविधा होती है।

अंत में, स्मोल्डोकलिंग दस्तावेज़ रूपांतरण प्रौद्योगिकी में एक महत्वपूर्ण सफलता का प्रतिनिधित्व करता है, यह दर्शाता है कि कॉम्पैक्ट मॉडल न केवल प्रतिस्पर्धा कर सकते हैं, बल्कि महत्वपूर्ण कार्यों में बड़े मूलभूत मॉडल को काफी कम कर सकते हैं। शोधकर्ताओं ने सफलतापूर्वक प्रदर्शन किया है कि कैसे लक्षित प्रशिक्षण, अभिनव डेटा वृद्धि, और उपन्यास मार्कअप प्रारूप जैसे DOCTAGS आकार और जटिलता से जुड़ी पारंपरिक सीमाओं को पार कर सकते हैं। स्मोल्डोक्लिंग की रिलीज़ न केवल ओसीआर प्रौद्योगिकियों के लिए दक्षता और बहुमुखी प्रतिभा में एक नया मानक निर्धारित करती है, बल्कि खुले तौर पर उपलब्ध डेटासेट और एक अत्यधिक कुशल, कॉम्पैक्ट मॉडल आर्किटेक्चर के माध्यम से समुदाय के लिए एक अमूल्य संसाधन भी प्रदान करती है। यह दस्तावेज़ समझने में पर्याप्त उन्नति को चिह्नित करता है और उद्यम-स्तरीय अनुप्रयोगों और व्यापक पहुंच के लिए रोमांचक नई संभावनाओं को खोलता है।


चेक आउट चेहरे पर गले लगाने पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट


NVIDIA ओपन-सोर्स CUOPT: एक एआई-संचालित निर्णय अनुकूलन इंजन-एक अभूतपूर्व पैमाने पर वास्तविक समय का अनुकूलन
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »