आईबीएम और हगिंग फेस शोधकर्ताओं ने स्मोल्डोकलिंग रिलीज़ किया: एक 256 मी – Gadgets Solutions

जटिल दस्तावेजों को संरचित डेटा में परिवर्तित करने से कंप्यूटर विज्ञान के क्षेत्र में महत्वपूर्ण चुनौतियां हैं। पारंपरिक दृष्टिकोण, कलाकारों की टुकड़ी या बहुत बड़े मूलभूत मॉडल को शामिल करते हुए, अक्सर ठीक-ट्यूनिंग, सामान्यीकरण मुद्दों, मतिभ्रम और उच्च कम्प्यूटेशनल लागतों में कठिनाई जैसे पर्याप्त बाधाओं का सामना करते हैं। एनसेंबल सिस्टम, हालांकि विशिष्ट कार्यों के लिए कुशल, प्रत्येक उप-कार्य के लिए दस्तकारी पाइपलाइनों पर उनकी निर्भरता के कारण अक्सर सामान्यीकरण करने में विफल रहता है। दूसरी ओर, मल्टीमॉडल फाउंडेशनल मॉडल, हालांकि शक्तिशाली, अक्सर उच्च कम्प्यूटेशनल लागत और मतिभ्रम जैसे विश्वसनीयता के मुद्दों से पीड़ित होते हैं।

आईबीएम और हगिंग फेस के शोधकर्ताओं ने हाल ही में स्मोल्डोकलिंग को जारी करके इन चुनौतियों को संबोधित किया है, 256 मीटर ओपन-सोर्स विज़न-लैंग्वेज मॉडल (वीएलएम) ने स्पष्ट रूप से एंड-टू-एंड मल्टी-मोडल डॉक्यूमेंट रूपांतरण कार्यों के लिए डिज़ाइन किया है। बड़े मूलभूत मॉडल के विपरीत, स्मोल्डोकलिंग एक सुव्यवस्थित समाधान प्रदान करता है जो एक एकल मॉडल के माध्यम से पूरे पृष्ठों को संसाधित करता है, जिससे जटिलता और कम्प्यूटेशनल मांगों को काफी कम होता है। इसकी अल्ट्रा-कॉम्पैक्ट प्रकृति, केवल 256 मिलियन मापदंडों पर, यह विशेष रूप से हल्के और संसाधन-कुशल बनाता है। शोधकर्ताओं ने DOCTAGS नामक एक सार्वभौमिक मार्कअप प्रारूप भी विकसित किया, जो एक उच्च कॉम्पैक्ट और स्पष्ट रूप में पृष्ठ तत्वों, उनकी संरचनाओं और स्थानिक संदर्भों को ठीक से पकड़ लेता है।

आईबीएम और हगिंग फेस शोधकर्ताओं ने स्मोल्डोकलिंग रिलीज़ किया: एक 256 मी
– Gadgets Solutions

Sloldocling अपने आर्किटेक्चर बेस के रूप में चेहरे के कॉम्पैक्ट SMOLVLM-256M को हग करने का लाभ उठाता है, जो अनुकूलित टोकन और आक्रामक दृश्य सुविधा संपीड़न विधियों के माध्यम से कम्प्यूटेशनल जटिलता में महत्वपूर्ण कटौती करता है। इसकी मुख्य शक्ति अभिनव DOCTAGS प्रारूप में निहित है, जो संरचित मार्कअप प्रदान करती है जो विशिष्ट रूप से दस्तावेज़ लेआउट, पाठ्य सामग्री और दृश्य जानकारी जैसे समीकरण, टेबल, कोड स्निपेट और चार्ट को अलग करती है। स्मोल्डोकलिंग कुशल प्रशिक्षण के लिए पाठ्यक्रम सीखने का उपयोग करता है, जिसमें शुरू में अपने विज़न एनकोडर को ठंड करना शामिल होता है और धीरे-धीरे इसे समृद्ध डेटासेट का उपयोग करके ठीक-ठीक ट्यूनिंग करता है जो विभिन्न दस्तावेज़ तत्वों में दृश्य-अर्थ संरेखण को बढ़ाता है। इसके अतिरिक्त, मॉडल की दक्षता इसे 500MB VRAM के तहत उपभोग करते हुए उपभोक्ता GPU पर केवल 0.35 सेकंड प्रति पृष्ठ औसत से बिजली-तेज गति से पूरे दस्तावेज़ पृष्ठों को संसाधित करने की अनुमति देती है।

प्रदर्शन डेटा स्पष्ट रूप से वर्तमान प्रौद्योगिकियों में सबसे आगे बढ़ते हुए तैनात करता है। विभिन्न दस्तावेज़ रूपांतरण कार्यों को शामिल करने वाले व्यापक बेंचमार्क परीक्षणों में, स्मोल्डोकलिंग ने काफी बड़े प्रतिस्पर्धी मॉडल को बेहतर बनाया। उदाहरण के लिए, पूर्ण-पृष्ठ दस्तावेज़ ओसीआर कार्यों में, स्मोल्डोकलिंग ने काफी बेहतर सटीकता मेट्रिक्स प्राप्त की, जैसे कि विशेष रूप से कम संपादन दूरी (0.48) और उच्च F1-स्कोर (0.80), Qwen2.5 VL (7B मापदंडों) और Nougat (350m मापदंडों) जैसे मॉडल की तुलना में। इसने समीकरण प्रतिलेखन में भी उत्कृष्ट प्रदर्शन किया, 0.95 एफ 1-स्कोर प्राप्त किया, जैसे कि अत्याधुनिक मॉडल मिलान करते हैं। इसके अलावा, Sloldocling ने कोड स्निपेट मान्यता में एक नया बेंचमार्क सेट किया, जिसमें क्रमशः उच्च परिशुद्धता और 0.94 और 0.91 के स्कोर को याद किया।

अन्य दस्तावेजों से अलग स्मोल्डोकलिंग क्या सेट करता है OCR समाधान दस्तावेजों के भीतर विविध तत्वों को संभालने की इसकी क्षमता है, जिसमें जटिल आइटम जैसे कोड, चार्ट, समीकरण और विभिन्न लेआउट शामिल हैं। इसकी क्षमताएं पेटेंट, रूपों और व्यावसायिक प्रलेखन को मज़बूती से संभालने के लिए विशिष्ट वैज्ञानिक पत्रों से परे फैली हुई हैं। DOCTAGS के माध्यम से व्यापक संरचित मेटाडेटा की पेशकश करके, Smoldocling HTML या मार्कडाउन जैसे प्रारूपों में निहित अस्पष्टता को समाप्त करता है, दस्तावेज़ रूपांतरणों के डाउनस्ट्रीम प्रयोज्य को बढ़ाता है। इसका कॉम्पैक्ट आकार बड़े पैमाने पर बैच प्रसंस्करण को उल्लेखनीय रूप से कम संसाधन मांगों पर सक्षम बनाता है, जिससे पैमाने पर लागत प्रभावी तैनाती की सुविधा होती है।

अंत में, स्मोल्डोकलिंग दस्तावेज़ रूपांतरण प्रौद्योगिकी में एक महत्वपूर्ण सफलता का प्रतिनिधित्व करता है, यह दर्शाता है कि कॉम्पैक्ट मॉडल न केवल प्रतिस्पर्धा कर सकते हैं, बल्कि महत्वपूर्ण कार्यों में बड़े मूलभूत मॉडल को काफी कम कर सकते हैं। शोधकर्ताओं ने सफलतापूर्वक प्रदर्शन किया है कि कैसे लक्षित प्रशिक्षण, अभिनव डेटा वृद्धि, और उपन्यास मार्कअप प्रारूप जैसे DOCTAGS आकार और जटिलता से जुड़ी पारंपरिक सीमाओं को पार कर सकते हैं। स्मोल्डोक्लिंग की रिलीज़ न केवल ओसीआर प्रौद्योगिकियों के लिए दक्षता और बहुमुखी प्रतिभा में एक नया मानक निर्धारित करती है, बल्कि खुले तौर पर उपलब्ध डेटासेट और एक अत्यधिक कुशल, कॉम्पैक्ट मॉडल आर्किटेक्चर के माध्यम से समुदाय के लिए एक अमूल्य संसाधन भी प्रदान करती है। यह दस्तावेज़ समझने में पर्याप्त उन्नति को चिह्नित करता है और उद्यम-स्तरीय अनुप्रयोगों और व्यापक पहुंच के लिए रोमांचक नई संभावनाओं को खोलता है।

चेक आउट चेहरे पर गले लगाने पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

इस हाइब्रिड स्मार्टवॉच ने आखिरकार मुझे Apple वॉच को खोदने के लिए मना लिया – Gadgets Solutions

NVIDIA ओपन-सोर्स CUOPT: एक एआई-संचालित निर्णय अनुकूलन इंजन-एक अभूतपूर्व पैमाने पर वास्तविक समय का अनुकूलन – Gadgets Solutions

आईबीएम और हगिंग फेस शोधकर्ताओं ने स्मोल्डोकलिंग रिलीज़ किया: एक 256 मी – Gadgets Solutions

LEAVE A REPLY Cancel reply

FOLLOW US

LATEST POSTS

Related Stories

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US