जटिल दस्तावेजों को संरचित डेटा में परिवर्तित करने से कंप्यूटर विज्ञान के क्षेत्र में महत्वपूर्ण चुनौतियां हैं। पारंपरिक दृष्टिकोण, कलाकारों की टुकड़ी या बहुत बड़े मूलभूत मॉडल को शामिल करते हुए, अक्सर ठीक-ट्यूनिंग, सामान्यीकरण मुद्दों, मतिभ्रम और उच्च कम्प्यूटेशनल लागतों में कठिनाई जैसे पर्याप्त बाधाओं का सामना करते हैं। एनसेंबल सिस्टम, हालांकि विशिष्ट कार्यों के लिए कुशल, प्रत्येक उप-कार्य के लिए दस्तकारी पाइपलाइनों पर उनकी निर्भरता के कारण अक्सर सामान्यीकरण करने में विफल रहता है। दूसरी ओर, मल्टीमॉडल फाउंडेशनल मॉडल, हालांकि शक्तिशाली, अक्सर उच्च कम्प्यूटेशनल लागत और मतिभ्रम जैसे विश्वसनीयता के मुद्दों से पीड़ित होते हैं।
आईबीएम और हगिंग फेस के शोधकर्ताओं ने हाल ही में स्मोल्डोकलिंग को जारी करके इन चुनौतियों को संबोधित किया है, 256 मीटर ओपन-सोर्स विज़न-लैंग्वेज मॉडल (वीएलएम) ने स्पष्ट रूप से एंड-टू-एंड मल्टी-मोडल डॉक्यूमेंट रूपांतरण कार्यों के लिए डिज़ाइन किया है। बड़े मूलभूत मॉडल के विपरीत, स्मोल्डोकलिंग एक सुव्यवस्थित समाधान प्रदान करता है जो एक एकल मॉडल के माध्यम से पूरे पृष्ठों को संसाधित करता है, जिससे जटिलता और कम्प्यूटेशनल मांगों को काफी कम होता है। इसकी अल्ट्रा-कॉम्पैक्ट प्रकृति, केवल 256 मिलियन मापदंडों पर, यह विशेष रूप से हल्के और संसाधन-कुशल बनाता है। शोधकर्ताओं ने DOCTAGS नामक एक सार्वभौमिक मार्कअप प्रारूप भी विकसित किया, जो एक उच्च कॉम्पैक्ट और स्पष्ट रूप में पृष्ठ तत्वों, उनकी संरचनाओं और स्थानिक संदर्भों को ठीक से पकड़ लेता है।

Sloldocling अपने आर्किटेक्चर बेस के रूप में चेहरे के कॉम्पैक्ट SMOLVLM-256M को हग करने का लाभ उठाता है, जो अनुकूलित टोकन और आक्रामक दृश्य सुविधा संपीड़न विधियों के माध्यम से कम्प्यूटेशनल जटिलता में महत्वपूर्ण कटौती करता है। इसकी मुख्य शक्ति अभिनव DOCTAGS प्रारूप में निहित है, जो संरचित मार्कअप प्रदान करती है जो विशिष्ट रूप से दस्तावेज़ लेआउट, पाठ्य सामग्री और दृश्य जानकारी जैसे समीकरण, टेबल, कोड स्निपेट और चार्ट को अलग करती है। स्मोल्डोकलिंग कुशल प्रशिक्षण के लिए पाठ्यक्रम सीखने का उपयोग करता है, जिसमें शुरू में अपने विज़न एनकोडर को ठंड करना शामिल होता है और धीरे-धीरे इसे समृद्ध डेटासेट का उपयोग करके ठीक-ठीक ट्यूनिंग करता है जो विभिन्न दस्तावेज़ तत्वों में दृश्य-अर्थ संरेखण को बढ़ाता है। इसके अतिरिक्त, मॉडल की दक्षता इसे 500MB VRAM के तहत उपभोग करते हुए उपभोक्ता GPU पर केवल 0.35 सेकंड प्रति पृष्ठ औसत से बिजली-तेज गति से पूरे दस्तावेज़ पृष्ठों को संसाधित करने की अनुमति देती है।

प्रदर्शन डेटा स्पष्ट रूप से वर्तमान प्रौद्योगिकियों में सबसे आगे बढ़ते हुए तैनात करता है। विभिन्न दस्तावेज़ रूपांतरण कार्यों को शामिल करने वाले व्यापक बेंचमार्क परीक्षणों में, स्मोल्डोकलिंग ने काफी बड़े प्रतिस्पर्धी मॉडल को बेहतर बनाया। उदाहरण के लिए, पूर्ण-पृष्ठ दस्तावेज़ ओसीआर कार्यों में, स्मोल्डोकलिंग ने काफी बेहतर सटीकता मेट्रिक्स प्राप्त की, जैसे कि विशेष रूप से कम संपादन दूरी (0.48) और उच्च F1-स्कोर (0.80), Qwen2.5 VL (7B मापदंडों) और Nougat (350m मापदंडों) जैसे मॉडल की तुलना में। इसने समीकरण प्रतिलेखन में भी उत्कृष्ट प्रदर्शन किया, 0.95 एफ 1-स्कोर प्राप्त किया, जैसे कि अत्याधुनिक मॉडल मिलान करते हैं। इसके अलावा, Sloldocling ने कोड स्निपेट मान्यता में एक नया बेंचमार्क सेट किया, जिसमें क्रमशः उच्च परिशुद्धता और 0.94 और 0.91 के स्कोर को याद किया।


अन्य दस्तावेजों से अलग स्मोल्डोकलिंग क्या सेट करता है OCR समाधान दस्तावेजों के भीतर विविध तत्वों को संभालने की इसकी क्षमता है, जिसमें जटिल आइटम जैसे कोड, चार्ट, समीकरण और विभिन्न लेआउट शामिल हैं। इसकी क्षमताएं पेटेंट, रूपों और व्यावसायिक प्रलेखन को मज़बूती से संभालने के लिए विशिष्ट वैज्ञानिक पत्रों से परे फैली हुई हैं। DOCTAGS के माध्यम से व्यापक संरचित मेटाडेटा की पेशकश करके, Smoldocling HTML या मार्कडाउन जैसे प्रारूपों में निहित अस्पष्टता को समाप्त करता है, दस्तावेज़ रूपांतरणों के डाउनस्ट्रीम प्रयोज्य को बढ़ाता है। इसका कॉम्पैक्ट आकार बड़े पैमाने पर बैच प्रसंस्करण को उल्लेखनीय रूप से कम संसाधन मांगों पर सक्षम बनाता है, जिससे पैमाने पर लागत प्रभावी तैनाती की सुविधा होती है।
अंत में, स्मोल्डोकलिंग दस्तावेज़ रूपांतरण प्रौद्योगिकी में एक महत्वपूर्ण सफलता का प्रतिनिधित्व करता है, यह दर्शाता है कि कॉम्पैक्ट मॉडल न केवल प्रतिस्पर्धा कर सकते हैं, बल्कि महत्वपूर्ण कार्यों में बड़े मूलभूत मॉडल को काफी कम कर सकते हैं। शोधकर्ताओं ने सफलतापूर्वक प्रदर्शन किया है कि कैसे लक्षित प्रशिक्षण, अभिनव डेटा वृद्धि, और उपन्यास मार्कअप प्रारूप जैसे DOCTAGS आकार और जटिलता से जुड़ी पारंपरिक सीमाओं को पार कर सकते हैं। स्मोल्डोक्लिंग की रिलीज़ न केवल ओसीआर प्रौद्योगिकियों के लिए दक्षता और बहुमुखी प्रतिभा में एक नया मानक निर्धारित करती है, बल्कि खुले तौर पर उपलब्ध डेटासेट और एक अत्यधिक कुशल, कॉम्पैक्ट मॉडल आर्किटेक्चर के माध्यम से समुदाय के लिए एक अमूल्य संसाधन भी प्रदान करती है। यह दस्तावेज़ समझने में पर्याप्त उन्नति को चिह्नित करता है और उद्यम-स्तरीय अनुप्रयोगों और व्यापक पहुंच के लिए रोमांचक नई संभावनाओं को खोलता है।
चेक आउट चेहरे पर गले लगाने पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 80K+ एमएल सब्रेडिट।

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।