ऑप्टिकल चरित्र मान्यता (OCR) लंबे समय से दस्तावेज़ डिजिटलीकरण की आधारशिला रही है, जो मशीन-पठनीय प्रारूपों में मुद्रित पाठ के परिवर्तन को सक्षम करती है। हालांकि, पारंपरिक ओसीआर सिस्टम महत्वपूर्ण सीमाओं का सामना करते हैं क्योंकि दुनिया तेजी से बहुभाषी बढ़ती है और हस्तलिखित और नेत्रहीन संरचित सामग्री पर निर्भर करती है। ये सिस्टम अक्सर विविध स्क्रिप्ट, फ्री-फॉर्म हस्तलिखित सामग्री, और दस्तावेजों की जटिलताओं के साथ संघर्ष करते हैं जिसमें दृश्य संदर्भ के साथ जटिल लेआउट शामिल होते हैं। इसके अलावा, कई OCR समाधान मालिकाना लाइसेंस द्वारा विवश रहते हैं, जिससे उन्हें बड़े पैमाने पर कस्टम अनुप्रयोगों में संशोधन या उपयोग के लिए दुर्गम हो जाता है। खुले, उच्च प्रदर्शन वाले और संदर्भ-जागरूक ओसीआर मॉडल की मांग कभी भी अधिक नहीं रही है, विशेष रूप से उद्यमों और डेवलपर्स ने अपने वर्कफ़्लो में बुद्धिमान दस्तावेज़ को समझने के लिए एकीकृत किया है।
Reducto AI ने पेश किया है रोलमोक्रएक अत्याधुनिक OCR मॉडल जो दृश्य-भाषा तकनीक को आगे बढ़ाता है। Apache 2.0 लाइसेंस के तहत जारी, Rolmocr Qwen2.5-VL पर आधारित है, जो अलीबाबा द्वारा विकसित एक शक्तिशाली दृष्टि-भाषा मॉडल है। यह रणनीतिक फाउंडेशन दृश्य लेआउट और भाषाई सामग्री की गहरी समझ को शामिल करके रोलमोक्र को पारंपरिक चरित्र मान्यता से परे जाने में सक्षम बनाता है। इसकी रिलीज का समय उल्लेखनीय है, ओसीआर सिस्टम की बढ़ती आवश्यकता के साथ मेल खाता है जो हस्तलिखित नोटों से लेकर संरचित सरकारी रूपों तक, विभिन्न प्रकार की भाषाओं और प्रारूपों की सटीक रूप से व्याख्या कर सकते हैं।
Rolmocr ने दस्तावेजों को व्यापक रूप से समझने के लिए Qwen-VL के अंतर्निहित दृष्टि-भाषा संलयन का लाभ उठाया। पारंपरिक ओसीआर मॉडल के विपरीत, यह दृश्य और पाठ्य तत्वों की व्याख्या करता है, जिससे यह कई भाषाओं में मुद्रित और हस्तलिखित पात्रों को पहचानने की अनुमति देता है, लेकिन दस्तावेजों के संरचनात्मक लेआउट भी। इसमें टेबल डिटेक्शन, चेकबॉक्स पार्सिंग और छवि क्षेत्रों और पाठ के बीच सिमेंटिक एसोसिएशन जैसी क्षमताएं शामिल हैं। प्रॉम्प्ट-आधारित इंटरैक्शन का समर्थन करके, उपयोगकर्ता दस्तावेजों से विशिष्ट सामग्री निकालने के लिए प्राकृतिक भाषा के साथ मॉडल को क्वेरी कर सकते हैं, गतिशील या नियम-आधारित वातावरण में इसकी प्रयोज्यता को बढ़ा सकते हैं। वास्तविक दुनिया के स्कैन किए गए दस्तावेजों और कम-संसाधन वाली भाषाओं सहित विविध डेटासेट में इसका प्रदर्शन ओपन-सोर्स ओसीआर में एक नया बेंचमार्क सेट करता है।
रोलमोक्र की मजबूत क्षमताएं कानूनी और सरकारी क्षेत्रों में उच्च निष्ठा के साथ बहुभाषी रूपों, परमिट और अनुबंधों के प्रसंस्करण को स्वचालित कर सकती हैं। शैक्षिक और अनुसंधान समुदायों को हस्तलिखित नोटों, ऐतिहासिक अभिलेखागार और शैक्षणिक प्रकाशनों को डिजिटाइज़ करने की क्षमता से लाभ होता है, जिससे वे खोजा और विश्लेषण योग्य हो जाते हैं। वित्तीय और बीमा कार्यों में, रोलमोक्रोक्रिप्शन इनवॉइस, स्टेटमेंट और पॉलिसी दस्तावेजों से संरचित जानकारी के निष्कर्षण की सुविधा देता है। हेल्थकेयर संस्थान हस्तलिखित नुस्खे और रोगी के सेवन रूपों को डिजिटाइज़ करने के लिए मॉडल का उपयोग कर सकते हैं, डेटा पहुंच और अनुपालन में सुधार कर सकते हैं। इसके अलावा, Rolmocr अनुक्रमण और पुनर्प्राप्ति के लिए उपयुक्त संरचित डेटासेट में स्कैन किए गए दस्तावेजों को बदलकर बुद्धिमान खोज इंजन का निर्माण करता है। इसका प्रॉम्प्ट-आधारित क्वेरी मैकेनिज्म आगे इसके अनुकूलनशीलता को बढ़ाता है, जिससे डेवलपर्स को एआई एजेंटों या वर्कफ़्लो ऑटोमेशन में ओसीआर-चालित तर्क को एम्बेड करने की अनुमति मिलती है।
अंत में, Reducto AI एक उपकरण प्रदान करता है जो विविध दस्तावेज़ प्रकारों और भाषाओं में असाधारण रूप से अच्छा प्रदर्शन करता है और अप्रतिबंधित उपयोग के माध्यम से नवाचार को सशक्त बनाता है। अपाचे 2.0 लाइसेंस के तहत रोलमोक्र की रिहाई से यह सुनिश्चित होता है कि यह अकादमिक और वाणिज्यिक सेटिंग्स में ठीक-ठाक, एकीकृत और स्केल किया जा सकता है। रोलमोक्र जैसे उपकरण स्केलेबल, बुद्धिमान और समावेशी ओसीआर समाधान प्रदान करने में महत्वपूर्ण भूमिका निभाएंगे। QWEN2.5-VL के आधार पर, इसकी वास्तुकला AI- संचालित दस्तावेज़ समझ के भविष्य में एक झलक प्रदान करती है, जो बहुभाषी, लेआउट-जागरूक और प्रोग्राम योग्य है।
चेक आउट चेहरे पर गले लगाने पर मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट।
🔥 ।

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।
