Tuesday, April 8, 2025

Reducto AI ने Rolmocr: एक SOTA OCR मॉडल को Qwen 2.5 VL पर बनाया, पूरी तरह से ओपन-सोर्स और Apache 2.0 उन्नत दस्तावेज़ समझ के लिए लाइसेंस प्राप्त किया – Gadgets Solutions

-

ऑप्टिकल चरित्र मान्यता (OCR) लंबे समय से दस्तावेज़ डिजिटलीकरण की आधारशिला रही है, जो मशीन-पठनीय प्रारूपों में मुद्रित पाठ के परिवर्तन को सक्षम करती है। हालांकि, पारंपरिक ओसीआर सिस्टम महत्वपूर्ण सीमाओं का सामना करते हैं क्योंकि दुनिया तेजी से बहुभाषी बढ़ती है और हस्तलिखित और नेत्रहीन संरचित सामग्री पर निर्भर करती है। ये सिस्टम अक्सर विविध स्क्रिप्ट, फ्री-फॉर्म हस्तलिखित सामग्री, और दस्तावेजों की जटिलताओं के साथ संघर्ष करते हैं जिसमें दृश्य संदर्भ के साथ जटिल लेआउट शामिल होते हैं। इसके अलावा, कई OCR समाधान मालिकाना लाइसेंस द्वारा विवश रहते हैं, जिससे उन्हें बड़े पैमाने पर कस्टम अनुप्रयोगों में संशोधन या उपयोग के लिए दुर्गम हो जाता है। खुले, उच्च प्रदर्शन वाले और संदर्भ-जागरूक ओसीआर मॉडल की मांग कभी भी अधिक नहीं रही है, विशेष रूप से उद्यमों और डेवलपर्स ने अपने वर्कफ़्लो में बुद्धिमान दस्तावेज़ को समझने के लिए एकीकृत किया है।

Reducto AI ने पेश किया है रोलमोक्रएक अत्याधुनिक OCR मॉडल जो दृश्य-भाषा तकनीक को आगे बढ़ाता है। Apache 2.0 लाइसेंस के तहत जारी, Rolmocr Qwen2.5-VL पर आधारित है, जो अलीबाबा द्वारा विकसित एक शक्तिशाली दृष्टि-भाषा मॉडल है। यह रणनीतिक फाउंडेशन दृश्य लेआउट और भाषाई सामग्री की गहरी समझ को शामिल करके रोलमोक्र को पारंपरिक चरित्र मान्यता से परे जाने में सक्षम बनाता है। इसकी रिलीज का समय उल्लेखनीय है, ओसीआर सिस्टम की बढ़ती आवश्यकता के साथ मेल खाता है जो हस्तलिखित नोटों से लेकर संरचित सरकारी रूपों तक, विभिन्न प्रकार की भाषाओं और प्रारूपों की सटीक रूप से व्याख्या कर सकते हैं।

Rolmocr ने दस्तावेजों को व्यापक रूप से समझने के लिए Qwen-VL के अंतर्निहित दृष्टि-भाषा संलयन का लाभ उठाया। पारंपरिक ओसीआर मॉडल के विपरीत, यह दृश्य और पाठ्य तत्वों की व्याख्या करता है, जिससे यह कई भाषाओं में मुद्रित और हस्तलिखित पात्रों को पहचानने की अनुमति देता है, लेकिन दस्तावेजों के संरचनात्मक लेआउट भी। इसमें टेबल डिटेक्शन, चेकबॉक्स पार्सिंग और छवि क्षेत्रों और पाठ के बीच सिमेंटिक एसोसिएशन जैसी क्षमताएं शामिल हैं। प्रॉम्प्ट-आधारित इंटरैक्शन का समर्थन करके, उपयोगकर्ता दस्तावेजों से विशिष्ट सामग्री निकालने के लिए प्राकृतिक भाषा के साथ मॉडल को क्वेरी कर सकते हैं, गतिशील या नियम-आधारित वातावरण में इसकी प्रयोज्यता को बढ़ा सकते हैं। वास्तविक दुनिया के स्कैन किए गए दस्तावेजों और कम-संसाधन वाली भाषाओं सहित विविध डेटासेट में इसका प्रदर्शन ओपन-सोर्स ओसीआर में एक नया बेंचमार्क सेट करता है।

रोलमोक्र की मजबूत क्षमताएं कानूनी और सरकारी क्षेत्रों में उच्च निष्ठा के साथ बहुभाषी रूपों, परमिट और अनुबंधों के प्रसंस्करण को स्वचालित कर सकती हैं। शैक्षिक और अनुसंधान समुदायों को हस्तलिखित नोटों, ऐतिहासिक अभिलेखागार और शैक्षणिक प्रकाशनों को डिजिटाइज़ करने की क्षमता से लाभ होता है, जिससे वे खोजा और विश्लेषण योग्य हो जाते हैं। वित्तीय और बीमा कार्यों में, रोलमोक्रोक्रिप्शन इनवॉइस, स्टेटमेंट और पॉलिसी दस्तावेजों से संरचित जानकारी के निष्कर्षण की सुविधा देता है। हेल्थकेयर संस्थान हस्तलिखित नुस्खे और रोगी के सेवन रूपों को डिजिटाइज़ करने के लिए मॉडल का उपयोग कर सकते हैं, डेटा पहुंच और अनुपालन में सुधार कर सकते हैं। इसके अलावा, Rolmocr अनुक्रमण और पुनर्प्राप्ति के लिए उपयुक्त संरचित डेटासेट में स्कैन किए गए दस्तावेजों को बदलकर बुद्धिमान खोज इंजन का निर्माण करता है। इसका प्रॉम्प्ट-आधारित क्वेरी मैकेनिज्म आगे इसके अनुकूलनशीलता को बढ़ाता है, जिससे डेवलपर्स को एआई एजेंटों या वर्कफ़्लो ऑटोमेशन में ओसीआर-चालित तर्क को एम्बेड करने की अनुमति मिलती है।

अंत में, Reducto AI एक उपकरण प्रदान करता है जो विविध दस्तावेज़ प्रकारों और भाषाओं में असाधारण रूप से अच्छा प्रदर्शन करता है और अप्रतिबंधित उपयोग के माध्यम से नवाचार को सशक्त बनाता है। अपाचे 2.0 लाइसेंस के तहत रोलमोक्र की रिहाई से यह सुनिश्चित होता है कि यह अकादमिक और वाणिज्यिक सेटिंग्स में ठीक-ठाक, एकीकृत और स्केल किया जा सकता है। रोलमोक्र जैसे उपकरण स्केलेबल, बुद्धिमान और समावेशी ओसीआर समाधान प्रदान करने में महत्वपूर्ण भूमिका निभाएंगे। QWEN2.5-VL के आधार पर, इसकी वास्तुकला AI- संचालित दस्तावेज़ समझ के भविष्य में एक झलक प्रदान करती है, जो बहुभाषी, लेआउट-जागरूक और प्रोग्राम योग्य है।


चेक आउट चेहरे पर गले लगाने पर मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमारे साथ जुड़ने के लिए मत भूलना 85K+ एमएल सबरेडिट

🔥


Reducto AI ने Rolmocr: एक SOTA OCR मॉडल को Qwen 2.5 VL पर बनाया, पूरी तरह से ओपन-सोर्स और Apache 2.0 उन्नत दस्तावेज़ समझ के लिए लाइसेंस प्राप्त किया
 – Gadgets Solutions

आईआईटी मद्रास में मार्कटेकपोस्ट में एक परामर्श इंटर्न और दोहरे डिग्री के छात्र सना हसन, वास्तविक दुनिया की चुनौतियों का समाधान करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में भावुक हैं। व्यावहारिक समस्याओं को हल करने में गहरी रुचि के साथ, वह एआई और वास्तविक जीवन के समाधानों के चौराहे के लिए एक नया दृष्टिकोण लाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »