Порівняння програмного забезпечення для оптичного розпізнавання символів

стаття-список у проєкті Вікімедіа

Це порівняння програмного забезпечення для порівняння оптичного розпізнавання символів включає:

  • Двигун OCR, який безпосередньо виконує ідентифікацію символів
  • Програмний код для аналізу зон, який ділить відсканований документ на зони, придатних для оптичного розпізнавання
  • Графічні інтерфейси до одного або декількох двигунів OCR
  • Комплекти розробки програмного забезпечення, які використовуються для додавання можливості розпізнавання в інше програмне забезпечення (наприклад, додатки для обробки форм, системи керування візуалізацією документів, системи електронного виявлення, записи рішень в галузі керування)
Sortable table
Назва Рік заснування Останній стабільний випуск Рік випуску Тип ліцензії Мережева версія Windows Mac OS X Linux BSD Мови програмування Наявний SDK Мови Шрифти Вихідні формати файлів Примітки
Tesseract 1985 3.04.01 2016-02-16 Apache Ні Так Так Так Так C++, C Так 100+[1] ? Text, hOCR,[2] PDF, інші, у залежності від різного користувацького мнтерфейсу[3] або API Створено компанією Hewlett-Packard; при подальшій розробці компанією Google[4]
Screenworm 2013 1.0 2014 власницька Ні Ні Так Ні Ні Objective-C++ Ні 57 ? TXT Продукт компанії Funchip. Використовують OCR-двигун Tesseract.
ExperVision[5] TypeReader & RTK 1987 7.1.170.1125 2010 власницька Так Так Так Так Так C/C++ Так 21 2618 Має мобільну і вбудовану версії для системи на iOS/Android і інші.
AliusDoc AD-SCI[6] 2005 2.1 2015 власницька Ні Так Ні Ні Ні VB.Net Для розширень Всі мови, сумісні з ASCII ? XML, PlainText, будь-які інші, завдяки розширенням Мінімальні потреби у післяпродажному Професійному Сервісі. Працює зі структурованими, напівструктурованими, і неструктурованими документами.
ABBYY FineReader 1989 14 2017-01-25 власницька Так Так Так Так Так C/C++ Так 192[7] ? DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2[8] Компанія ABBYY також надає комплекти розробки програмного забезпечення для вбудованих та мобільних пристроїв. Професійна, Корпоративна та Ліцензія для Сайту версії випусків для Windows, Express Edition для Mac.[9]
e-Aksharayan 2010 Так Ні Так Ні 14 RTF, TXT, BRL
Asprise OCR[en] SDK 1998 15 2015 власницька Так Так Так Так Так Java, C#,VB.NET, C/C++/Delphi Так 20+[10] ? звичайний txt, PDF з можливістю пошуку, XML[11] Java, C#, VB.NET, C/C++/Delphi SDK-ї для оптичного розпізнавання та зчитування Баркодів для систем на Windows, Linux, Mac OS X та Unix.[12]
Nicomsoft OCR SDK 1999 5.5 2015 власницька Ні Так Ні Так Ні C#, VB.NET, C++, Delphi, Java Так 25+[13] ? PDF з можливістю пошуку, Text, RTF C#, VB.NET, C++, Delphi, Java засоби розпізнавання символів для Windows та Linux.[14]
AnyDoc Software[en] 1989 ? ? власницька Ні Так Ні Ні Ні VBScript ? ? ? Працює зі структурованими, напівструктурованими, і неструктурованими документами.
LEADTOOLS[15] 1990[16] 19.0 2014 власницька Так Так Так Так Ні C/C++, .NET, Objective-C, Java, JavaScript Так 56[17] Будь-які друковані шрифти PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV[18] Підтримка Латинських, Азіатських, Арабських наборів символів і набори символів MICR.[15] Для повних сторінок, зональної обробки, та обробка заповнених формулярів. Включає розпізнавання символів, баркодів, Зчитування оптичних позначок[en] та зчитування формулярів.[19] Підтримується розпізнавання рукописного тексту.[20]
CuneiForm 1996 1.1 2011-04-19 BSD варіант Ні Так Так Так Так C/C++ Так 28 Будь-які друковані шрифти HTML, hOCR, native, RTF, TeX, TXT[21] Система корпоративного класу, може зберегти форматування тексту і розпізнає складні таблиці будь-якої структури
(a9t9)FreeOCR 2015 1.022 2015 GPL Так Так Ні Ні Ні C# Так 23 Будь-які друковані шрифти TXT настільне програмне забезпечення для Windows, додаток Windows Store і мережевий вебдодаток - перетворює відскановані документи в текстові документи придатні для редагування за допомогою OCR.
SimpleOCR 2002 3.5 2008 власницька Ні Так Ні Ні Ні ? ? ? ?
Dynamsoft OCR SDK 2003 8.2 2012 власницька Так Так Ні Ні Ні C/C++ Так 40+[22] ? PDF, TXT Dynamsoft є провідним постачальником SDK-їв для захоплення зображень і інструментів контролю версій.
OmniPage[en] 1970s 19.2 2015 власницька Так Так Так Ні Ні C/C++, C#[23] Так 125[24] Машинні та ручні друкарські шрифти DOC/DOCX, XLS/XLSX, PPTX, RTF, PDF, PDF з можливістю пошуку, HTML, TXT, XML, ePUB Продукт компанії Nuance Communications[en]
Microsoft Office OneNote 2007 2007 ? 2007 власницька Ні Так Ні Ні Ні ? ? ? ?
FreeOCR ? 4.2 August 2012 власницька Ні Так Ні Ні Ні ? ? ? ? [25]
GOCR 2000 0.50 2013 GPL Так[26] Так Так Так Так C ? ? ?
Ocrad ? 0.25[27] 2015-04-16 GPL Так Так Так Так Так C++ Так Латинський алфавіт ? Утиліта командного рядка
SmartScore[en] ? ? ? власницька Ні Так Так Ні Ні ? ? ? ? Для музичних нот
Microsoft Office Document Imaging ? Office 2007 2007 власницька Ні Так Ні Ні Ні ? ? ? ? Використовується OmniPage[джерело?]
OCR.net 2016 ? 2016 власницька Так Ні Ні Ні Ні Java, C++, PHP, Objective-c Ні 100+ ? TXT, PDF з можливістю пошуку Мережевий сервіс, для перетворень використовує рушій PDF OCR X.[28]
PDF OCR X 2008 2.0.22 2016 власницька Ні Так Так Ні Ні Java, C++, Objective-C Ні 100+ ? TXT, PDF з можливістю пошуку Користувацький інтерфейс «drag and drop».
Puma.NET[en] ? ? ? BSD Ні Так Ні Ні Ні C# Так 28 Будь-які друковані шрифти .NET OCR SDK оснований на Когнітивних технологіях розпізнавального рушія CuneiForm. Оболонка Puma COM серверу і надається спрощеній API для .NET-застосунків
ReadSoft[en] ? ? ? власницька Ні Так Ні Ні Ні ? ? ? ? Сканування, захоплення і класифікація ділових-документів, таких як рахунки-фактури, форми і замовлення на поставку інтегрованих з бізнес-процесами.
Scantron[en] ? ? ? власницька Ні Так Ні Ні Ні ? ? ? ? Для роботи з локалізованим інтерфейсом, потрібна відповідна мовна підтримка.
OCRFeeder[en] ? 0.7.11 2009 GPL Ні Ні Ні Так Ні Python ? ? ? Оснащена повноцінним користувацьким інтерфейсом, і має засоби для роботи із командного рядка для автоматичних операцій. Має власний алгоритм сегментації, але вікористовує поширені рушії розпізнавання, наприклад Tesseract або Ocrad
OCRopus 2007 1.3.3 2017-12-16 Apache Ні Ні Так Так Так Python ? ? ? hOCR, HTML, TXT[29] Підключуване середовище у стадії активної розробки, використовується у Google книги
MathOCR 2014 0.0.3 2015 GPL Ні Так Так Так Так Java ? ? ? HTML, LaTeX Оснащений розпізнаванням математичних формул та логічним аналізом розташування, може використовувати такі рушії OCR, як Tesseract або Ocrad у фоні.
MeOCR 2012 1.0.0 2012 власницька Ні Так Ні Ні Ні C/C++/C# Так 28 Будь-які друковані шрифти HTML, hOCR, native, RTF, TeX, TXT Windows-застосунок. Перетворює відскановані докуменди в текстові документи, придатні для редагування завдяки розпізнаванню тексту, і може передавати результат до Microsoft Word-у в один клік. Оснащена повноцінним користувацьким інтерфейсом, а також має бібліотеку інтерфейсу .NET [30] для розробників.
Yunmai OCR SDK 2002 1.0 2013 власницька Так Так Так Так Так Java, C++, C, object pascal, objective-C Так 14 Будь-яки друковані шрифти TXT, PDF Має перевагу у розпізнаванні китайських символів.[31]
Anyline SDK 2013[32] 3.5.1[33] 2016[33] власницька Ні No* No* No* No* Java (Android), Objective-C & Swift (iOS), C# (Windows Phone, Xamarin), JavaScript (Cordova)[34] Yes[35] 2 (Німецька, Англійська) Будь-який друкований шрифт, який можна відтренувати для розпізнавання[36] звичайний txt, перевірені зображення *Настроюваний SDK для мобільного оптичного розпізнавання на системах Android, iOS, Windows Phone, Розумних окулярів (Google Glass, Epson Moverio,...)
Назва Рік заснування Останній стабільний випуск Рік випуску Тип ліцензії Мережева версія Windows Mac OS X Linux BSD Мови програмування Наявний SDK Мови Шрифти Вихідні формати файлів Примітки

Див. також ред.

Примітки ред.

  1. Основано на підрахунку мовних тренувальних фалів для версії 3.04. Доступно на the download page.
  2. Використання пояснюється в Readme and FAQ
  3. Наприклад, у OCRFeeder — ODF
  4. GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository). Процитовано 8 березня 2016.
  5. OpenRTK – ExperVision OCR SDK | OCR Software, OCR SDK & Toolkit, OCR Service – ExperVision OCR. Expervision.com. Процитовано 12 вересня 2013.
  6. AliusDoc AD-SCI. AliusDoc.com. Архів оригіналу за 7 березня 2016. Процитовано 16 жовтня 2015.
  7. ABBYY FineReader 14: Technical Specifications. Finereader.abbyy.com. Процитовано 23 лютого 2017.
  8. ABBYY FineReader 11: Technical Specifications. Finereader.abbyy.com. Архів оригіналу за 24 квітня 2015. Процитовано 12 вересня 2013.
  9. Top OCR Software. Ocrworld.com. 30 березня 2010. Процитовано 12 вересня 2013.
  10. Asprise OCR SDK Features. asprise.com. Процитовано 21 червня 2014.
  11. Asprise Java OCR Library Features. asprise.com. Процитовано 21 червня 2014.
  12. Asprise Java, C#/VB.NET OCR API. asprise.com. 19 листопада 2015. Процитовано 19 листопада 2015.
  13. Nicomsoft OCR SDK Features. nicomsoft.com. Процитовано 8 січня 2015.
  14. Nicomsoft OCR, C#/VB.NET OCR API. nicomsoft.com. 8 січня 2015. Процитовано 8 січня 2015.
  15. а б Ocr Sdk. Leadtools. Процитовано 12 вересня 2013.
  16. LEAD Technologies, Inc. Corporate Information. Leadtools.com. Процитовано 12 вересня 2013.
  17. Ocr Sdk. Leadtools. Процитовано 12 вересня 2013.
  18. OCR SDK Output Formats. Leadtools. Процитовано 12 вересня 2013.
  19. LEADTOOLS Recognition Imaging Developer Toolkit. Leadtools.com. Процитовано 12 вересня 2013.
  20. Icr Sdk. Leadtools. Процитовано 12 вересня 2013.
  21. Debian manual page for Cuneiform for Linux version 1.1.0
  22. OCR SDK Language Packages Download. Dynamsoft.com. Процитовано 12 вересня 2013.
  23. OmniPage CSDK - OCR Document Capture Toolkit | Document Imaging & OCR. Nuance. Архів оригіналу за 24 серпня 2010. Процитовано 12 вересня 2013.
  24. OmniPage Standard Document Conversion. Nuance. Архів оригіналу за 13 березня 2014. Процитовано 25 лютого 2014.
  25. Free OCR Software - Optical Character Recognition Software for Windows import from PDF and Twain Scanners. Paperfile.net. Процитовано 12 вересня 2013.
  26. GOCR. Jocr.sourceforge.net. Процитовано 12 вересня 2013.
  27. Diaz, Antonio (16 квітня 2015). GNU Ocrad 0.25 released (Список розсилки). info-gnu.
  28. PDF OCR X.
  29. OCRopus містить засоби ocropus-hocr, які формують hOCR із розпізнаного результату.
  30. MeOCR .NET Library. Архів оригіналу за 28 листопада 2016. Процитовано 27 травня 2017.
  31. List of Yunmai OCR SDKs. yunmai.com. Процитовано 12 липня 2015.
  32. Company | Anyline. Anyline. 30 червня 2016. Архів оригіналу за 12 травня 2017. Процитовано 30 червня 2016.
  33. а б Release Notes Archives - ANYLINE. ANYLINE (амер.). Архів оригіналу за 12 травня 2017. Процитовано 30 червня 2016.
  34. API Reference. documentation.anyline.io. Процитовано 30 червня 2016.
  35. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою anyline не вказано текст
  36. Fonts | Anyline. Anyline. 30 червня 2016. Процитовано 30 червня 2016.[недоступне посилання з липня 2019]