hOCR
hOCR — відкритий стандарт, який визначає формат даних для представлення OCR-виводу. Стандарт має на меті долучити до розпізнаного тексту інформацію про макет, рівень імовірності розпізнавання, стиль та інші дані. Для досягнення цілі долучення цієї інформації до розпізнаного тексту використовується стандартний формат HTML.
Тип | мова розмітки даних і формат файлу |
---|
Існує утиліта командного рядка hocr2pdf[1] для перетворення hocr-даних у файли PDF.
Див. також ред.
Примітки ред.
- ↑ Exact CODE [Архівовано 6 січня 2010 у Wayback Machine.]
Посилання ред.
- Загальнодоступна специфікація для формату hOCR(англ.)
- hocr-tools [Архівовано 24 лютого 2017 у Wayback Machine.]
- HOCR (Hebrew OCR) [Архівовано 1 червня 2020 у Wayback Machine.]