OCRFeeder - Википедия - OCRFeeder

OCRFeeder
Логотип OCRFeeder с буквами.svg
Ocrfeeder.jpeg
Разработчики)Хоаким Роша (Игалия )
изначальный выпускМарт 2009 г.; 11 лет назад (2009-03)
Стабильный выпуск
0.8.3 / 8 марта 2020 г.; 9 месяцев назад (2020-03-08)[1]
Репозиторий Отредактируйте это в Викиданных
Написано вPython, PyGTK
Операционная системаLinux, Unix-подобный
Доступно вИнтерфейс: Чешский, Датский, Немецкий, английский, испанский, Французский, Галицкий, Итальянский, Норвежский (букмол), португальский, румынский, словенский, Шведский, Китайский[2]
Распознавание: зависит от используемого механизма распознавания текста
ТипОптическое распознавание символов
ЛицензияGPL (бесплатно программное обеспечение )
Интернет сайтвики.гном.org/Программы/ OCRFeeder

OCRFeeder является оптическое распознавание символов люкс для ГНОМ, который также поддерживает практически любой механизм распознавания текста из командной строки, например CuneiForm, GOCR, Окрад и Тессеракт. Он преобразует бумажные документы в файлы цифровых документов и может сделать их доступными для пользователей с ослабленным зрением.

OCRFeeder - это бесплатное программное обеспечение с открытым исходным кодом в соответствии с условиями Стандартная общественная лицензия GNU (GPL) версии 3 или новее. Это доступно для Linux и другие Unix-подобный операционные системы.

История

Хоаким Роша представляет OCRFeeder на Настольный саммит Гран-Канарии в июле 2009 г.

OCRFeeder был запущен как дипломная работа в Информатика Хоакима Роша,[3] который позже был нанят Игалия, С.Л. и дальнейшее развитие там.[4][5]

Первая версия была опубликована в марте 2009 года.[6] Проект OCRFeeder изначально был опубликован и размещен на Код Google, временно используется Великолепный[7] и теперь использует инфраструктуру GNOME.[8] С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian.[9]

Версия 0.7 от 30 июля 2010 г. содержит функции предварительной обработки изображений, версия 0.7.1 (8 ноября 2010 г.) включена для доступа к сканеру из OCRFeeder.

Функции

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный для GNOME. Рекомендации по человеческому интерфейсу.Он выполняет Анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста командной строки в качестве серверной части и поддерживает автоматическое определение и автоматическую настройку для всех популярных бесплатных механизмов. Внутренние компоненты OCR могут быть настроены автоматически, необходимая командная строка вводится в диалоге графического интерфейса пользователя или настраивается напрямую через XML файл. Возможна последующая обработка сканированного изображения, включая устранение перекоса.[10] Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В люксе также есть программа проверки орфографии.[11] OCRFeeder имеет встроенные процедуры для пост-обработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатаемых строк текста даже с удалением переносов.

Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в командная строка режим (как ocrfeeder-cli), который может быть полезным инструментом для автоматического документирования пакетная обработка.[12] В этом режиме OCRFeeder использует механизм распознавания текста по умолчанию, который пользователь может установить в настройках приложения.[13][14]

Программа написана на Python и использует GTK + библиотека (с использованием PyGTK ).[12]Он действует как графический внешний интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, а использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm, GOCR, Окрад и Тессеракт как серверные механизмы OCR.[15] Доступ к сканерам осуществляется через ЗДРАВОМЫСЛЯЩИЙ. Для постобработки отсканированных изображений интегрирован инструмент командной строки «Unpaper»,[12] среди прочего. Файлы PDF обрабатываются с использованием Ghostscript в бэкэнде.

Ввод и вывод

OCRFeeder может импортировать данные из PDF или же графические файлы. Начиная с версии 0.7.1a он поддерживает захват изображений прямо из сканер.[11]

Результаты можно сохранить в HTML, OpenDocument, простой текст[16] или PDF[17] форматы файлов. hOCR также планируется вывод файла.[3] Первоначальное форматирование можно произвести прямо в программе.

Рекомендации

  1. ^ "FTP-архив GNOME, файл новостей OCRFeeder 0.8.3". Получено 2020-04-12.
  2. ^ "Репозиторий исходного кода GNOME GIT, файл LINGUAS". Получено 2011-02-09.
  3. ^ а б "OCRFeeder - GNOME Live!". Получено 2011-02-09.
  4. ^ "Товары". Игалия. Получено 2012-11-24.
  5. ^ Роча, Хоаким (14 января 2013 г.). "Ветер перемен". Получено 2013-09-04.
  6. ^ OCRFeeder, Google Code
  7. ^ wiki.gnome.org Различия между ревизиями 2 и 3
  8. ^ wiki.gnome.org - Различия между ревизиями 5 и 6
  9. ^ Журнал изменений Debian ocrfeeder (0.6.6 + dfsg1-1)
  10. ^ "Репозиторий исходного кода GNOME GIT, файл NEWS". Получено 2011-02-03.
  11. ^ а б Роча, Хоаким (09.11.2010). "Выпущен OCRFeeder версии 0.7.1a". Получено 2011-02-09.
  12. ^ а б c "Репозиторий исходного кода GNOME GIT, файл README". Получено 2011-02-09.
  13. ^ Μάνος (22.03.2011). "OCRFeeder 0.7.4: ηφιοποιήστε τα έγγραφα σας". OSArena. Получено 2011-06-08.
  14. ^ Хейда, Вацлав (26 мая 2011 г.). "OCRFeeder - Užitečný rozpoznávač textu, který však neumí česky". LinuxEXPRES.cz. QCM s.r.o. Получено 2011-06-08.
  15. ^ "Репозиторий исходного кода GNOME GIT, файл configuration.py". Получено 2011-02-03.
  16. ^ OCRFeeder версии 0.7.4 Новые возможности
  17. ^ Версия 0.7.6

внешняя ссылка