CuneiForm (программное обеспечение) - CuneiForm (software)

CuneiForm
Оригинальный автор (ы)Когнитивные технологии
Разработчики)Когнитивные технологии
изначальный выпускИсточник 2 апреля 2008 г.; 12 лет назад (2008-04-02)[1]
Стабильный выпуск
1.1 / 19 апреля 2011 г.; 9 лет назад (2011-04-19)
Написано вC и C ++
Операционная системаКроссплатформенность
ТипОптическое распознавание символов
ЛицензияБесплатное ПО /Лицензии BSD
Интернет сайтстартовая площадка.сеть/ cuneiform-linux Отредактируйте это в Викиданных

CuneiForm Cognitive OpenOCR - это свободно распространяемая система распознавания текста с открытым исходным кодом, разработанная российской компанией-разработчиком программного обеспечения. Когнитивные технологии.

CuneiForm OCR был разработан Когнитивные технологии в качестве коммерческого продукта в 1993 году. Система поставлялась с самыми популярными моделями сканеров, МФУ и программного обеспечения в России и в мире: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon. , Оливетти и др.
В 2008 году Cognitive Technologies открыла исходные коды программы.

особенности

CuneiForm - это система, разработанная для преобразования электронных копий бумажных документов и файлов изображений в редактируемую форму без изменения структуры и исходных шрифтов документа в автоматическом или полуавтоматическом режиме. Система включает в себя два компонента для разовой и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, система поддерживает смесь русского и английского языков. Распознавание других смешанных языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году.[2] Обучить систему распознавать другие языки сложно, поскольку каждый язык связан с файлом данных, структура и метод разработки которого не раскрываются разработчиками.

История

1993 - Cognitive Technologies подписывает OEM-контракт с Corel, в соответствии с условиями, по которым библиотека когнитивного распознавания была встроена в Corel Draw 3.0 (и более поздние версии) пакет, популярный в издательской сфере.

1994 - Контракт с Hewlett-Packard на оборудование всех импортируемых в Россию сканеров с CuneiForm OCR. Это был первый контракт HP с российской компанией-разработчиком программного обеспечения.

1995 - Контракт с японской корпорацией Epson на поставку своих сканеров с CuneiForm OCR.[3] OEM-контракт был подписан с крупнейшим в мире производителем факсов, лазерных принтеров, сканеров и другой оргтехники - Brother Corporation. Согласно соглашению, новый роликовый сканер Brother IC-150 был оснащен программным обеспечением Cognitive для сканирования и распознавания по всему миру.

1996 г. - OEM-соглашение с одним из крупнейших мировых производителей мониторов, факсов, лазерных принтеров, МФУ и другого офисного оборудования - Samsung Information Systems America. Согласно соглашению, новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A должно было быть оснащено системой оптического распознавания символов Cognitive Cuneiform LE во всем мире.

  • OEM-соглашение с ведущим мировым производителем офисного оборудования Xerox на оснащение многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпуск CuneiForm '96 OCR с первыми в мире алгоритмами адаптивного распознавания.

Адаптивное распознавание - метод, основанный на сочетании двух типов алгоритмов распознавания печатных символов: мультишифта и омнифона. Система генерирует внутренний шрифт для каждого входного документа на основе хорошо напечатанных символов с использованием динамической настройки (адаптации) к конкретным входным символам. Таким образом, метод сочетает в себе всесторонность и технологичность подхода омнифонта с высокой точностью распознавания шрифтов, что значительно повышает скорость распознавания.

1997 - Первое использование технологий на основе нейронных сетей в CuneiForm. Алгоритмы, использующие нейронные сети для распознавания символов, разработаны следующим образом: изображение символа, которое необходимо распознать (шаблон), уменьшается до определенного стандартного размера (нормализуется). Значения яркости нормализованного шаблона используются в качестве входных параметров для нейронной сети. Количество выходных параметров нейронной сети равно количеству распознанных символов. Результатом распознавания является символ, который соответствует максимальному значению выходного вектора нейронной сети.

  • Новое OEM-соглашение с Canon на оснащение импортируемых в Россию многофункциональных устройств системой CuneiForm;
  • Новый OEM-контракт с OKI Europe Limited на оснащение МФУ OKI FAX 4100 и OKI FAX 5200, импортируемых в Россию системой CuneiForm;
  • Первая OCR-система CuneiForm MMX Update для процессора Intel MMX;
  • Сканеры NeuHause поставляются с системой распознавания CuneiForm;
  • Выпуск первой в России системы сетевого сканирования CuneiForm 98 NEST.

1999

  • Новый OEM-контракт с компанией Olivetti на поставку импортируемых в Россию многофункциональных устройств с системой CuneiForm;
  • Дистрибьюторское соглашение с ведущим европейским дистрибьютором программного обеспечения WSKA (Франция) о распространении OCR Cuneiform Direct в Европе;
  • Выпущена новая версия системы Cuneiform 2000, в которой реализован метод «когнитивного анализа TM»: в ядро ​​распознавания интегрирована экспертная система, которая анализирует альтернативы оценкам на выходе каждого алгоритма обнаружения и выбирает лучший вариант.
  • Методика «Меридианная таблица сегментации TM» разработан для повышения точности воссоздания исходного вида таблицы в выходном документе;
  • Оригинальный механизм воссоздания формы документа - «То, что вы сканируете, и получаете TM» вводится. Технология была направлена ​​на сохранение исходной формы отсканированного документа с точки зрения размещения его компонентов. Это особенно важно для документов со сложной топологией: многоколоночные тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами и т. Д.

2001 - OEM-контракт с Canon на поставку сканеров и многофункциональных устройств с программным обеспечением Cognitive Technologies CuneiForm OCR для Восточной Европы.

Перспективы развития

  • 12 декабря 2007 г. OCR CuneiForm бесплатное ПО -версия была выпущена, и было объявлено об открытии ее исходного кода.
  • 2 апреля 2008 г. исходные коды Cuneiform OCR опубликованы под Лицензия BSD, а осенью - исходные тексты интерфейса системы.
  • Последняя версия OpenSource версии для Windows не обновлялась с 14.02.2009. Эта версия больше не доступна для загрузки. Вместо этого на странице загрузки доступна версия от 11.11.2008.
  • В 2009 году графические интерфейсы для открытой версии Cuneiform на основе Qt 4 библиотека - Cuneiform-Qt,[4] ЯГФ выпущены. Начиная с версии 0.9.0[5] открытая версия для Linux может использоваться как библиотека.

Смотрите также

  • Puma.NET это библиотека-оболочка для механизма распознавания Cognitive Technologies CuneiForm. Это упрощает включение функции распознавания текста в любое приложение .NET Framework 2.0 (или выше).

использованная литература

внешние ссылки