CuneiForm (программное обеспечение) - CuneiForm (software)
эта статья нужны дополнительные цитаты для проверка.Октябрь 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Оригинальный автор (ы) | Когнитивные технологии |
---|---|
Разработчики) | Когнитивные технологии |
изначальный выпуск | Источник 2 апреля 2008 г.[1] |
Стабильный выпуск | 1.1 / 19 апреля 2011 г. |
Написано в | C и C ++ |
Операционная система | Кроссплатформенность |
Тип | Оптическое распознавание символов |
Лицензия | Бесплатное ПО /Лицензии BSD |
Интернет сайт | стартовая площадка |
CuneiForm Cognitive OpenOCR - это свободно распространяемая система распознавания текста с открытым исходным кодом, разработанная российской компанией-разработчиком программного обеспечения. Когнитивные технологии.
CuneiForm OCR был разработан Когнитивные технологии в качестве коммерческого продукта в 1993 году. Система поставлялась с самыми популярными моделями сканеров, МФУ и программного обеспечения в России и в мире: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon. , Оливетти и др.
В 2008 году Cognitive Technologies открыла исходные коды программы.
особенности
CuneiForm - это система, разработанная для преобразования электронных копий бумажных документов и файлов изображений в редактируемую форму без изменения структуры и исходных шрифтов документа в автоматическом или полуавтоматическом режиме. Система включает в себя два компонента для разовой и пакетной обработки электронных документов.
Список языков, поддерживаемых системой:
Кроме того, система поддерживает смесь русского и английского языков. Распознавание других смешанных языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году.[2] Обучить систему распознавать другие языки сложно, поскольку каждый язык связан с файлом данных, структура и метод разработки которого не раскрываются разработчиками.
История
1993 - Cognitive Technologies подписывает OEM-контракт с Corel, в соответствии с условиями, по которым библиотека когнитивного распознавания была встроена в Corel Draw 3.0 (и более поздние версии) пакет, популярный в издательской сфере.
1994 - Контракт с Hewlett-Packard на оборудование всех импортируемых в Россию сканеров с CuneiForm OCR. Это был первый контракт HP с российской компанией-разработчиком программного обеспечения.
1995 - Контракт с японской корпорацией Epson на поставку своих сканеров с CuneiForm OCR.[3] OEM-контракт был подписан с крупнейшим в мире производителем факсов, лазерных принтеров, сканеров и другой оргтехники - Brother Corporation. Согласно соглашению, новый роликовый сканер Brother IC-150 был оснащен программным обеспечением Cognitive для сканирования и распознавания по всему миру.
1996 г. - OEM-соглашение с одним из крупнейших мировых производителей мониторов, факсов, лазерных принтеров, МФУ и другого офисного оборудования - Samsung Information Systems America. Согласно соглашению, новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A должно было быть оснащено системой оптического распознавания символов Cognitive Cuneiform LE во всем мире.
- OEM-соглашение с ведущим мировым производителем офисного оборудования Xerox на оснащение многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
- Выпуск CuneiForm '96 OCR с первыми в мире алгоритмами адаптивного распознавания.
Адаптивное распознавание - метод, основанный на сочетании двух типов алгоритмов распознавания печатных символов: мультишифта и омнифона. Система генерирует внутренний шрифт для каждого входного документа на основе хорошо напечатанных символов с использованием динамической настройки (адаптации) к конкретным входным символам. Таким образом, метод сочетает в себе всесторонность и технологичность подхода омнифонта с высокой точностью распознавания шрифтов, что значительно повышает скорость распознавания.
1997 - Первое использование технологий на основе нейронных сетей в CuneiForm. Алгоритмы, использующие нейронные сети для распознавания символов, разработаны следующим образом: изображение символа, которое необходимо распознать (шаблон), уменьшается до определенного стандартного размера (нормализуется). Значения яркости нормализованного шаблона используются в качестве входных параметров для нейронной сети. Количество выходных параметров нейронной сети равно количеству распознанных символов. Результатом распознавания является символ, который соответствует максимальному значению выходного вектора нейронной сети.
- Новое OEM-соглашение с Canon на оснащение импортируемых в Россию многофункциональных устройств системой CuneiForm;
- Новый OEM-контракт с OKI Europe Limited на оснащение МФУ OKI FAX 4100 и OKI FAX 5200, импортируемых в Россию системой CuneiForm;
- Первая OCR-система CuneiForm MMX Update для процессора Intel MMX;
- Сканеры NeuHause поставляются с системой распознавания CuneiForm;
- Выпуск первой в России системы сетевого сканирования CuneiForm 98 NEST.
1999
- Новый OEM-контракт с компанией Olivetti на поставку импортируемых в Россию многофункциональных устройств с системой CuneiForm;
- Дистрибьюторское соглашение с ведущим европейским дистрибьютором программного обеспечения WSKA (Франция) о распространении OCR Cuneiform Direct в Европе;
- Выпущена новая версия системы Cuneiform 2000, в которой реализован метод «когнитивного анализа TM»: в ядро распознавания интегрирована экспертная система, которая анализирует альтернативы оценкам на выходе каждого алгоритма обнаружения и выбирает лучший вариант.
- Методика «Меридианная таблица сегментации TM» разработан для повышения точности воссоздания исходного вида таблицы в выходном документе;
- Оригинальный механизм воссоздания формы документа - «То, что вы сканируете, и получаете TM» вводится. Технология была направлена на сохранение исходной формы отсканированного документа с точки зрения размещения его компонентов. Это особенно важно для документов со сложной топологией: многоколоночные тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами и т. Д.
2001 - OEM-контракт с Canon на поставку сканеров и многофункциональных устройств с программным обеспечением Cognitive Technologies CuneiForm OCR для Восточной Европы.
Перспективы развития
- 12 декабря 2007 г. OCR CuneiForm бесплатное ПО -версия была выпущена, и было объявлено об открытии ее исходного кода.
- 2 апреля 2008 г. исходные коды Cuneiform OCR опубликованы под Лицензия BSD, а осенью - исходные тексты интерфейса системы.
- Последняя версия OpenSource версии для Windows не обновлялась с 14.02.2009. Эта версия больше не доступна для загрузки. Вместо этого на странице загрузки доступна версия от 11.11.2008.
- В 2009 году графические интерфейсы для открытой версии Cuneiform на основе Qt 4 библиотека - Cuneiform-Qt,[4] ЯГФ выпущены. Начиная с версии 0.9.0[5] открытая версия для Linux может использоваться как библиотека.
Смотрите также
- Puma.NET это библиотека-оболочка для механизма распознавания Cognitive Technologies CuneiForm. Это упрощает включение функции распознавания текста в любое приложение .NET Framework 2.0 (или выше).