Распознавание почерка - Handwriting recognition

Подпись кантри-звезды Текса Уильямса.

Распознавание почерка (HWR), также известный как Распознавание рукописного текста (HTR), это способность компьютера принимать и интерпретировать понятные рукописный вход из таких источников, как бумага документы, фотографии, сенсорные экраны и другие устройства. Изображение написанного текста может быть распознано "офлайн" с листа бумаги с помощью оптического сканирования (оптическое распознавание символов ) или интеллектуальное распознавание слов. В качестве альтернативы, движения кончика пера могут восприниматься «в режиме реального времени», например, с помощью поверхности экрана компьютера на основе пера, что в целом более простая задача, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, работает правильно сегментация в символы и находит наиболее правдоподобные слова.

Автономное признание

Распознавание рукописного ввода в автономном режиме включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавать рукописный ввод в автономном режиме сравнительно сложно, так как у разных людей разные стили письма. И на сегодняшний день механизмы OCR в основном ориентированы на машинно-напечатанный текст и ICR для руки «печатный» (написанный заглавными буквами) текст.

Традиционные техники

Извлечение персонажа

Автономное распознавание символов часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг.[1] Однако на этом этапе есть несколько общих недостатков. Чаще всего это когда связанные символы возвращаются в виде одного фрагмента изображения, содержащего оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, снижающих риск подключения персонажей.

Распознавание символов

После извлечения отдельных символов используется механизм распознавания, чтобы идентифицировать соответствующий компьютерный символ. В настоящее время доступно несколько различных методов распознавания.

Извлечение признаков

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, потому что свойства не изучаются автоматически.

Современные техники

Где традиционные методы сосредоточены на сегментирование отдельные символы для распознавания, современные методы ориентированы на распознавание всех символов в сегментированной строке текста. В частности, они фокусируются на машинное обучение методы, которые позволяют изучать визуальные функции, избегая ранее использовавшейся ограничивающей разработки функций. Использование новейших методов сверточные сети для извлечения визуальных элементов из нескольких перекрывающихся окон изображения текстовой строки, которое рекуррентная нейронная сеть использует для получения вероятностей символов.[2]

Онлайн признание

Распознавание рукописного ввода онлайн предполагает автоматическое преобразование текста, написанного на специальном цифровой преобразователь или КПК, где датчик улавливает движения кончика пера, а также переключение пера вверх / вниз. Этот вид данных известен как цифровые чернила и может рассматриваться как цифровое представление почерка. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста.

Элементы онлайн-интерфейса распознавания рукописного ввода обычно включают в себя:

  • ручка или стилус, которыми пользователь может писать.
  • сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или рядом с ним.
  • программное приложение, которое интерпретирует движения стилуса по поверхности письма, переводя полученные штрихи в цифровой текст.

Процесс распознавания рукописного ввода в Интернете можно разбить на несколько общих этапов:

  • предварительная обработка,
  • извлечение функций и
  • классификация

Цель предварительной обработки - отбросить во входных данных нерелевантную информацию, которая может негативно повлиять на распознавание.[3] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, дискретизации, сглаживания и удаления шума.[4] Второй шаг - извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага - выделить важную информацию для модели распознавания. Эти данные могут включать такую ​​информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг - классификация. На этом этапе различные модели используются для сопоставления извлеченных объектов с разными классами и, таким образом, для идентификации символов или слов, которые представляют объекты.

Аппаратное обеспечение

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Пенсепт Блокнот[5] и кассовый терминал Inforite.[6]С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указателя / рукописного ввода, например, от Pencept,[7] CIC[8] и др. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems, выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS.

В начале 1990-х производители оборудования, включая NCR, IBM и EO вышел планшетные компьютеры запуск PenPoint операционная система, разработанная GO Corp.. PenPoint повсюду использовала распознавание рукописного ввода и жесты, а также предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал ThinkPad имя и использовали распознавание почерка IBM. Эта система распознавания была позже перенесена в Microsoft. Windows для перьевых вычислений, и IBM Ручка для OS / 2. Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, поместиться в меньший форм-фактор, чем планшетные компьютеры, а распознавание рукописного ввода часто используется как метод ввода для портативных компьютеров. КПК. Первым КПК, предоставившим письменный ввод, был Яблочный Ньютон, который предоставил публике преимущество упрощенного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить шаблоны письма пользователя. К моменту выхода ОС Ньютон 2.0, в котором распознавание рукописного ввода было значительно улучшено, включая уникальные функции, которые до сих пор не встречаются в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в значительной степени негативным. После прекращения приема Яблочный Ньютон, эта функция была включена в Mac OS X 10.2 и более поздних версий как Чернильница.

ладонь позже запустил успешную серию КПК на основе Граффити система распознавания. Граффити повысило удобство использования за счет определения набора «однотонных штрихов», или форм одного мазка, для каждого символа. Это сузило возможность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило кривую обучения для пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, одновременно поддерживая формы unistroke, предшествовала патенту Xerox. Решение суда о нарушении было отменено при рассмотрении апелляции, а затем снова отменено при рассмотрении более поздней апелляции. Впоследствии участвующие стороны договорились об урегулировании этого и других патентов.

А Планшетный ПК это ноутбук с дигитайзер планшет и стилус, который позволяет пользователю писать текст от руки на экране устройства. Операционная система распознает почерк и преобразует его в текст. Виндоус виста и Windows 7 включают в себя функции персонализации, которые изучают шаблоны письма пользователя или словарный запас для английского, японского, китайского традиционного, упрощенного китайского и корейского. Эти функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания почерка, используемой в ее Windows Mobile ОС для КПК.

Хотя распознавание рукописного ввода - это форма ввода, к которой привыкла публика, она не получила широкого распространения ни на настольных компьютерах, ни на портативных компьютерах. Все еще общепринято, что клавиатура ввод и быстрее, и надежнее. По состоянию на 2006 г., многие КПК предлагают рукописный ввод, иногда даже принимая естественный скорописный почерк, но точность все еще остается проблемой, и некоторые люди все еще находят даже простой на экранной клавиатуре более эффективным.

Программного обеспечения

Раннее программное обеспечение могло понимать печатный почерк, где символы были разделены; однако присутствует рукописный почерк со связанными символами Парадокс Сэйра, трудность, связанная с сегментацией символов. В 1962 г. Шелия Губерман Затем в Москве написал первую прикладную программу распознавания образов.[9] Коммерческие примеры поступили от таких компаний, как Communications Intelligence Corporation и IBM.

В начале 1990-х две компании - ParaGraph International и Lexicus - разработали системы, способные распознавать рукописный текст. ParaGraph был основан в России специалистом по информатике Степаном Пачиковым, а Lexicus был основан Ронджоном Нагом и Крисом Кортге, студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжала развивать распознавание китайского почерка и интеллектуального ввода текста системы для Motorola. В 1997 году компания ParaGraph была приобретена SGI, а ее команда по распознаванию рукописного ввода сформировала подразделение P&I, позднее приобретенное у SGI компанией Vadem. Microsoft приобрела технологию распознавания рукописного ввода CalliGrapher и другие технологии цифровых чернил, разработанные P&I у Vadem в 1999 году.

Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного ввода или текста TextRecognize.

Исследование

Метод, используемый для использования контекстной информации в первом рукописная интерпретация адресов система, разработанная Саргур Шрихари и Джонатан Халл [10]

Распознавание почерка имеет активное сообщество ученых, изучающих его. Крупнейшими конференциями по распознаванию рукописного ввода являются Международная конференция по вопросам распознавания рукописного ввода (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проведенная в нечетные годы. Обе эти конференции одобрены IEEE и IAPR. Активные области исследований включают:

Результаты с 2009 г.

С 2009 г. повторяющиеся нейронные сети и глубоко прямая связь нейронные сети, разработанные в исследовательской группе Юрген Шмидхубер на Швейцарская лаборатория искусственного интеллекта IDSIA выиграли несколько международных конкурсов почерка.[11] В частности, двунаправленный и многомерный Долговременная кратковременная память (LSTM)[12][13] Alex Graves et al. выиграл три конкурса по распознаванию связного почерка на Международной конференции по анализу и распознаванию документов (ICDAR) в 2009 году, не имея никаких предварительных знаний о трех разных языках (французском, арабском, Персидский ) быть изученным. Недавний GPU -основан глубокое обучение методы для сетей прямого распространения, Дэн Чиресан и его коллеги из IDSIA победил в офлайн-конкурсе китайского почерка ICDAR 2011; их нейронные сети также были первыми искусственными распознавателями образов, которые достигли конкурентоспособности человека.[14] на знаменитых MNIST проблема рукописных цифр[15] из Янн ЛеКун и коллеги в NYU.

Смотрите также

Списки

Рекомендации

  1. ^ Java OCR, 5 июня 2010 г.. Дата обращения 5 июня 2010.
  2. ^ Пучсервер, Жанна. «Действительно ли многомерные повторяющиеся слои необходимы для распознавания рукописного текста?». Анализ и распознавание документов (ICDAR), 14-я Международная конференция IAPR 2017 г. Vol. 1. IEEE, 2017.
  3. ^ Хуанг, Б .; Zhang, Y. и Kechadi, M .; Методы предварительной обработки для онлайн-распознавания почерка. Интеллектуальная категоризация текста и кластеризация, Springer Berlin Heidelberg, 2009, Vol. 164, «Исследования в области вычислительного интеллекта», стр. 25–45.
  4. ^ Holzinger, A .; Stocker, C .; Peischl, B. и Simonic, K.-M .; Об использовании энтропии для улучшения предварительной обработки рукописного ввода, Энтропия 2012, 14, стр. 2324-2350.
  5. ^ Pencept Penpad (TM) 200 Литература по продукту, Pencept, Inc., 15 августа 1982 г.
  6. ^ Терминал распознавания символов руки Inforite, Cadre Systems Limited, Англия, 15 августа 1982 г.
  7. ^ Руководство пользователя Penpad 320, Pencept, Inc., 15 июня 1984 г.
  8. ^ Рукописный ввод (R) GrafText (TM) Модель системы GT-5000, Communication Intelligence Corporation, 15 января 1985 г.
  9. ^ Губерман - изобретатель технологии распознавания рукописного ввода, которая сегодня используется Microsoft в Windows CE. Источник: Сообщение In-Q-Tel, 3 июня 2003 г.
  10. ^ С. Н. Шрихари и Э. Дж. Кеуберт, «Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США» Proc. Int. Конф. Анализ и распознавание документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896
  11. ^ Курцвейл, 2012 г., Интервью В архиве 31 августа 2018 г. Wayback Machine с Юрген Шмидхубер о восьми соревнованиях, выигранных его командой Deep Learning 2009-2012 гг.
  12. ^ Грейвс, Алекс; и Шмидхубер, Юрген; Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетейв Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К. И .; и Кулотта, Арон (ред.), Достижения в системах обработки нейронной информации 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия, Фонд нейронных систем обработки информации (NIPS), 2009, стр. 545–552.
  13. ^ А. Грейвс, М. Ливицки, С. Фернандес, Р. Бертолами, Х. Бунке, Я. Шмидхубер. Новая система коннекционистов для улучшенного распознавания рукописного ввода без ограничений. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, нет. 5, 2009.
  14. ^ Д. К. Чиресан, У. Мейер, Я. Шмидхубер. Многоколоночные глубокие нейронные сети для классификации изображений. IEEE Conf. по компьютерному зрению и распознаванию образов CVPR 2012.
  15. ^ Лекун, Ю., Ботту, Л., Бенжио, Ю., и Хаффнер, П. (1998). Применение градиентного обучения для распознавания документов. Proc. IEEE, 86, стр. 2278-2324.

внешняя ссылка