Схема обработки естественного языка - Википедия - Outline of natural language processing

Следующее контур предоставляется как обзор и актуальное руководство по обработке естественного языка:

Обработка естественного языка - компьютерная деятельность, при которой компьютеры анализировать, понимать, изменить или создать естественный язык. Это включает автоматизация любых или всех языковых форм, видов деятельности или методов общения, таких как беседа, переписка, чтение, письменное сочинение, диктовка, издательский, перевод, чтение по губам, и так далее. Обработка естественного языка - это также название ветви Информатика, искусственный интеллект, и лингвистика озабочены тем, чтобы компьютеры могли общаться с использованием естественного (ых) языка (ов) во всех формах, включая, помимо прочего, речь, Распечатать, письмо, и подписание.

Обработка естественного языка

Обработку естественного языка можно описать следующим образом:

  • Поле наука - систематическое предприятие, которое создает и систематизирует знания в форме проверяемых объяснений и предсказаний о Вселенной.[1]
    • An Прикладная наука - область, в которой человеческие знания применяются для создания или проектирования полезных вещей.
      • Поле Информатика - научно-практический подход к вычислениям и их приложениям.
        • Филиал искусственный интеллект - интеллект машин и роботов и отрасль информатики, направленная на его создание.
        • Подполе компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения.
    • Применение инженерное дело - наука, навыки и профессия по приобретению и применению научных, экономических, социальных и практических знаний с целью проектирования, а также создания конструкций, машин, устройств, систем, материалов и процессов.
      • Применение программная инженерия - применение систематического, дисциплинированного, поддающегося количественной оценке подхода к проектированию, разработке, эксплуатации и обслуживанию программного обеспечения, а также изучение этих подходов; то есть приложение инженерии к программному обеспечению.[2][3][4]
        • Подполе компьютерное программирование - процесс проектирования, написания, тестирования, отладки и поддержки исходного кода компьютерных программ. Этот исходный код написан на одном или нескольких языках программирования (например, Java, C ++, C #, Python и т. Д.). Целью программирования является создание набора инструкций, которые компьютеры используют для выполнения определенных операций или для демонстрации желаемого поведения.
  • Тип система - набор взаимодействующих или взаимозависимых компонентов, образующих интегрированное целое или набор элементов (часто называемых «компонентами»), и отношения, которые отличаются от отношений набора или его элементов с другими элементами или наборами.
    • Система, включающая программного обеспечения - программное обеспечение - это набор компьютерных программ и связанных с ними данных, которые содержат инструкции для указания компьютеру, что делать и как это делать. Программное обеспечение относится к одной или нескольким компьютерным программам и данным, хранящимся в памяти компьютера. Другими словами, программное обеспечение - это набор программ, процедур, алгоритмов и их документации, связанных с работой системы обработки данных.
  • Тип технологии - создание, модификация, использование и знание инструментов, машин, методов, ремесел, систем, методов организации для решения проблемы, улучшения ранее существовавшего решения проблемы, достижения цели, обработки прикладных отношений ввода / вывода или выполнять определенную функцию. Это также может относиться к набору таких инструментов, механизмов, модификаций, устройств и процедур. Технологии существенно влияют на способность человека и других видов животных управлять своей естественной средой и адаптироваться к ней.
    • Форма компьютерные технологии - компьютеры и их применение. В НЛП используются компьютеры, сканеры изображений, микрофоны и многие типы программного обеспечения.
      • Языковые технологии - состоит из обработки естественного языка (NLP) и компьютерной лингвистики (CL), с одной стороны, и речевых технологий, с другой. Он также включает многие аспекты, ориентированные на приложения. Ее часто называют технологией человеческого языка (HLT).

Необходимые технологии

Следующие технологии делают возможной обработку естественного языка:

Подполя обработки естественного языка

Связанные поля

Обработка естественного языка способствует и использует (теории, инструменты и методологии из) следующие области:

  • Автоматическое рассуждение - область информатики и математической логики, посвященная пониманию различных аспектов рассуждения и созданию программного обеспечения, которое позволяет компьютерам полностью или почти полностью рассуждать автоматически. Подраздел искусственного интеллекта, автоматическое рассуждение, также основывается на теоретической информатике и философии разума.
  • Лингвистика - научное изучение человеческого языка. Обработка естественного языка требует понимания структуры и применения языка, и поэтому во многом опирается на лингвистику.
    • Прикладная лингвистика - междисциплинарная область обучения, которая определяет, исследует и предлагает решения связанных с языком реальных проблем. Некоторые из академических областей, связанных с прикладной лингвистикой, - это образование, лингвистика, психология, информатика, антропология и социология. Некоторые из подразделов прикладной лингвистики, относящиеся к обработке естественного языка:
      • Двуязычие / многоязычие
      • Компьютерное общение (CMC) - любая коммуникативная транзакция, которая происходит с использованием двух или более сетевых компьютеров.[6] Исследования CMC в основном сосредоточены на социальных эффектах различных компьютерных коммуникационных технологий. Многие недавние исследования связаны с использованием Интернета. социальная сеть при поддержке социальное программное обеспечение.
      • Контрастная лингвистика - практико-ориентированный лингвистический подход, который стремится описать различия и сходства между парой языков.
      • Анализ разговора (CA) - подход к изучению социального взаимодействия, охватывающий как вербальное, так и невербальное поведение, в ситуациях повседневной жизни. Очередность - это один из аспектов использования языка, который изучается CA.
      • Анализ речи - различные подходы к анализу письменной речи, речи, языка жестов или любого значимого семиотического события.
      • Судебная лингвистика - применение лингвистических знаний, методов и знаний в контексте судебной экспертизы права, языка, расследования преступлений, судебного разбирательства и судебной процедуры.
      • Интерлингвистика - изучение улучшения коммуникации между людьми, говорящими на разных первых языках, с использованием этнических и вспомогательных языков (lingua franca). Например, с помощью намеренных международных вспомогательных языков, таких как эсперанто или интерлингва, или спонтанных межъязыковых языков, известных как языки пиджин.
      • Языковая оценка - оценка первого, второго или другого языка в школе, колледже или университете; оценка использования языка на рабочем месте; и оценка языка в контексте иммиграции, гражданства и убежища. Оценка может включать анализ аудирования, разговорной речи, чтения, письма или понимания культурных особенностей в отношении понимания того, как язык работает теоретически, и способности использовать язык на практике.
      • Языковая педагогика - наука и искусство языкового образования, включая подходы и методы обучения и изучения языков. Обработка естественного языка используется в программах, предназначенных для обучения языку, включая обучение первому и второму языку.
      • Языковое планирование
      • Языковая политика
      • Лексикография
      • Грамоты
      • Прагматика
      • Приобретение второго языка
      • Стилистика
      • Перевод
    • Компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения. Модели и инструменты компьютерной лингвистики широко используются в области обработки естественного языка, и наоборот.
      • Вычислительная семантика
      • Корпусная лингвистика - изучение языка, выраженного в образцах (корпус) текста "реального мира". Корпуса это множественное число от корпус, а корпус - это специально подобранный набор текстов (или речевых сегментов), состоящих из естественного языка. После того, как он построен (собран или составлен), корпус анализируется с помощью методов компьютерной лингвистики, чтобы вывести значение и контекст его компонентов (слов, фраз и предложений) и отношений между ними. При желании, корпус может быть аннотирован («помечен») данными (вручную или автоматически), чтобы упростить понимание корпуса (например, теги части речи ). Эти данные затем применяются, чтобы понять вводимые пользователем данные, например, чтобы лучше (автоматически) догадываться о том, о чем люди говорят или говорят, возможно, для достижения более узконаправленного поиска в Интернете или для распознавания речи.
    • Металингвистика
    • Жестовая лингвистика - научное изучение и анализ естественных жестовых языков, их особенностей, их структуры (фонология, морфология, синтаксис и семантика), их усвоения (в качестве основного или дополнительного языка), того, как они развиваются независимо от других языков, их применения в общении, их отношения к другим языкам (включая разговорные языки) и многие другие аспекты.
  • Взаимодействие человека с компьютером - пересечение информатики и поведенческих наук, эта область включает в себя изучение, планирование и проектирование взаимодействия между людьми (пользователями) и компьютерами. Внимание к человеко-машинному взаимодействию важно, потому что плохо спроектированные человеко-машинные интерфейсы могут привести ко многим неожиданным проблемам. Классическим примером этого является Авария на Три-Майл-Айленд где исследования пришли к выводу, что дизайн интерфейса человек-машина, по крайней мере, частично ответственен за катастрофу.
  • Поиск информации (IR) - поле, предназначенное для хранения, поиска и извлечения информации. Это отдельная область информатики (ближе к базам данных), но IR полагается на некоторые методы НЛП (например, стемминг). Некоторые текущие исследования и приложения стремятся преодолеть разрыв между IR и NLP.
  • Представление знаний (KR) - область исследований искусственного интеллекта, направленная на представление знаний в символах, чтобы облегчить вывод из этих элементов знания, создавая новые элементы знания. Исследование представления знаний включает в себя анализ того, как правильно и эффективно рассуждать и как лучше всего использовать набор символов для представления набора фактов в области знаний.
  • Машинное обучение - подраздел компьютерных наук, изучающий распознавание образов и теорию вычислительного обучения в искусственном интеллекте. Есть три основных подхода к машинному обучению. Контролируемое обучение происходит, когда учитель дает машине примеры входов и выходов, чтобы она могла изучить правило, сопоставляющее входы и выходы. Обучение без учителя происходит, когда машина определяет структуру входов без предоставления примеров входов или выходов. Обучение с подкреплением происходит, когда машина должна выполнить цель без обратной связи с учителем.

Структуры, используемые при обработке естественного языка

  • Анафора - тип выражения, ссылка на который зависит от другого ссылочного элемента. Например, в предложении «Салли предпочла компанию самой себе» слово «сама» является анафорическим выражением в том смысле, что оно коррелирует с «Салли», подлежащим предложения.
  • Бесконтекстный язык
  • Контролируемый естественный язык - естественный язык с ограничением, введенным на его грамматику и словарный запас, чтобы устранить двусмысленность и сложность
  • Корпус - совокупность данных, необязательно помеченных (например, через теги части речи ), предоставляя образцы из реального мира для анализа и сравнения.
    • Текстовый корпус - большой и структурированный набор текстов, которые в настоящее время обычно хранятся и обрабатываются в электронном виде. Они используются для статистического анализа и проверки гипотез, проверки наличия или подтверждения лингвистических правил в рамках определенного предмета (или домен).
    • Речевой корпус - база данных аудиофайлов речи и текстовых транскрипций. В речевой технологии речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи). В лингвистике речевые корпуса используются для исследования фонетики, анализа разговора, диалектологии и других областей.
  • Грамматика
  • Естественный язык
  • п-грамма - Последовательность из п количество токенов, где "токен" - это символ, слог или слово. В п заменяется числом. Следовательно, 5-грамм - это п-грамма из 5 букв, слогов или слов. «Съешь это» - это 2-граммовая (также известная как биграмма).
    • Биграммап-грамма из 2 жетонов. Каждая последовательность из двух смежных элементов в строке токенов является биграммой. Биграммы используются для распознавания речи, их можно использовать для решения криптограмм, а частота биграмм - один из подходов к статистической идентификации языка.
    • Триграмма - частный случай п-грамма, где п равно 3.
  • Онтология - формальное представление набора концепций в предметной области и взаимосвязей между этими концепциями.
    • Таксономия - практика и наука о классификации, включая принципы, лежащие в основе классификации, и методы классификации вещей или понятий.
      • Гипонимия и гипернимия - лингвистика гипонимов и гиперонимов. Гипоним разделяет тип отношения со своим гипернимом. Например, голубь, ворона, орел и чайка - все это гипонимы птицы (их гипернимы); что, в свою очередь, является гипонимом животного.
      • Таксономия для поисковых систем - обычно называется «таксономией сущностей». Это дерево в котором узлы помечены объектами, которые, как ожидается, будут встречаться в поисковом запросе в Интернете. Эти деревья используются для сопоставления ключевых слов из поискового запроса с ключевыми словами из релевантных ответов (или фрагментов).
  • Текстовое следствие - направленность отношений между фрагментами текста. Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста. В рамках TE подразумеваемый и подразумеваемый тексты называются текстом (t) и гипотезой (h) соответственно. Отношение является направленным, потому что даже если «t влечет за собой h», обратное «h влечет за собой t» гораздо менее определенно.
  • Трифон - последовательность из трех фонем. Трифоны полезны в моделях обработки естественного языка, где они используются для установления различных контекстов, в которых фонема может встречаться в конкретном естественном языке.

Процессы НЛП

Приложения

  • Автоматическая оценка эссе (AES) - использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательной среде. Это метод оценки успеваемости и приложение обработки естественного языка. Его цель состоит в том, чтобы классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным степеням, например числам от 1 до 6. Таким образом, это можно рассматривать как проблему статистической классификации.
  • Автоматическая аннотация изображения - процесс, с помощью которого компьютерная система автоматически назначает текстовые метаданные в форме подписей или ключевых слов цифровому изображению. Аннотации используются в системах поиска изображений для организации и поиска интересующих изображений в базе данных.
  • Автоматическое суммирование - процесс сокращения текстового документа с помощью компьютерной программы для создания резюме, в котором сохраняются наиболее важные моменты исходного документа. Часто используется для краткого изложения текста известного типа, например статей в финансовом разделе газеты.
    • Типы
    • Методы и приемы
      • Резюме на основе извлечения -
      • Резюмирование на основе абстракций -
      • Максимальное обобщение на основе энтропии -
      • Извлечение приговора
      • Обобщение с помощью -
        • Обобщение с использованием автоматизированных машин (HAMS) -
        • Автоматизированное человеческое обобщение (MAHS) -
  • Автоматическая индукция таксономии - автоматизированное строительство древовидные структуры из корпуса. Это может быть применено для построения систем таксономической классификации для чтения конечными пользователями, таких как веб-каталоги или описания тем.
  • Разрешение Coreference - чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие ссылающиеся выражения должны быть связаны с нужными людьми или объектами. Для предложения или большего фрагмента текста разрешение кореферентности определяет, какие слова («упоминания») относятся к каким объектам («сущностям»), включенным в текст.
    • Разрешение анафоры - озабочены сопоставлением местоимений с существительными или именами, к которым они относятся. Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «входная дверь» является отсылающим выражением, а связующее отношение, которое необходимо идентифицировать, - это тот факт, что упоминаемая дверь является входной дверью дома Джона. дом (а не какое-то другое строение, о котором также можно было бы упомянуть).
  • Система диалогов
  • Помощь для чтения на иностранном языке - компьютерная программа, которая помогает пользователю, не являющемуся родным языком, правильно читать на изучаемом языке. Правильное чтение означает, что произношение должно быть правильным, а ударение на разных частях слов должно быть правильным.
  • Помощь при написании на иностранном языке - компьютерная программа или любой другой инструмент, который помогает пользователю, не являющемуся родным языком (также называемому изучающим иностранный язык), прилично писать на своем изучаемом языке. Вспомогательные операции можно разделить на две категории: подсказки на лету и проверки после написания.
  • Проверка грамматики - акт проверки грамматической правильности написанного текста, особенно если этот акт совершает компьютерная программа.
  • Поиск информации
  • Машинный перевод (MT) - направлен на автоматический перевод текста с одного человеческого языка на другой. Это одна из самых сложных проблем, и она принадлежит к классу проблем, которые в просторечии называют "AI-полный ", т.е. требуя всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.), для правильного решения.
  • Программирование на естественном языке - интерпретация и компиляция инструкций, передаваемых на естественном языке, в компьютерные инструкции (машинный код).
  • Поиск на естественном языке
  • Оптическое распознавание символов (OCR) - по изображению, представляющему печатный текст, определите соответствующий текст.
  • Ответ на вопрос - задав вопрос на человеческом языке, определите его ответ. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), Но иногда также рассматриваются открытые вопросы (например, «В чем смысл жизни?»).
  • Фильтрация спама
  • Анализ настроений - извлекает субъективную информацию обычно из набора документов, часто используя онлайн-обзоры для определения «полярности» в отношении конкретных объектов. Это особенно полезно для определения тенденций общественного мнения в социальных сетях в целях маркетинга.
  • Распознавание речи - по звуковому отрывку говорящего человека или людей определить текстовое представление речи. Это противоположность текст в речь и является одной из чрезвычайно сложных проблем, которую в просторечии называют "AI-полный "(см. выше). В естественная речь между последовательными словами почти не бывает пауз, и поэтому сегментация речи является необходимой подзадачей распознавания речи (см. ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, сливаются друг с другом в процессе, называемом коартикуляция, поэтому преобразование аналогового сигнала в дискретные символы может быть очень сложным процессом.
  • Синтез речи (Текст в речь) -
  • Проверка текста
  • Упрощение текста - автоматическое редактирование документа для включения меньшего количества слов или использования более простых слов, сохраняя при этом его основной смысл и информацию.

Компонентные процессы

  • Понимание естественного языка - преобразует фрагменты текста в более формальные представления, такие как логика первого порядка конструкции, которые легче компьютер программы для манипулирования. Понимание естественного языка включает идентификацию предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Введение и создание языковой метамодели и онтологии - эффективные, однако эмпирические решения. Явная формализация семантики естественных языков без путаницы с неявными предположениями, такими как предположение о замкнутом мире (CWA) vs. предположение об открытом мире, или субъективное Да / Нет против объективного Истина / Ложь ожидается для построения основы формализации семантики.[7]
  • Генерация естественного языка - задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.

Компонентные процессы понимания естественного языка

  • Автоматическая классификация документов (категоризация текста) -
  • Обработка сложных терминов - категория методов, которые идентифицируют сложные термины и сопоставляют их с их определениями. Сложные термины создаются путем объединения двух (или более) простых терминов, например, «тройной» - это однословный термин, а «тройной обход сердца» - составной термин.
  • Автоматическая индукция таксономии
  • Обработка корпуса -
  • Глубокая лингвистическая обработка
  • Анализ речи - включает в себя ряд сопутствующих задач. Одна задача - выявить дискурс структура связного текста, то есть характер дискурсивных отношений между предложениями (например, проработка, объяснение, контраст). Другая возможная задача - распознать и классифицировать речевые акты в фрагменте текста (например, вопросы типа "да-нет", вопросы по содержанию, утверждения, утверждения, приказы, предложения и т. д.).
  • Извлечение информации
    • Текстовый анализ - процесс извлечения качественной информации из текста. Качественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое изучение шаблонов.
      • Биомедицинский анализ текста - (также известный как BioNLP), это интеллектуальный анализ текста, применяемый к текстам и литературе в области биомедицины и молекулярной биологии. Это относительно недавняя область исследований, в которой используются элементы обработки естественного языка, биоинформатики, медицинской информатики и компьютерной лингвистики. Возрастает интерес к стратегиям интеллектуального анализа текста и извлечения информации, применяемым к литературе по биомедицине и молекулярной биологии, в связи с увеличением числа электронных публикаций, хранящихся в базах данных, таких как PubMed.
      • Изучение дерева решений
      • Извлечение приговора
    • Извлечение терминологии
  • Скрытое семантическое индексирование
  • Лемматизация - группирует вместе все похожие термины, имеющие одну и ту же лемму, так что они классифицируются как один элемент.
  • Морфологическая сегментация - разделяет слова на отдельные морфемы и определяет класс морфем. Сложность этой задачи во многом зависит от сложности морфология (т.е. структура слов) рассматриваемого языка. английский имеет довольно простую морфологию, особенно флективная морфология, и поэтому часто можно полностью игнорировать эту задачу и просто моделировать все возможные формы слова (например, «открыть, открыть, открыть, открыть») как отдельные слова. На таких языках, как турецкий Однако такой подход невозможен, поскольку каждая словарная статья имеет тысячи возможных словоформ.
  • Признание именной организации (NER) - данный поток текста определяет, какие элементы в тексте сопоставляются с именами собственными, такими как люди или места, и каков тип каждого такого имени (например, человек, местоположение, организация). Несмотря на то что заглавные буквы может помочь в распознавании именованных сущностей на таких языках, как английский, эта информация не может помочь в определении типа именованных сущностей и в любом случае часто является неточной или недостаточной. Например, первое слово предложения также пишется с заглавной буквы, а именованные объекты часто охватывают несколько слов, только некоторые из которых пишутся с заглавной буквы. Кроме того, многие другие языки в незападных шрифтах (например, Китайский или же арабский ) вообще не имеют заглавных букв, и даже языки с заглавными буквами могут не всегда использовать их для различения имен. Например, Немецкий капитализирует все существительные, независимо от того, относятся ли они к именам, и Французский и испанский не пишите заглавными буквами имена, которые служат прилагательные.
  • Обучение онтологии - автоматическое или полуавтоматическое создание онтологии, включая извлечение терминов соответствующей области и отношений между этими концепциями из корпуса текста на естественном языке и их кодирование с помощью язык онтологии для легкого поиска. Также называется «извлечением онтологии», «генерацией онтологии» и «получением онтологии».
  • Парсинг - определяет дерево синтаксического анализа (грамматический анализ) данного предложения. В грамматика за естественные языки является двусмысленный и типичные предложения имеют несколько возможных анализов. На самом деле, что, возможно, удивительно, для типичного предложения могут быть тысячи потенциальных синтаксических разборов (большинство из которых покажется человеку совершенно бессмысленным).
  • Пометка части речи - по приговору определяет часть речи за каждое слово. Многие слова, особенно общие, могут служить несколькими части речи. Например, «книга» может быть имя существительное («книга на столе») или глагол («забронировать рейс»); "набор" может быть имя существительное, глагол или же прилагательное; и «out» может быть любой из пяти разных частей речи. В некоторых языках такой двусмысленности больше, чем в других. Языки с небольшим флективная морфология, Такие как английский особенно подвержены такой двусмысленности. Китайский склонен к такой двусмысленности, потому что это тональный язык во время вербализации. Такое перегибание нелегко передать через объекты, используемые в орфографии для передачи предполагаемого значения.
  • Расширение запроса
  • Извлечение отношений - для данного фрагмента текста идентифицирует отношения между названными объектами (например, кто чья жена).
  • Семантический анализ (вычислительный) - формальный анализ смысла, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию.
  • Нарушение приговора (также известен как неоднозначность границы предложения и обнаружение предложения) - по фрагменту текста находит границы предложения. Границы предложений часто обозначаются периоды или другой знаки препинания, но эти же символы могут служить другим целям (например, отмечать сокращения ).
  • Сегментация речи - учитывая звуковой отрывок говорящего человека или людей, разделяет его на слова. Подзадача распознавание речи и обычно сгруппированы с ним.
  • Стемминг - сокращает словоизменяемое или производное слово до его основа слова, база или корень форма.
  • Фрагменты текста
  • Токенизация - с учетом фрагмента текста, разделяет его на отдельные слова, символы, предложения или другие единицы
  • Тематическая сегментация и распознавание - данный фрагмент текста разделяет его на сегменты, каждый из которых посвящен определенной теме, и определяет тему сегмента.
  • Truecasing
  • Сегментация слов - разделяет кусок непрерывного текста на отдельные слова. Для такого языка, как английский, это довольно тривиально, поскольку слова обычно разделяются пробелами. Однако некоторые письменные языки, такие как Китайский, Японский и Тайский не отмечайте границы слов таким образом, и на этих языках сегментация текста является важной задачей, требующей знания словарный запас и морфология слов в языке.
  • Устранение неоднозначности смысла слова (WSD) - потому что многие слова имеют более одного смысл, устранение неоднозначности смысла слова используется для выбора значения, которое имеет наибольший смысл в контексте. Для этой задачи нам обычно дается список слов и связанных смыслов слов, например из словаря или онлайн-ресурса, например WordNet.
    • Словесная индукция - открытая проблема обработки естественного языка, которая касается автоматической идентификации смыслов слова (т.е. значений). Учитывая, что результатом индукции смысла слова является набор смыслов для целевого слова (реестр смыслов), эта задача строго связана с задачей устранения неоднозначности смысла слова (WSD), которая опирается на заранее определенный перечень смыслов и направлена ​​на решение неоднозначность слов в контексте.
    • Автоматическое получение корпусов с метками смысла
  • W-черепица - набор уникальных «черепиц» - смежных подпоследовательностей токенов в документе - которые можно использовать для оценки сходства двух документов. W обозначает количество жетонов в каждой черепице в наборе.

Компонентные процессы генерации естественного языка

Генерация естественного языка - задача преобразования информации из компьютерных баз данных в понятный человеческий язык.

  • Автоматическая индукция таксономии (АТИ) - автоматизированное строительство древовидные структуры из корпуса. В то время как ATI используется для построения ядра онтологий (и это делает его компонентным процессом понимания естественного языка), когда конструируемые онтологии читаются конечным пользователем (например, схема предмета), и они используются для построения дальнейшая документация (например, использование схемы в качестве основы для построения отчета или трактата) также становится составным процессом создания естественного языка.
  • Структурирование документа

История обработки естественного языка

История обработки естественного языка

  • История машинного перевода
  • История автоматической оценки эссе
  • История пользовательского интерфейса на естественном языке
  • История понимания естественного языка
  • История оптического распознавания символов
  • История ответов на вопросы
  • История синтеза речи
  • Тест Тьюринга - проверка способности машины демонстрировать разумное поведение, эквивалентное поведению реального человека или неотличимое от него. В исходном иллюстративном примере судья-человек участвует в разговоре на естественном языке с человеком и машиной, предназначенной для создания производительности, неотличимой от человеческой. Все участники отделены друг от друга. Если судья не может достоверно отличить машину от человека, считается, что машина выдержала испытание. Тест был представлен Аланом Тьюрингом в его статье 1950 года «Вычислительные машины и интеллект», которая открывается словами: «Я предлагаю рассмотреть вопрос:« Могут ли машины думать? »»
  • Универсальная грамматика - теория в лингвистика, обычно зачисляется на Ноам Хомский, предполагая, что способность изучать грамматику встроена в мозг.[8] Теория предполагает, что языковые способности проявляются без обучения (видеть бедность стимула ), и что есть свойства, которые все естественные человеческие языки Поделиться. Это вопрос наблюдения и экспериментов, чтобы точно определить, какие способности являются врожденными, а какие свойства присущи всем языкам.
  • ALPAC - комитет из семи ученых во главе с Джоном Р. Пирсом, созданный в 1964 году правительством США для оценки прогресса компьютерной лингвистики в целом и машинного перевода в частности. Его отчет, опубликованный в 1966 году, получил известность за то, что он очень скептически относился к исследованиям, проводимым в области машинного перевода, и подчеркивал необходимость фундаментальных исследований в области компьютерной лингвистики; это в конечном итоге заставило правительство США резко сократить финансирование этой темы.
  • Теория концептуальной зависимости - модель понимания естественного языка, используемая в системах искусственного интеллекта. Роджер Шэнк в Стэнфордском университете представили модель в 1969 году, на заре искусственного интеллекта.[9] Эта модель широко использовалась студентами Шанка в Йельском университете, такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер.
  • Расширенная сеть переходов - тип теоретико-графовой структуры, используемой в рабочем определении формальных языков, особенно используемый при анализе относительно сложных естественных языков и имеющий широкое применение в искусственном интеллекте. Представлен Уильямом А. Вудсом в 1970 году.
  • Распределенный языковой перевод (проект) -

Хронология программного обеспечения НЛП

Программного обеспечения ГодСоздательОписаниеСсылка
Джорджтаунский эксперимент1954Джорджтаунский университет и IBMзадействован полностью автоматический перевод более шестидесяти русских предложений на английский язык.
УЧЕНИК1964Дэниел Боброуможет решать школьные задачи по алгебре.[10]
ELIZA1964Йозеф Вайценбаумсимуляция Rogerian psychotherapist, rephrasing her (referred to as her not it) response with a few grammar rules.[11]
ШРДЛУ1970Терри Виноградa natural language system working in restricted "blocks worlds " with restricted vocabularies, worked extremely well
PARRY1972Kenneth ColbyА болтун
KL-ONE1974Sondheimer et al.a knowledge representation system in the tradition of semantic networks and frames; это frame language.
MARGIE1975Роджер Шэнк
TaleSpin (software)1976Михан
QUALMЛенерт
LIFER/LADDER1978Хендриксa natural language interface to a database of information about US Navy ships.
SAM (software)1978Cullingford
PAM (software)1978Robert Wilensky
Politics (software)1979Карбонелл
Plot Units (software)1981Ленерт
Jabberwacky1982Ролло Карпентерболтун with stated aim to "simulate natural human chat in an interesting, entertaining and humorous manner".
MUMBLE (software)1982Макдональдс
Racter1983William Chamberlain and Thomas Etterболтун that generated English language prose at random.
MOPTRANS1984Lytinen
KODIAK (software)1986Wilensky
Absity (software)1987Hirst
Аэротекст1999Локхид МартинOriginally developed for the U.S. intelligence community (Department of Defense) for information extraction & relational link analysis
Watson2006IBMA question answering system that won the Опасность! contest, defeating the best human players in February 2011.
MeTA2014Sean Massung, Chase Geigle, Cheng{X}iang ZhaiMeTA is a modern C++ data sciences toolkit featuringL text tokenization, including deep semantic features like parse trees; inverted and forward indexes with compression and various caching strategies; a collection of ranking functions for searching the indexes; topic models; classification algorithms; graph algorithms; language models; CRF implementation (POS-tagging, shallow parsing); wrappers for liblinear and libsvm (including libsvm dataset parsers); UTF8 support for analysis on various languages; multithreaded algorithms
Тай2016MicrosoftAn artificial intelligence chatterbot that caused controversy on Twitter by releasing inflammatory tweets and was taken offline shortly after.

General natural language processing concepts

Natural language processing tools

Корпуса

Natural language processing toolkits

Следующее обработка естественного языка наборы инструментов are notable collections of обработка естественного языка программного обеспечения. They are suites of библиотеки, рамки, и Приложения for symbolic, statistical natural language and speech processing.

ИмяЯзыкЛицензияСоздатели
ApertiumC ++, ЯваGPL(разные)
ChatScriptC ++GPLБрюс Уилкокс
Deeplearning4jЯва, ScalaApache 2.0Adam Gibson, Skymind
DELPH-INLISP, C ++LGPL, Массачусетский технологический институт, ...Deep Linguistic Processing with HPSG Инициатива
DistinguoC ++КоммерческийUltralingua Inc.
DKPro ОсновнойЯваApache 2.0 / Varying for individual modulesTechnische Universität Darmstadt / Online community
General Architecture for Text Engineering (GATE)ЯваLGPLGATE open source community
GensimPythonLGPLRadim Řehůřek
LinguaStreamЯваFree for researchКанский университет, Франция
МолотокЯваОбщая общественная лицензияМассачусетский университет в Амхерсте
Модульная структура распознавания звукаЯваBSDThe MARF Research and Development Group, Университет Конкордия
MontyLinguaPython, ЯваFree for researchМассачусетский технологический институт
Natural Language Toolkit (NLTK)PythonApache 2.0
Apache OpenNLPЯваЛицензия Apache 2.0Интернет-сообщество
spaCyPython, CythonМассачусетский технологический институтMatthew Honnibal, Explosion AI
UIMAЯва / C ++Apache 2.0Apache

Named entity recognizers

  • ABNER (A Biomedical Named Entity Recognizer) – open source text mining program that uses linear-chain conditional random field sequence models. It automatically tags genes, proteins and other entity names in text. Written by Burr Settles of the University of Wisconsin-Madison.
  • Stanford NER (Named Entity Recognizer) — Java implementation of a Named Entity Recognizer that uses linear-chain conditional random field sequence models. It automatically tags persons, organizations, and locations in text in English, German, Chinese, and Spanish languages. Written by Jenny Finkel and other members of the Stanford NLP Group at Stanford University.

Программное обеспечение для перевода

Другое ПО

  • ЗАДАЧИ – open-source natural language processing system for information extraction from electronic medical record clinical free-text. Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, болезни / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущий, не связанный с пациентом) и отрицание / неотрицание. Also known as Apache cTAKES.
  • DMAP
  • ЭТАП-3 – proprietary linguistic processing system focusing on English and Russian.[12] Это система, основанная на правилах который использует Теория смыслового текста в качестве его теоретической основы.
  • JAPE – the Java Annotation Patterns Engine, a component of the open-source General Architecture for Text Engineering (GATE) platform. JAPE is a finite state transducer that operates over annotations based on regular expressions.
  • LOLITA – "Large-scale, Object-based, Linguistic Interactor, Translator and Analyzer". LOLITA was developed by Roberto Garigliano and colleagues between 1986 and 2000. It was designed as a general-purpose tool for processing unrestricted text that could be the basis of a wide variety of applications. At its core was a semantic network containing some 90,000 interlinked concepts.
  • Малууба – intelligent personal assistant for Android devices, that uses a contextual approach to search which takes into account the user's geographic location, contacts, and language.
  • METAL MT – machine translation system developed in the 1980s at the University of Texas and at Siemens which ran on Lisp Machines.
  • Бесконечное изучение языка – semantic machine learning system developed by a research team at Carnegie Mellon University, and supported by grants from DARPA, Google, and the NSF, with portions of the system running on a supercomputing cluster provided by Yahoo!.[13] NELL was programmed by its developers to be able to identify a basic set of fundamental semantic relationships between a few hundred predefined categories of data, such as cities, companies, emotions and sports teams. Since the beginning of 2010, the Carnegie Mellon research team has been running NELL around the clock, sifting through hundreds of millions of web pages looking for connections between the information it already knows and what it finds through its search process – to make new connections in a manner that is intended to mimic the way humans learn new information.[14]
  • НЛТК
  • Online-translator.com
  • Regulus Grammar Compiler – software system for compiling unification grammars into grammars for speech recognition systems.
  • S Голос
  • Siri (программное обеспечение)
  • Speaktoit
  • TeLQAS
  • Weka's classification tools –
  • word2vec – models that were developed by a team of researchers led by Thomas Milkov at Google to generate word embeddings that can reconstruct some of the linguistic context of words using shallow, two dimensional neural nets derived from a much larger vector space.
  • Festival Speech Synthesis System
  • КМУ Сфинкс speech recognition system –
  • Языковая сетка - Open source platform for language web services, which can customize language services by combining existing language services.

Chatterbots

Чаттербот – a text-based conversation агент that can interact with human users through some medium, such as an мгновенное сообщение служба. Some chatterbots are designed for specific purposes, while others converse with human users on a wide range of topics.

Classic chatterbots

General chatterbots

Instant messenger chatterbots

Natural language processing organizations

Natural language processing-related conferences

Companies involved in natural language processing

Natural language processing publications

Книги

Цикл книг

Журналы

People influential in natural language processing

Смотрите также

Рекомендации

  1. ^ "... modern science is a discovery as well as an invention. It was a discovery that nature generally acts regularly enough to be described by laws and even by mathematics; and required invention to devise the techniques, abstractions, apparatus, and organization for exhibiting the regularities and securing their law-like descriptions." —p.vii, Дж. Л. Хейльброн, (2003, editor-in-chief) Оксфордский компаньон по истории современной науки Нью-Йорк: Издательство Оксфордского университета ISBN  0-19-511229-6
    • "наука". Онлайн-словарь Merriam-Webster. Мерриам-Вебстер, Inc. Получено 2011-10-16. 3 а: знания или система знаний, охватывающих общие истины или действие общих законов, особенно полученные и проверенные научным методом б: такое знание или такая система знаний, связанных с физическим миром и его явлениями
  2. ^ SWEBOK Пьер Бурк; Robert Dupuis, eds. (2004). Guide to the Software Engineering Body of Knowledge - 2004 Version. executive editors, Alain Abran, James W. Moore ; editors, Pierre Bourque, Robert Dupuis. IEEE Computer Society. п. 1. ISBN  0-7695-2330-7.
  3. ^ ACM (2006). "Компьютерные дипломы и карьера". ACM. Получено 2010-11-23.
  4. ^ Лапланте, Филипп (2007). Что каждый инженер должен знать о разработке программного обеспечения. Boca Raton: CRC. ISBN  978-0-8493-7228-5. Получено 2011-01-21.
  5. ^ Устройство ввода Компьютерная надежда
  6. ^ McQuail, Denis. (2005). Mcquail's Mass Communication Theory. 5-е изд. Лондон: SAGE Publications.
  7. ^ Yucong Duan, Christophe Cruz (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Formalizing Semantic of Natural Language through Conceptualization from Existence]. International Journal of Innovation, Management and Technology(2011) 2 (1), pp. 37-42.
  8. ^ «Инструментальный модуль: универсальная грамматика Хомского». thebrain.mcgill.ca.
  9. ^ Роджер Шэнк, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden pages 1-3
  10. ^ McCorduck 2004, п. 286, г. Crevier 1993, pp. 76−79, Рассел и Норвиг, 2003 г., п. 19
  11. ^ McCorduck 2004, pp. 291–296, Crevier 1993, pp. 134−139
  12. ^ "МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3". Iitp.ru. Получено 2012-02-14.
  13. ^ "Aiming to Learn as We Do, a Machine Teaches Itself". Нью-Йорк Таймс. 4 октября 2010 г.. Получено 2010-10-05. Since the start of the year, a team of researchers at Carnegie Mellon University — supported by grants from the Defense Advanced Research Projects Agency and Google, and tapping into a research supercomputing cluster provided by Yahoo — has been fine-tuning a computer system that is trying to master semantics by learning more like a human.
  14. ^ Обзор проекта, Университет Карнеги Меллон. Accessed October 5, 2010.
  15. ^ "Loebner Prize Contest 2013". People.exeter.ac.uk. 2013-09-14. Получено 2013-12-02.
  16. ^ Gibes, Al (2002-03-25). "Circle of buddies grows ever wider". Las Vegas Review-Journal (Nevada).
  17. ^ "ActiveBuddy Introduces Software to Create and Deploy Interactive Agents for Text Messaging; ActiveBuddy Developer Site Now Open: www.BuddyScript.com". Деловой провод. 2002-07-15. Получено 2014-01-16.
  18. ^ Lenzo, Kevin (Summer 1998). "Infobots and Purl". Журнал Perl. 3 (2). Получено 2010-07-26.
  19. ^ Лаорден, Карлос; Galan-Garcia, Patxi; Сантос, Игорь; Санс, Борха; Идальго, Хосе Мария Гомес; Брингас, Пабло Г. (23 августа 2012 г.). Негобот: разговорный агент, основанный на теории игр для обнаружения педофильского поведения. (PDF). ISBN  978-3-642-33018-6. Архивировано из оригинал (PDF) 17 сентября 2013 г.
  20. ^ Wermter, Stephan; Ellen Riloff; Gabriele Scheler (1996). Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing. Springer.
  21. ^ Jurafsky, Dan; James H. Martin (2008). Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2-е изд.). Upper Saddle River (N.J.): Prentice Hall. п. 2.
  22. ^ "SEM1A5 - Part 1 - A brief history of NLP". Получено 2010-06-25.
  23. ^ Роджер Шэнк, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, pages 1-3
  24. ^ Ibrahim, Amr Helmy. 2002. "Maurice Gross (1934-2001). À la mémoire de Maurice Gross". Hermès 34.
  25. ^ Dougherty, Ray. 2001 г. Maurice Gross Memorial Letter.
  26. ^ "Programming with Natural Language Is Actually Going to Work—Wolfram Blog".

Библиография

внешняя ссылка