Схема обработки естественного языка - Википедия - Outline of natural language processing

Следующее контур предоставляется как обзор и актуальное руководство по обработке естественного языка:

Обработка естественного языка - компьютерная деятельность, при которой компьютеры анализировать, понимать, изменить или создать естественный язык. Это включает автоматизация любых или всех языковых форм, видов деятельности или методов общения, таких как беседа, переписка, чтение, письменное сочинение, диктовка, издательский, перевод, чтение по губам, и так далее. Обработка естественного языка - это также название ветви Информатика, искусственный интеллект, и лингвистика озабочены тем, чтобы компьютеры могли общаться с использованием естественного (ых) языка (ов) во всех формах, включая, помимо прочего, речь, Распечатать, письмо, и подписание.

Обработка естественного языка

Обработку естественного языка можно описать следующим образом:

Поле наука - систематическое предприятие, которое создает и систематизирует знания в форме проверяемых объяснений и предсказаний о Вселенной.^[1]
- An Прикладная наука - область, в которой человеческие знания применяются для создания или проектирования полезных вещей.
  - Поле Информатика - научно-практический подход к вычислениям и их приложениям.
    - Филиал искусственный интеллект - интеллект машин и роботов и отрасль информатики, направленная на его создание.
    - Подполе компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения.
- Применение инженерное дело - наука, навыки и профессия по приобретению и применению научных, экономических, социальных и практических знаний с целью проектирования, а также создания конструкций, машин, устройств, систем, материалов и процессов.
  - Применение программная инженерия - применение систематического, дисциплинированного, поддающегося количественной оценке подхода к проектированию, разработке, эксплуатации и обслуживанию программного обеспечения, а также изучение этих подходов; то есть приложение инженерии к программному обеспечению.^[2]^[3]^[4]
    - Подполе компьютерное программирование - процесс проектирования, написания, тестирования, отладки и поддержки исходного кода компьютерных программ. Этот исходный код написан на одном или нескольких языках программирования (например, Java, C ++, C #, Python и т. Д.). Целью программирования является создание набора инструкций, которые компьютеры используют для выполнения определенных операций или для демонстрации желаемого поведения.
      - Подполе искусственный интеллект программирование -
Тип система - набор взаимодействующих или взаимозависимых компонентов, образующих интегрированное целое или набор элементов (часто называемых «компонентами»), и отношения, которые отличаются от отношений набора или его элементов с другими элементами или наборами.
- Система, включающая программного обеспечения - программное обеспечение - это набор компьютерных программ и связанных с ними данных, которые содержат инструкции для указания компьютеру, что делать и как это делать. Программное обеспечение относится к одной или нескольким компьютерным программам и данным, хранящимся в памяти компьютера. Другими словами, программное обеспечение - это набор программ, процедур, алгоритмов и их документации, связанных с работой системы обработки данных.
Тип технологии - создание, модификация, использование и знание инструментов, машин, методов, ремесел, систем, методов организации для решения проблемы, улучшения ранее существовавшего решения проблемы, достижения цели, обработки прикладных отношений ввода / вывода или выполнять определенную функцию. Это также может относиться к набору таких инструментов, механизмов, модификаций, устройств и процедур. Технологии существенно влияют на способность человека и других видов животных управлять своей естественной средой и адаптироваться к ней.
- Форма компьютерные технологии - компьютеры и их применение. В НЛП используются компьютеры, сканеры изображений, микрофоны и многие типы программного обеспечения.
  - Языковые технологии - состоит из обработки естественного языка (NLP) и компьютерной лингвистики (CL), с одной стороны, и речевых технологий, с другой. Он также включает многие аспекты, ориентированные на приложения. Ее часто называют технологией человеческого языка (HLT).

Необходимые технологии

Следующие технологии делают возможной обработку естественного языка:

Коммуникация - активность источника, отправившего сообщение приемник
- Язык –
  - Речь –
  - Письмо –
- Вычисление –
  - Компьютеры –
  - Компьютерное программирование –
    - Извлечение информации –
    - Пользовательский интерфейс –
  - Программного обеспечения –
    - Редактирование текста - программа, используемая для редактирования равнины текстовые файлы
    - Обработка текста - часть программного обеспечения, используемого для составления, редактирования, форматирования и печати документов
  - Устройства ввода - аппаратные средства для отправки данных на компьютер для обработки^[5]
    - Компьютерная клавиатура - устройство ввода в стиле пишущей машинки, ввод которого преобразуется в различные данные в зависимости от обстоятельств
    - Сканеры изображений –

Подполя обработки естественного языка

Извлечение информации (IE) - поле, в целом связанное с извлечением семантической информации из текста. Это охватывает такие задачи, как признание названного лица, разрешение кореферентности, извлечение отношений, так далее.
Онтология инженерия - область, которая изучает методы и методологии построения онтологий, которые являются формальными представлениями набора концепций в предметной области и отношений между этими концепциями.
Обработка речи - поле, покрывающее распознавание речи, текст в речь и сопутствующие задачи.
Статистическая обработка естественного языка –
- Статистическая семантика - подполе вычислительная семантика который устанавливает семантические отношения между словами для изучения их контекста.
  - Распределительная семантика - подполе статистическая семантика который исследует семантическую взаимосвязь слов в корпусе или в больших выборках данных.

Связанные поля

Обработка естественного языка способствует и использует (теории, инструменты и методологии из) следующие области:

Автоматическое рассуждение - область информатики и математической логики, посвященная пониманию различных аспектов рассуждения и созданию программного обеспечения, которое позволяет компьютерам полностью или почти полностью рассуждать автоматически. Подраздел искусственного интеллекта, автоматическое рассуждение, также основывается на теоретической информатике и философии разума.
Лингвистика - научное изучение человеческого языка. Обработка естественного языка требует понимания структуры и применения языка, и поэтому во многом опирается на лингвистику.
- Прикладная лингвистика - междисциплинарная область обучения, которая определяет, исследует и предлагает решения связанных с языком реальных проблем. Некоторые из академических областей, связанных с прикладной лингвистикой, - это образование, лингвистика, психология, информатика, антропология и социология. Некоторые из подразделов прикладной лингвистики, относящиеся к обработке естественного языка:
  - Двуязычие / многоязычие –
  - Компьютерное общение (CMC) - любая коммуникативная транзакция, которая происходит с использованием двух или более сетевых компьютеров.^[6] Исследования CMC в основном сосредоточены на социальных эффектах различных компьютерных коммуникационных технологий. Многие недавние исследования связаны с использованием Интернета. социальная сеть при поддержке социальное программное обеспечение.
  - Контрастная лингвистика - практико-ориентированный лингвистический подход, который стремится описать различия и сходства между парой языков.
  - Анализ разговора (CA) - подход к изучению социального взаимодействия, охватывающий как вербальное, так и невербальное поведение, в ситуациях повседневной жизни. Очередность - это один из аспектов использования языка, который изучается CA.
  - Анализ речи - различные подходы к анализу письменной речи, речи, языка жестов или любого значимого семиотического события.
  - Судебная лингвистика - применение лингвистических знаний, методов и знаний в контексте судебной экспертизы права, языка, расследования преступлений, судебного разбирательства и судебной процедуры.
  - Интерлингвистика - изучение улучшения коммуникации между людьми, говорящими на разных первых языках, с использованием этнических и вспомогательных языков (lingua franca). Например, с помощью намеренных международных вспомогательных языков, таких как эсперанто или интерлингва, или спонтанных межъязыковых языков, известных как языки пиджин.
  - Языковая оценка - оценка первого, второго или другого языка в школе, колледже или университете; оценка использования языка на рабочем месте; и оценка языка в контексте иммиграции, гражданства и убежища. Оценка может включать анализ аудирования, разговорной речи, чтения, письма или понимания культурных особенностей в отношении понимания того, как язык работает теоретически, и способности использовать язык на практике.
  - Языковая педагогика - наука и искусство языкового образования, включая подходы и методы обучения и изучения языков. Обработка естественного языка используется в программах, предназначенных для обучения языку, включая обучение первому и второму языку.
  - Языковое планирование –
  - Языковая политика –
  - Лексикография –
  - Грамоты –
  - Прагматика –
  - Приобретение второго языка –
  - Стилистика –
  - Перевод –
- Компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения. Модели и инструменты компьютерной лингвистики широко используются в области обработки естественного языка, и наоборот.
  - Вычислительная семантика –
  - Корпусная лингвистика - изучение языка, выраженного в образцах (корпус) текста "реального мира". Корпуса это множественное число от корпус, а корпус - это специально подобранный набор текстов (или речевых сегментов), состоящих из естественного языка. После того, как он построен (собран или составлен), корпус анализируется с помощью методов компьютерной лингвистики, чтобы вывести значение и контекст его компонентов (слов, фраз и предложений) и отношений между ними. При желании, корпус может быть аннотирован («помечен») данными (вручную или автоматически), чтобы упростить понимание корпуса (например, теги части речи ). Эти данные затем применяются, чтобы понять вводимые пользователем данные, например, чтобы лучше (автоматически) догадываться о том, о чем люди говорят или говорят, возможно, для достижения более узконаправленного поиска в Интернете или для распознавания речи.
- Металингвистика –
- Жестовая лингвистика - научное изучение и анализ естественных жестовых языков, их особенностей, их структуры (фонология, морфология, синтаксис и семантика), их усвоения (в качестве основного или дополнительного языка), того, как они развиваются независимо от других языков, их применения в общении, их отношения к другим языкам (включая разговорные языки) и многие другие аспекты.
Взаимодействие человека с компьютером - пересечение информатики и поведенческих наук, эта область включает в себя изучение, планирование и проектирование взаимодействия между людьми (пользователями) и компьютерами. Внимание к человеко-машинному взаимодействию важно, потому что плохо спроектированные человеко-машинные интерфейсы могут привести ко многим неожиданным проблемам. Классическим примером этого является Авария на Три-Майл-Айленд где исследования пришли к выводу, что дизайн интерфейса человек-машина, по крайней мере, частично ответственен за катастрофу.
Поиск информации (IR) - поле, предназначенное для хранения, поиска и извлечения информации. Это отдельная область информатики (ближе к базам данных), но IR полагается на некоторые методы НЛП (например, стемминг). Некоторые текущие исследования и приложения стремятся преодолеть разрыв между IR и NLP.
Представление знаний (KR) - область исследований искусственного интеллекта, направленная на представление знаний в символах, чтобы облегчить вывод из этих элементов знания, создавая новые элементы знания. Исследование представления знаний включает в себя анализ того, как правильно и эффективно рассуждать и как лучше всего использовать набор символов для представления набора фактов в области знаний.
- Семантическая сеть - изучение семантических отношений между концептами.
  - Семантическая сеть –
Машинное обучение - подраздел компьютерных наук, изучающий распознавание образов и теорию вычислительного обучения в искусственном интеллекте. Есть три основных подхода к машинному обучению. Контролируемое обучение происходит, когда учитель дает машине примеры входов и выходов, чтобы она могла изучить правило, сопоставляющее входы и выходы. Обучение без учителя происходит, когда машина определяет структуру входов без предоставления примеров входов или выходов. Обучение с подкреплением происходит, когда машина должна выполнить цель без обратной связи с учителем.
- Распознавание образов - филиал машинное обучение Это исследует, как машины распознают закономерности в данных. Как и в случае с машинным обучением, учителя могут обучать машины распознавать закономерности, предоставляя им примеры входных и выходных данных (т. Е. Контролируемое обучение ), или машины могут распознавать шаблоны без обучения на каких-либо примерах входов или выходов (т.е. Неконтролируемое обучение ).
- Статистическая классификация –

Структуры, используемые при обработке естественного языка

Анафора - тип выражения, ссылка на который зависит от другого ссылочного элемента. Например, в предложении «Салли предпочла компанию самой себе» слово «сама» является анафорическим выражением в том смысле, что оно коррелирует с «Салли», подлежащим предложения.
Бесконтекстный язык –
Контролируемый естественный язык - естественный язык с ограничением, введенным на его грамматику и словарный запас, чтобы устранить двусмысленность и сложность
Корпус - совокупность данных, необязательно помеченных (например, через теги части речи ), предоставляя образцы из реального мира для анализа и сравнения.
- Текстовый корпус - большой и структурированный набор текстов, которые в настоящее время обычно хранятся и обрабатываются в электронном виде. Они используются для статистического анализа и проверки гипотез, проверки наличия или подтверждения лингвистических правил в рамках определенного предмета (или домен).
- Речевой корпус - база данных аудиофайлов речи и текстовых транскрипций. В речевой технологии речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи). В лингвистике речевые корпуса используются для исследования фонетики, анализа разговора, диалектологии и других областей.
Грамматика –
- Бесконтекстная грамматика (CFG) -
- Грамматика ограничений (CG) -
- Грамматика с определенным предложением (DCG) -
- Грамматика функциональной унификации (FUG) -
- Грамматика обобщенной фразовой структуры (GPSG) -
- Грамматика структуры фраз, управляемая головой (HPSG) -
- Лексическая функциональная грамматика (LFG) -
- Вероятностная контекстно-свободная грамматика (PCFG) - другое название стохастической контекстно-свободной грамматики.
- Стохастическая контекстно-свободная грамматика (SCFG) -
- Системная функциональная грамматика (SFG) -
- Грамматика, примыкающая к дереву (ТЕГ) -
Естественный язык –
п-грамма - Последовательность из п количество токенов, где "токен" - это символ, слог или слово. В п заменяется числом. Следовательно, 5-грамм - это п-грамма из 5 букв, слогов или слов. «Съешь это» - это 2-граммовая (также известная как биграмма).
- Биграмма – п-грамма из 2 жетонов. Каждая последовательность из двух смежных элементов в строке токенов является биграммой. Биграммы используются для распознавания речи, их можно использовать для решения криптограмм, а частота биграмм - один из подходов к статистической идентификации языка.
- Триграмма - частный случай п-грамма, где п равно 3.
Онтология - формальное представление набора концепций в предметной области и взаимосвязей между этими концепциями.
- Таксономия - практика и наука о классификации, включая принципы, лежащие в основе классификации, и методы классификации вещей или понятий.
  - Гипонимия и гипернимия - лингвистика гипонимов и гиперонимов. Гипоним разделяет тип отношения со своим гипернимом. Например, голубь, ворона, орел и чайка - все это гипонимы птицы (их гипернимы); что, в свою очередь, является гипонимом животного.
  - Таксономия для поисковых систем - обычно называется «таксономией сущностей». Это дерево в котором узлы помечены объектами, которые, как ожидается, будут встречаться в поисковом запросе в Интернете. Эти деревья используются для сопоставления ключевых слов из поискового запроса с ключевыми словами из релевантных ответов (или фрагментов).
Текстовое следствие - направленность отношений между фрагментами текста. Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста. В рамках TE подразумеваемый и подразумеваемый тексты называются текстом (t) и гипотезой (h) соответственно. Отношение является направленным, потому что даже если «t влечет за собой h», обратное «h влечет за собой t» гораздо менее определенно.
Трифон - последовательность из трех фонем. Трифоны полезны в моделях обработки естественного языка, где они используются для установления различных контекстов, в которых фонема может встречаться в конкретном естественном языке.

Процессы НЛП

Приложения

Автоматическая оценка эссе (AES) - использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательной среде. Это метод оценки успеваемости и приложение обработки естественного языка. Его цель состоит в том, чтобы классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным степеням, например числам от 1 до 6. Таким образом, это можно рассматривать как проблему статистической классификации.
Автоматическая аннотация изображения - процесс, с помощью которого компьютерная система автоматически назначает текстовые метаданные в форме подписей или ключевых слов цифровому изображению. Аннотации используются в системах поиска изображений для организации и поиска интересующих изображений в базе данных.
Автоматическое суммирование - процесс сокращения текстового документа с помощью компьютерной программы для создания резюме, в котором сохраняются наиболее важные моменты исходного документа. Часто используется для краткого изложения текста известного типа, например статей в финансовом разделе газеты.
- Типы
  - Извлечение ключевой фразы -
  - Резюме документа -
    - Резюме из нескольких документов –
- Методы и приемы
  - Резюме на основе извлечения -
  - Резюмирование на основе абстракций -
  - Максимальное обобщение на основе энтропии -
  - Извлечение приговора –
  - Обобщение с помощью -
    - Обобщение с использованием автоматизированных машин (HAMS) -
    - Автоматизированное человеческое обобщение (MAHS) -
Автоматическая индукция таксономии - автоматизированное строительство древовидные структуры из корпуса. Это может быть применено для построения систем таксономической классификации для чтения конечными пользователями, таких как веб-каталоги или описания тем.
Разрешение Coreference - чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие ссылающиеся выражения должны быть связаны с нужными людьми или объектами. Для предложения или большего фрагмента текста разрешение кореферентности определяет, какие слова («упоминания») относятся к каким объектам («сущностям»), включенным в текст.
- Разрешение анафоры - озабочены сопоставлением местоимений с существительными или именами, к которым они относятся. Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «входная дверь» является отсылающим выражением, а связующее отношение, которое необходимо идентифицировать, - это тот факт, что упоминаемая дверь является входной дверью дома Джона. дом (а не какое-то другое строение, о котором также можно было бы упомянуть).
Система диалогов –
Помощь для чтения на иностранном языке - компьютерная программа, которая помогает пользователю, не являющемуся родным языком, правильно читать на изучаемом языке. Правильное чтение означает, что произношение должно быть правильным, а ударение на разных частях слов должно быть правильным.
Помощь при написании на иностранном языке - компьютерная программа или любой другой инструмент, который помогает пользователю, не являющемуся родным языком (также называемому изучающим иностранный язык), прилично писать на своем изучаемом языке. Вспомогательные операции можно разделить на две категории: подсказки на лету и проверки после написания.
Проверка грамматики - акт проверки грамматической правильности написанного текста, особенно если этот акт совершает компьютерная программа.
Поиск информации –
- Поиск информации на разных языках –
Машинный перевод (MT) - направлен на автоматический перевод текста с одного человеческого языка на другой. Это одна из самых сложных проблем, и она принадлежит к классу проблем, которые в просторечии называют "AI-полный ", т.е. требуя всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.), для правильного решения.
- Классический подход машинного перевода - машинный перевод на основе правил.
- Компьютерный перевод –
  - Интерактивный машинный перевод –
  - Память переводов - база данных, в которой хранятся так называемые «сегменты», которые могут быть предложениями, абзацами или подобными предложениям единицами (заголовки, заголовки или элементы в списке), которые были ранее переведены, чтобы помочь переводчикам-людям.
- Машинный перевод на основе примеров –
- Машинный перевод на основе правил –
Программирование на естественном языке - интерпретация и компиляция инструкций, передаваемых на естественном языке, в компьютерные инструкции (машинный код).
Поиск на естественном языке –
Оптическое распознавание символов (OCR) - по изображению, представляющему печатный текст, определите соответствующий текст.
Ответ на вопрос - задав вопрос на человеческом языке, определите его ответ. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), Но иногда также рассматриваются открытые вопросы (например, «В чем смысл жизни?»).
- Ответы на вопросы открытого домена –
Фильтрация спама –
Анализ настроений - извлекает субъективную информацию обычно из набора документов, часто используя онлайн-обзоры для определения «полярности» в отношении конкретных объектов. Это особенно полезно для определения тенденций общественного мнения в социальных сетях в целях маркетинга.
Распознавание речи - по звуковому отрывку говорящего человека или людей определить текстовое представление речи. Это противоположность текст в речь и является одной из чрезвычайно сложных проблем, которую в просторечии называют "AI-полный "(см. выше). В естественная речь между последовательными словами почти не бывает пауз, и поэтому сегментация речи является необходимой подзадачей распознавания речи (см. ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, сливаются друг с другом в процессе, называемом коартикуляция, поэтому преобразование аналогового сигнала в дискретные символы может быть очень сложным процессом.
Синтез речи (Текст в речь) -
Проверка текста –
Упрощение текста - автоматическое редактирование документа для включения меньшего количества слов или использования более простых слов, сохраняя при этом его основной смысл и информацию.

Компонентные процессы

Понимание естественного языка - преобразует фрагменты текста в более формальные представления, такие как логика первого порядка конструкции, которые легче компьютер программы для манипулирования. Понимание естественного языка включает идентификацию предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Введение и создание языковой метамодели и онтологии - эффективные, однако эмпирические решения. Явная формализация семантики естественных языков без путаницы с неявными предположениями, такими как предположение о замкнутом мире (CWA) vs. предположение об открытом мире, или субъективное Да / Нет против объективного Истина / Ложь ожидается для построения основы формализации семантики.^[7]
Генерация естественного языка - задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.

Компонентные процессы понимания естественного языка

Автоматическая классификация документов (категоризация текста) -
- Автоматическая идентификация языка –
Обработка сложных терминов - категория методов, которые идентифицируют сложные термины и сопоставляют их с их определениями. Сложные термины создаются путем объединения двух (или более) простых терминов, например, «тройной» - это однословный термин, а «тройной обход сердца» - составной термин.
Автоматическая индукция таксономии –
Обработка корпуса -
- Автоматическое усвоение лексики –
- Нормализация текста –
- Упрощение текста –
Глубокая лингвистическая обработка –
Анализ речи - включает в себя ряд сопутствующих задач. Одна задача - выявить дискурс структура связного текста, то есть характер дискурсивных отношений между предложениями (например, проработка, объяснение, контраст). Другая возможная задача - распознать и классифицировать речевые акты в фрагменте текста (например, вопросы типа "да-нет", вопросы по содержанию, утверждения, утверждения, приказы, предложения и т. д.).
Извлечение информации –
- Текстовый анализ - процесс извлечения качественной информации из текста. Качественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое изучение шаблонов.
  - Биомедицинский анализ текста - (также известный как BioNLP), это интеллектуальный анализ текста, применяемый к текстам и литературе в области биомедицины и молекулярной биологии. Это относительно недавняя область исследований, в которой используются элементы обработки естественного языка, биоинформатики, медицинской информатики и компьютерной лингвистики. Возрастает интерес к стратегиям интеллектуального анализа текста и извлечения информации, применяемым к литературе по биомедицине и молекулярной биологии, в связи с увеличением числа электронных публикаций, хранящихся в базах данных, таких как PubMed.
  - Изучение дерева решений –
  - Извлечение приговора –
- Извлечение терминологии –
Скрытое семантическое индексирование –
Лемматизация - группирует вместе все похожие термины, имеющие одну и ту же лемму, так что они классифицируются как один элемент.
Морфологическая сегментация - разделяет слова на отдельные морфемы и определяет класс морфем. Сложность этой задачи во многом зависит от сложности морфология (т.е. структура слов) рассматриваемого языка. английский имеет довольно простую морфологию, особенно флективная морфология, и поэтому часто можно полностью игнорировать эту задачу и просто моделировать все возможные формы слова (например, «открыть, открыть, открыть, открыть») как отдельные слова. На таких языках, как турецкий Однако такой подход невозможен, поскольку каждая словарная статья имеет тысячи возможных словоформ.
Признание именной организации (NER) - данный поток текста определяет, какие элементы в тексте сопоставляются с именами собственными, такими как люди или места, и каков тип каждого такого имени (например, человек, местоположение, организация). Несмотря на то что заглавные буквы может помочь в распознавании именованных сущностей на таких языках, как английский, эта информация не может помочь в определении типа именованных сущностей и в любом случае часто является неточной или недостаточной. Например, первое слово предложения также пишется с заглавной буквы, а именованные объекты часто охватывают несколько слов, только некоторые из которых пишутся с заглавной буквы. Кроме того, многие другие языки в незападных шрифтах (например, Китайский или же арабский ) вообще не имеют заглавных букв, и даже языки с заглавными буквами могут не всегда использовать их для различения имен. Например, Немецкий капитализирует все существительные, независимо от того, относятся ли они к именам, и Французский и испанский не пишите заглавными буквами имена, которые служат прилагательные.
Обучение онтологии - автоматическое или полуавтоматическое создание онтологии, включая извлечение терминов соответствующей области и отношений между этими концепциями из корпуса текста на естественном языке и их кодирование с помощью язык онтологии для легкого поиска. Также называется «извлечением онтологии», «генерацией онтологии» и «получением онтологии».
Парсинг - определяет дерево синтаксического анализа (грамматический анализ) данного предложения. В грамматика за естественные языки является двусмысленный и типичные предложения имеют несколько возможных анализов. На самом деле, что, возможно, удивительно, для типичного предложения могут быть тысячи потенциальных синтаксических разборов (большинство из которых покажется человеку совершенно бессмысленным).
- Неглубокий разбор –
Пометка части речи - по приговору определяет часть речи за каждое слово. Многие слова, особенно общие, могут служить несколькими части речи. Например, «книга» может быть имя существительное («книга на столе») или глагол («забронировать рейс»); "набор" может быть имя существительное, глагол или же прилагательное; и «out» может быть любой из пяти разных частей речи. В некоторых языках такой двусмысленности больше, чем в других. Языки с небольшим флективная морфология, Такие как английский особенно подвержены такой двусмысленности. Китайский склонен к такой двусмысленности, потому что это тональный язык во время вербализации. Такое перегибание нелегко передать через объекты, используемые в орфографии для передачи предполагаемого значения.
Расширение запроса –
Извлечение отношений - для данного фрагмента текста идентифицирует отношения между названными объектами (например, кто чья жена).
Семантический анализ (вычислительный) - формальный анализ смысла, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию.
- Явный семантический анализ –
- Скрытый семантический анализ –
- Семантическая аналитика –
Нарушение приговора (также известен как неоднозначность границы предложения и обнаружение предложения) - по фрагменту текста находит границы предложения. Границы предложений часто обозначаются периоды или другой знаки препинания, но эти же символы могут служить другим целям (например, отмечать сокращения ).
Сегментация речи - учитывая звуковой отрывок говорящего человека или людей, разделяет его на слова. Подзадача распознавание речи и обычно сгруппированы с ним.
Стемминг - сокращает словоизменяемое или производное слово до его основа слова, база или корень форма.
Фрагменты текста –
Токенизация - с учетом фрагмента текста, разделяет его на отдельные слова, символы, предложения или другие единицы
Тематическая сегментация и распознавание - данный фрагмент текста разделяет его на сегменты, каждый из которых посвящен определенной теме, и определяет тему сегмента.
Truecasing –
Сегментация слов - разделяет кусок непрерывного текста на отдельные слова. Для такого языка, как английский, это довольно тривиально, поскольку слова обычно разделяются пробелами. Однако некоторые письменные языки, такие как Китайский, Японский и Тайский не отмечайте границы слов таким образом, и на этих языках сегментация текста является важной задачей, требующей знания словарный запас и морфология слов в языке.
Устранение неоднозначности смысла слова (WSD) - потому что многие слова имеют более одного смысл, устранение неоднозначности смысла слова используется для выбора значения, которое имеет наибольший смысл в контексте. Для этой задачи нам обычно дается список слов и связанных смыслов слов, например из словаря или онлайн-ресурса, например WordNet.
- Словесная индукция - открытая проблема обработки естественного языка, которая касается автоматической идентификации смыслов слова (т.е. значений). Учитывая, что результатом индукции смысла слова является набор смыслов для целевого слова (реестр смыслов), эта задача строго связана с задачей устранения неоднозначности смысла слова (WSD), которая опирается на заранее определенный перечень смыслов и направлена на решение неоднозначность слов в контексте.
- Автоматическое получение корпусов с метками смысла –
W-черепица - набор уникальных «черепиц» - смежных подпоследовательностей токенов в документе - которые можно использовать для оценки сходства двух документов. W обозначает количество жетонов в каждой черепице в наборе.

Компонентные процессы генерации естественного языка

Генерация естественного языка - задача преобразования информации из компьютерных баз данных в понятный человеческий язык.

Автоматическая индукция таксономии (АТИ) - автоматизированное строительство древовидные структуры из корпуса. В то время как ATI используется для построения ядра онтологий (и это делает его компонентным процессом понимания естественного языка), когда конструируемые онтологии читаются конечным пользователем (например, схема предмета), и они используются для построения дальнейшая документация (например, использование схемы в качестве основы для построения отчета или трактата) также становится составным процессом создания естественного языка.
Структурирование документа –

История обработки естественного языка

История машинного перевода
История автоматической оценки эссе
История пользовательского интерфейса на естественном языке
История понимания естественного языка
История оптического распознавания символов
История ответов на вопросы
История синтеза речи
Тест Тьюринга - проверка способности машины демонстрировать разумное поведение, эквивалентное поведению реального человека или неотличимое от него. В исходном иллюстративном примере судья-человек участвует в разговоре на естественном языке с человеком и машиной, предназначенной для создания производительности, неотличимой от человеческой. Все участники отделены друг от друга. Если судья не может достоверно отличить машину от человека, считается, что машина выдержала испытание. Тест был представлен Аланом Тьюрингом в его статье 1950 года «Вычислительные машины и интеллект», которая открывается словами: «Я предлагаю рассмотреть вопрос:« Могут ли машины думать? »»
Универсальная грамматика - теория в лингвистика, обычно зачисляется на Ноам Хомский, предполагая, что способность изучать грамматику встроена в мозг.^[8] Теория предполагает, что языковые способности проявляются без обучения (видеть бедность стимула ), и что есть свойства, которые все естественные человеческие языки Поделиться. Это вопрос наблюдения и экспериментов, чтобы точно определить, какие способности являются врожденными, а какие свойства присущи всем языкам.
ALPAC - комитет из семи ученых во главе с Джоном Р. Пирсом, созданный в 1964 году правительством США для оценки прогресса компьютерной лингвистики в целом и машинного перевода в частности. Его отчет, опубликованный в 1966 году, получил известность за то, что он очень скептически относился к исследованиям, проводимым в области машинного перевода, и подчеркивал необходимость фундаментальных исследований в области компьютерной лингвистики; это в конечном итоге заставило правительство США резко сократить финансирование этой темы.
Теория концептуальной зависимости - модель понимания естественного языка, используемая в системах искусственного интеллекта. Роджер Шэнк в Стэнфордском университете представили модель в 1969 году, на заре искусственного интеллекта.^[9] Эта модель широко использовалась студентами Шанка в Йельском университете, такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер.
Расширенная сеть переходов - тип теоретико-графовой структуры, используемой в рабочем определении формальных языков, особенно используемый при анализе относительно сложных естественных языков и имеющий широкое применение в искусственном интеллекте. Представлен Уильямом А. Вудсом в 1970 году.
Распределенный языковой перевод (проект) -

Хронология программного обеспечения НЛП

Программного обеспечения	Год	Создатель	Описание
Джорджтаунский эксперимент	1954	Джорджтаунский университет и IBM	задействован полностью автоматический перевод более шестидесяти русских предложений на английский язык.
УЧЕНИК	1964	Дэниел Боброу	может решать школьные задачи по алгебре.^[10]
ELIZA	1964	Йозеф Вайценбаум	симуляция Rogerian psychotherapist, rephrasing her (referred to as her not it) response with a few grammar rules.^[11]
ШРДЛУ	1970	Терри Виноград	a natural language system working in restricted "blocks worlds " with restricted vocabularies, worked extremely well
PARRY	1972	Kenneth Colby	А болтун
KL-ONE	1974	Sondheimer et al.	a knowledge representation system in the tradition of semantic networks and frames; это frame language.
MARGIE	1975	Роджер Шэнк
TaleSpin (software)	1976	Михан
QUALM		Ленерт
LIFER/LADDER	1978	Хендрикс	a natural language interface to a database of information about US Navy ships.
SAM (software)	1978	Cullingford
PAM (software)	1978	Robert Wilensky
Politics (software)	1979	Карбонелл
Plot Units (software)	1981	Ленерт
Jabberwacky	1982	Ролло Карпентер	болтун with stated aim to "simulate natural human chat in an interesting, entertaining and humorous manner".
MUMBLE (software)	1982	Макдональдс
Racter	1983	William Chamberlain and Thomas Etter	болтун that generated English language prose at random.
MOPTRANS	1984	Lytinen
KODIAK (software)	1986	Wilensky
Absity (software)	1987	Hirst
Аэротекст	1999	Локхид Мартин	Originally developed for the U.S. intelligence community (Department of Defense) for information extraction & relational link analysis
Watson	2006	IBM	A question answering system that won the Опасность! contest, defeating the best human players in February 2011.
MeTA	2014	Sean Massung, Chase Geigle, Cheng{X}iang Zhai	MeTA is a modern C++ data sciences toolkit featuringL text tokenization, including deep semantic features like parse trees; inverted and forward indexes with compression and various caching strategies; a collection of ranking functions for searching the indexes; topic models; classification algorithms; graph algorithms; language models; CRF implementation (POS-tagging, shallow parsing); wrappers for liblinear and libsvm (including libsvm dataset parsers); UTF8 support for analysis on various languages; multithreaded algorithms
Тай	2016	Microsoft	An artificial intelligence chatterbot that caused controversy on Twitter by releasing inflammatory tweets and was taken offline shortly after.

General natural language processing concepts

Sukhotin's algorithm – statistical classification algorithm for classifying characters in a text as vowels or consonants. It was initially created by Boris V. Sukhotin.
T9 (predictive text) – stands for "Text on 9 keys", is a USA-patented predictive text technology for mobile phones (specifically those that contain a 3x4 numeric keypad), originally developed by Tegic Communications, now part of Nuance Communications.
Татоеба – free collaborative online database of example sentences geared towards foreign language learners.
Teragram Corporation – fully owned subsidiary of SAS Institute, a major producer of statistical analysis software, headquartered in Cary, North Carolina, USA. Teragram is based in Cambridge, Massachusetts and specializes in the application of computational linguistics to multilingual natural language processing.
TipTop Technologies – company that developed TipTop Search, a real-time web, social search engine with a unique platform for semantic analysis of natural language. TipTop Search provides results capturing individual and group sentiment, opinions, and experiences from content of various sorts including real-time messages from Twitter or consumer product reviews on Amazon.com.
Transderivational search – when a search is being conducted for a fuzzy match across a broad field. In computing the equivalent function can be performed using content-addressable memory.
Vocabulary mismatch – common phenomenon in the usage of natural languages, occurring when different people name the same thing or concept differently.
LRE Map –
Реификация (лингвистика) –
Семантическая сеть –
- Метаданные –
Разговорная диалоговая система –
Affix grammar over a finite lattice –
Агрегация (лингвистика) –
Bag-of-words model – model that represents a text as a bag (multiset) of its words that disregards grammar and word sequence, but maintains multiplicity. This model is a commonly used to train document classifiers
Brill tagger –
Cache language model –
ChaSen, MeCab – provide morphological analysis and word splitting for Японский
Классический одноязычный WSD –
ClearForest –
CMU Pronouncing Dictionary - также известный как cmudict, is a public domain pronouncing dictionary designed for uses in speech technology, and was created by Университет Карнеги Меллон (CMU). It defines a mapping from English words to their North American pronunciations, and is commonly used in speech processing applications such as the Festival Speech Synthesis System и КМУ Сфинкс speech recognition system.
Концепция майнинга –
Определение содержания –
DATR –
Обзор DBpedia –
Deep linguistic processing –
Дискурсивное отношение –
Матрица документов-терминов –
Dragomir R. Radev –
ЭТБЛАСТ –
Filtered-popping recursive transition network –
Robby Garner –
GeneRIF –
Gorn address –
Введение в грамматику –
Grammatik –
Hashing-Trick –
Скрытая марковская модель –
Технология человеческого языка –
Извлечение информации –
International Conference on Language Resources and Evaluation –
Kleene star –
Language Computer Corporation –
Языковая модель –
Languageware –
Latent semantic mapping –
Legal information retrieval –
Алгоритм Леска –
Lessac Technologies –
Lexalytics –
Лексический выбор –
Структура лексической разметки –
Лексическая подстановка –
LKB –
Logic form –
LRE Map –
Machine translation software usability –
MAREC –
Максимальная энтропия –
Конференция по пониманию сообщений –
METEOR –
Семантика минимальной рекурсии –
Morphological pattern –
Multi-document summarization –
Multilingual notation –
Наивная семантика –
Естественный язык –
Интерфейс на естественном языке –
Пользовательский интерфейс на естественном языке –
Аналитика новостей –
Nondeterministic polynomial –
Open domain question answering –
Теория оптимальности –
Paco Nathan –
Грамматика структуры фраз –
Powerset (компания) –
Производство (информатика) –
PropBank –
Question answering –
Realization (linguistics) –
Рекурсивная переходная сеть –
Ссылающаяся генерация выражения –
Rewrite rule –
Semantic compression –
Семантическая нейронная сеть –
SemEval –
SPL notation –
Стемминг – reduces an inflected or derived word into its основа слова, base, or корень форма.
Строковое ядро –

Natural language processing tools

Наблюдатель Google Ngram – graphs п-gram usage from a corpus of more than 5.2 million books

Корпуса

Текстовый корпус (видеть список ) – large and structured set of texts (nowadays usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory.

Natural language processing toolkits

Следующее обработка естественного языка наборы инструментов are notable collections of обработка естественного языка программного обеспечения. They are suites of библиотеки, рамки, и Приложения for symbolic, statistical natural language and speech processing.

Имя	Язык	Лицензия	Создатели
Apertium	C ++, Ява	GPL	(разные)
ChatScript	C ++	GPL	Брюс Уилкокс
Deeplearning4j	Ява, Scala	Apache 2.0	Adam Gibson, Skymind
DELPH-IN	LISP, C ++	LGPL, Массачусетский технологический институт, ...	Deep Linguistic Processing with HPSG Инициатива
Distinguo	C ++	Коммерческий	Ultralingua Inc.
DKPro Основной	Ява	Apache 2.0 / Varying for individual modules	Technische Universität Darmstadt / Online community
General Architecture for Text Engineering (GATE)	Ява	LGPL	GATE open source community
Gensim	Python	LGPL	Radim Řehůřek
LinguaStream	Ява	Free for research	Канский университет, Франция
Молоток	Ява	Общая общественная лицензия	Массачусетский университет в Амхерсте
Модульная структура распознавания звука	Ява	BSD	The MARF Research and Development Group, Университет Конкордия
MontyLingua	Python, Ява	Free for research	Массачусетский технологический институт
Natural Language Toolkit (NLTK)	Python	Apache 2.0
Apache OpenNLP	Ява	Лицензия Apache 2.0	Интернет-сообщество
spaCy	Python, Cython	Массачусетский технологический институт	Matthew Honnibal, Explosion AI
UIMA	Ява / C ++	Apache 2.0	Apache

Named entity recognizers

ABNER (A Biomedical Named Entity Recognizer) – open source text mining program that uses linear-chain conditional random field sequence models. It automatically tags genes, proteins and other entity names in text. Written by Burr Settles of the University of Wisconsin-Madison.
Stanford NER (Named Entity Recognizer) — Java implementation of a Named Entity Recognizer that uses linear-chain conditional random field sequence models. It automatically tags persons, organizations, and locations in text in English, German, Chinese, and Spanish languages. Written by Jenny Finkel and other members of the Stanford NLP Group at Stanford University.

Программное обеспечение для перевода

Сравнение приложений машинного перевода
Machine translation applications
- переводчик Google
- DeepL
- Linguee – web service that provides an online dictionary for a number of language pairs. Unlike similar services, such as LEO, Linguee incorporates a search engine that provides access to large amounts of bilingual, translated sentence pairs, which come from the World Wide Web. As a translation aid, Linguee therefore differs from machine translation services like Babelfish and is more similar in function to a translation memory.
- Система машинного перевода с хинди на панджаби
- UNL Универсальный сетевой язык
- Yahoo! Вавилонская рыба
- Reverso

Другое ПО

ЗАДАЧИ – open-source natural language processing system for information extraction from electronic medical record clinical free-text. Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, болезни / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущий, не связанный с пациентом) и отрицание / неотрицание. Also known as Apache cTAKES.
DMAP –
ЭТАП-3 – proprietary linguistic processing system focusing on English and Russian.^[12] Это система, основанная на правилах который использует Теория смыслового текста в качестве его теоретической основы.
JAPE – the Java Annotation Patterns Engine, a component of the open-source General Architecture for Text Engineering (GATE) platform. JAPE is a finite state transducer that operates over annotations based on regular expressions.
LOLITA – "Large-scale, Object-based, Linguistic Interactor, Translator and Analyzer". LOLITA was developed by Roberto Garigliano and colleagues between 1986 and 2000. It was designed as a general-purpose tool for processing unrestricted text that could be the basis of a wide variety of applications. At its core was a semantic network containing some 90,000 interlinked concepts.
Малууба – intelligent personal assistant for Android devices, that uses a contextual approach to search which takes into account the user's geographic location, contacts, and language.
METAL MT – machine translation system developed in the 1980s at the University of Texas and at Siemens which ran on Lisp Machines.
Бесконечное изучение языка – semantic machine learning system developed by a research team at Carnegie Mellon University, and supported by grants from DARPA, Google, and the NSF, with portions of the system running on a supercomputing cluster provided by Yahoo!.^[13] NELL was programmed by its developers to be able to identify a basic set of fundamental semantic relationships between a few hundred predefined categories of data, such as cities, companies, emotions and sports teams. Since the beginning of 2010, the Carnegie Mellon research team has been running NELL around the clock, sifting through hundreds of millions of web pages looking for connections between the information it already knows and what it finds through its search process – to make new connections in a manner that is intended to mimic the way humans learn new information.^[14]
НЛТК –
Online-translator.com –
Regulus Grammar Compiler – software system for compiling unification grammars into grammars for speech recognition systems.
S Голос –
Siri (программное обеспечение) –
Speaktoit –
TeLQAS –
Weka's classification tools –
word2vec – models that were developed by a team of researchers led by Thomas Milkov at Google to generate word embeddings that can reconstruct some of the linguistic context of words using shallow, two dimensional neural nets derived from a much larger vector space.
Festival Speech Synthesis System –
КМУ Сфинкс speech recognition system –
Языковая сетка - Open source platform for language web services, which can customize language services by combining existing language services.

Chatterbots

Чаттербот – a text-based conversation агент that can interact with human users through some medium, such as an мгновенное сообщение служба. Some chatterbots are designed for specific purposes, while others converse with human users on a wide range of topics.

Classic chatterbots

General chatterbots

Альберт Один - 1998 and 1999 Loebner winner, by Robby Garner.
A.L.I.C.E. - 2001, 2002, and 2004 Премия Лебнера winner developed by Ричард Уоллес.
Charlix
Cleverbot (winner of the 2010 Mechanical Intelligence Competition)
Elbot - 2008 Премия Лебнера winner, by Фред Робертс.
Юджин Густман - 2012 Turing 100 winner, by Vladimir Veselov.
Фред - an early chatterbot by Robby Garner.
Jabberwacky
Jeeney AI
MegaHAL
Mitsuku, 2013 and 2016 Премия Лебнера победитель^[15]
Rose - ... 2015 - 3x Премия Лебнера winner, by Брюс Уилкокс.
SimSimi - A popular artificial intelligence conversation program that was created in 2002 by ISMaker.
Spookitalk - A chatterbot used for NPC в Дуглас Адамс ' Звездолет Титаник видео игра.
Ultra Hal - 2007 Премия Лебнера winner, by Robert Medeksza.
Verbot

Instant messenger chatterbots

GooglyMinotaur, специализирующаяся на Radiohead, the first bot released by ActiveBuddy (June 2001-March 2002)^[16]
SmarterChild, разработан ActiveBuddy and released in June 2001^[17]
Infobot, an assistant on IRC каналы, такие как #perl, primarily to help out with answering Часто задаваемые вопросы (June 1995-today)^[18]
Негобот, a bot designed to catch online pedophiles by posing as a young girl and attempting to elicit personal details from people it speaks to.^[19]

Natural language processing organizations

AFNLP (Asian Federation of Natural Language Processing Associations) – the organization for coordinating the natural language processing related activities and events in the Asia-Pacific region.
Australasian Language Technology Association –
Ассоциация компьютерной лингвистики – international scientific and professional society for people working on problems involving natural language processing.

Natural language processing-related conferences

Annual Meeting of the Association for Computational Linguistics (ACL)
International Conference on Intelligent Text Processing and Computational Linguistics (CICLing)
International Conference on Language Resources and Evaluation – biennial conference organised by the European Language Resources Association with the support of institutions and organisations involved in Natural language processing
Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)
Text, Speech and Dialogue (TSD) – annual conference
Конференция по поиску текста (TREC) – on-going series of workshops focusing on various information retrieval (IR) research areas, or tracks

Companies involved in natural language processing

АлхимияAPI – service provider of a natural language processing API.
Google, Inc. – the Google search engine is an example of automatic summarization, utilizing keyphrase extraction.
Calais (Reuters product) – provider of a natural language processing services.
Wolfram Research, Inc. developer of natural language processing computation engine вольфрам Альфа.

Natural language processing publications

Книги

Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing – Wermter, S., Riloff E. and Scheler, G. (editors).^[20] First book that addressed statistical and neural network learning of language.
Обработка речи и языка: введение в обработку естественного языка, распознавание речи и компьютерную лингвистику - к Даниэль Джурафски и Джеймс Х. Мартин.^[21] Introductory book on language technology.

Цикл книг

Studies in Natural Language Processing – book series of the Association for Computational Linguistics, published by Cambridge University Press.

Журналы

Компьютерная лингвистика – peer-reviewed academic journal in the field of computational linguistics. It is published quarterly by MIT Press for the Association for Computational Linguistics (ACL)

People influential in natural language processing

Daniel Bobrow –
Ролло Карпентер – creator of Jabberwacky and Cleverbot.
Ноам Хомский – author of the seminal work Синтаксические структуры, which revolutionized Linguistics with 'универсальная грамматика ', a rule based system of syntactic structures.^[22]
Kenneth Colby –
Дэвид Ферруччи – principal investigator of the team that created Watson, IBM's AI computer that won the quiz show Опасность!
Lyn Frazier –
Даниэль Джурафски – Professor of Linguistics and Computer Science at Stanford University. С Джеймс Х. Мартин, he wrote the textbook Обработка речи и языка: введение в обработку естественного языка, распознавание речи и компьютерную лингвистику
Роджер Шэнк – introduced the conceptual dependency theory for natural language understanding.^[23]
Jean E. Fox Tree –
Алан Тьюринг – originator of the Тест Тьюринга.
Йозеф Вайценбаум - автор ELIZA болтун.
Терри Виноград – professor of computer science at Stanford University, and co-director of the Stanford Human-Computer Interaction Group. He is known within the philosophy of mind and artificial intelligence fields for his work on natural language using the SHRDLU program.
William Aaron Woods –
Maurice Gross – author of the concept of local grammar,^[24] taking finite automata as the competence model of language.^[25]
Stephen Wolfram – CEO and founder of Wolfram Research, creator of the programming language (natural language understanding) Язык Wolfram Language, and natural language processing computation engine вольфрам Альфа.^[26]
Виктор Ингве –

Смотрите также

Библиография

Кревье, Даниэль (1993), AI: бурные поиски искусственного интеллекта, Нью-Йорк, Нью-Йорк: BasicBooks, ISBN 0-465-02997-3
McCorduck, Pamela (2004), Машины, которые думают (2-е изд.), Натик, Массачусетс: A. K. Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
Рассел, Стюарт Дж.; Норвиг, Питер (2003), Искусственный интеллект: современный подход (2-е изд.), Верхняя Сэдл-Ривер, Нью-Джерси: Prentice Hall, ISBN 0-13-790395-2.

внешняя ссылка

[1] "... modern science is a discovery as well as an invention. It was a discovery that nature generally acts regularly enough to be described by laws and even by mathematics; and required invention to devise the techniques, abstractions, apparatus, and organization for exhibiting the regularities and securing their law-like descriptions." —p.vii, Дж. Л. Хейльброн, (2003, editor-in-chief) Оксфордский компаньон по истории современной науки Нью-Йорк: Издательство Оксфордского университета ISBN 0-19-511229-6
"наука". Онлайн-словарь Merriam-Webster. Мерриам-Вебстер, Inc. Получено 2011-10-16. 3 а: знания или система знаний, охватывающих общие истины или действие общих законов, особенно полученные и проверенные научным методом б: такое знание или такая система знаний, связанных с физическим миром и его явлениями

[2] "наука". Онлайн-словарь Merriam-Webster. Мерриам-Вебстер, Inc. Получено 2011-10-16. 3 а: знания или система знаний, охватывающих общие истины или действие общих законов, особенно полученные и проверенные научным методом б: такое знание или такая система знаний, связанных с физическим миром и его явлениями

[BoDu04-2] SWEBOK Пьер Бурк; Robert Dupuis, eds. (2004). Guide to the Software Engineering Body of Knowledge - 2004 Version. executive editors, Alain Abran, James W. Moore ; editors, Pierre Bourque, Robert Dupuis. IEEE Computer Society. п. 1. ISBN 0-7695-2330-7.

[3] ACM (2006). "Компьютерные дипломы и карьера". ACM. Получено 2010-11-23.

[4] Лапланте, Филипп (2007). Что каждый инженер должен знать о разработке программного обеспечения. Boca Raton: CRC. ISBN 978-0-8493-7228-5. Получено 2011-01-21.

[5] Устройство ввода Компьютерная надежда

[6] McQuail, Denis. (2005). Mcquail's Mass Communication Theory. 5-е изд. Лондон: SAGE Publications.

[7] Yucong Duan, Christophe Cruz (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Formalizing Semantic of Natural Language through Conceptualization from Existence]. International Journal of Innovation, Management and Technology(2011) 2 (1), pp. 37-42.

[8] «Инструментальный модуль: универсальная грамматика Хомского». thebrain.mcgill.ca.

[9] Роджер Шэнк, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden pages 1-3

[10] McCorduck 2004, п. 286, г. Crevier 1993, pp. 76−79, Рассел и Норвиг, 2003 г., п. 19

[11] McCorduck 2004, pp. 291–296, Crevier 1993, pp. 134−139

[12] "МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3". Iitp.ru. Получено 2012-02-14.

[NYT2010-13] "Aiming to Learn as We Do, a Machine Teaches Itself". Нью-Йорк Таймс. 4 октября 2010 г.. Получено 2010-10-05. Since the start of the year, a team of researchers at Carnegie Mellon University — supported by grants from the Defense Advanced Research Projects Agency and Google, and tapping into a research supercomputing cluster provided by Yahoo — has been fine-tuning a computer system that is trying to master semantics by learning more like a human.

[14] Обзор проекта, Университет Карнеги Меллон. Accessed October 5, 2010.

[15] "Loebner Prize Contest 2013". People.exeter.ac.uk. 2013-09-14. Получено 2013-12-02.

[16] Gibes, Al (2002-03-25). "Circle of buddies grows ever wider". Las Vegas Review-Journal (Nevada).

[17] "ActiveBuddy Introduces Software to Create and Deploy Interactive Agents for Text Messaging; ActiveBuddy Developer Site Now Open: www.BuddyScript.com". Деловой провод. 2002-07-15. Получено 2014-01-16.

[18] Lenzo, Kevin (Summer 1998). "Infobots and Purl". Журнал Perl. 3 (2). Получено 2010-07-26.

[19] Лаорден, Карлос; Galan-Garcia, Patxi; Сантос, Игорь; Санс, Борха; Идальго, Хосе Мария Гомес; Брингас, Пабло Г. (23 августа 2012 г.). Негобот: разговорный агент, основанный на теории игр для обнаружения педофильского поведения. (PDF). ISBN 978-3-642-33018-6. Архивировано из оригинал (PDF) 17 сентября 2013 г.

[20] Wermter, Stephan; Ellen Riloff; Gabriele Scheler (1996). Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing. Springer.

[21] Jurafsky, Dan; James H. Martin (2008). Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2-е изд.). Upper Saddle River (N.J.): Prentice Hall. п. 2.

[22] "SEM1A5 - Part 1 - A brief history of NLP". Получено 2010-06-25.

[23] Роджер Шэнк, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, pages 1-3

[AHI-24] Ibrahim, Amr Helmy. 2002. "Maurice Gross (1934-2001). À la mémoire de Maurice Gross". Hermès 34.

[RD-25] Dougherty, Ray. 2001 г. Maurice Gross Memorial Letter.

[26] "Programming with Natural Language Is Actually Going to Work—Wolfram Blog".

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]