Именованная сущность - Named entity
В извлечение информации, а названный объект - это реальный объект, такой как люди, местоположения, организации, продукты и т. д., который может быть обозначен собственным именем. Он может быть абстрактным или иметь физическое существование. Примеры именованных сущностей включают Барак Обама, Нью-Йорк, Фольксваген Гольф, или что-нибудь еще, что можно назвать. Именованные сущности можно просто рассматривать как экземпляры сущностей (например, Нью-Йорк является примером город ).
С исторической точки зрения термин Именованная сущность был придуман во время Оценочная кампания MUC-6[1] и содержал ENAMEX (выражения имени объекта, например, лица, местоположения и организации) и NUMEX (числовое выражение).
Более формальное определение может быть получено из жесткое обозначение к Саул Крипке. В выражении «Именованная сущность» слово «Именованная сущность» направлено на ограничение возможного набора сущностей только теми, для которых один или несколько жестких указателей обозначают референт.[2] Обозначение жесткое, когда оно обозначает одно и то же во всех возможных мирах. Напротив, вялые обозначения может обозначать разные вещи в разных возможных мирах.
В качестве примера рассмотрим предложение «Трамп - президент Соединенных Штатов». И «Трамп», и «Соединенные Штаты» являются именованными объектами, поскольку они относятся к конкретным объектам (Дональд Трамп и Соединенные Штаты ). Однако «президент» не является именованной сущностью, поскольку его можно использовать для обозначения множества различных объектов в разных мирах (в разные президентские периоды, относящиеся к разным людям, или даже в разных странах или организациях, относящихся к разным людям). Жесткие обозначения обычно включают имена собственные, а также определенные природные термины, такие как биологические виды и вещества.
Есть также общее согласие в Признание именованных сущностей сообщество должно рассматривать как именованные объекты временные и числовые выражения, такие как суммы денег и другие типы единиц, которые могут нарушать жесткую перспективу обозначения.
Задача распознавания именованных сущностей в тексте: Признание именованных сущностей в то время как задача определения идентичности названных сущностей, упомянутых в тексте, называется Устранение неоднозначности именованных сущностей. Для решения обеих задач требуются выделенные алгоритмы и ресурсы.[3]
Смотрите также
- Признание именной организации (также называется идентификацией объекта, фрагментированием объекта и извлечением объекта)
- Связывание сущностей (также называется связыванием именованных сущностей (NEL), устранением неоднозначности именованных сущностей (NED), распознаванием и устранением неоднозначности именованных сущностей (NERD) или нормализацией именованных сущностей)
- Извлечение информации
- Извлечение знаний
- Текстовый анализ (также называемый интеллектуальным анализом текстовых данных)
- Truecasing
- Apache OpenNLP
- СПАСИБО
- Общая архитектура для текстовой инженерии
- Инструментарий естественного языка
Рекомендации
- ^ Гришман, Ральф; Сундхейм, Бет (1996). Дизайн оценки MUC-6 (PDF). TIPSTER '96 Извещения.
- ^ Надо, Дэвид; Секин, Сатоши (2007). Обзор признания и классификации названных организаций (PDF). Lingvisticae Investigationes.
- ^ Нувель, Дэмиен; Эрманн, Мод; Россет, Софи (2015). Wiley (ред.). Именованные сущности для компьютерной лингвистики. ISBN 978-1-84821-838-3.