Извлечение терминологии - Terminology extraction

Извлечение терминологии (также известный как срок добыча глоссарий добыча, срок признание, или терминология добыча полезных ископаемых) является подзадачей извлечение информации. Цель извлечения терминологии - автоматическое извлечение релевантных терминов из заданного корпус.[1]

в семантическая сеть эры, все большее число сообществ и сетевых предприятий начали получать доступ и взаимодействовать через Интернет. Моделирование этих сообществ и их информационных потребностей важно для нескольких веб-приложения, как тематические поисковые роботы,[2] веб-сервисы,[3] рекомендательные системы,[4] и т. д. Развитие извлечения терминологии также важно для языковая индустрия.

Один из первых шагов к моделированию область знаний состоит в том, чтобы собрать словарь относящихся к предметной области терминов, составляющих лингвистическое поверхностное проявление предметной области концепции. В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов для конкретной предметной области.[5][6][7][8][9][10][11][12][13][14][15][16][17]

Обычно подходы к автоматическому извлечению терминов используют лингвистические процессоры (часть тегов речи, фрагменты фраз ) для извлечения терминологических кандидатов, т.е. синтаксически правдоподобных терминологических существительные фразы. К именным фразам относятся составные (например, «кредитная карта»), прилагательные к существительным (например, «местный туристический информационный офис») и предложные существительные (например, «совет директоров»). В английском языке чаще всего встречаются первые два (составные и прилагательные существительные).[18] Затем терминологические статьи фильтруются из списка кандидатов с использованием статистических и машинное обучение методы. После фильтрации, из-за их низкой двусмысленности и высокой специфичности, эти термины особенно полезны для концептуализации области знаний или для поддержки создания онтология предметной области или терминологическая база. Кроме того, извлечение терминологии - очень полезная отправная точка для семантическое сходство, управление знаниями, человеческий перевод и машинный перевод, так далее.

Извлечение двуязычной терминологии

Методы извлечения терминологии могут быть применены к параллельные корпуса. В сочетании, например, с совпадение статистика, можно получить кандидатов на перевод терминов.[19] Двуязычная терминология также может быть извлечена из сопоставимых корпусов.[20] (корпуса, содержащие тексты одного типа текста, домена, но не переводы документов между собой).

Смотрите также

Рекомендации

  1. ^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN  978-3-319-66938-0.
  2. ^ Менцер Ф., Пант Г. и Сринивасан П. Тематические поисковые роботы: проблемы машинного обучения.
  3. ^ Фан Дж. И Камбхампати С. Снимок общедоступных веб-служб в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
  4. ^ Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам, в ACM Transactions on Information Systems (TOIS), 23 (3), 2005.
  5. ^ Буриго Д. и Жакмен К. Term Extraction + Term Clustering: интегрированная платформа для компьютерной терминологии В архиве 2006-06-19 на Wayback Machine, в Proc. EACL, 1999.
  6. ^ Collier, N .; Nobata, C .; Цудзи Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология. 7 (2): 239–257. Дои:10.1075 / term.7.2.07col.
  7. ^ К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание многословных терминов: метод C-value / NC-value. В: C. Nikolau и C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
  8. ^ К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод C-value / NC-value автоматического распознавания многословных терминов, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN  3-540-65101-2
  9. ^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF). Журнал IBM Systems. 43 (3): 546–563. Дои:10.1147 / sj.433.0546.
  10. ^ Навильи Р. и Веларди П. Изучение онтологий домена из хранилищ документов и выделенных веб-сайтов. Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151-179.
  11. ^ Оливер, А. и Васкес, М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии. Труды последних достижений в обработке естественного языка (РАНЛП 2015), 2015, стр. 473–479
  12. ^ Ю. Парк, Р. Дж. Берд, Б. Богураев. «Автоматическое извлечение глоссария: за пределами определения терминологии», Международная конференция по компьютерной лингвистике, Труды 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002.
  13. ^ Склано, Ф. и Веларди, П.. TermExtractor: веб-приложение для изучения общей терминологии возникающих веб-сообществ. Появиться в Proc. 3-й Международной конференции по функциональной совместимости корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
  14. ^ П. Веларди, Р. Навильи, П. Д'Амадио. Изучение Интернета для создания специализированных глоссариев, Интеллектуальные системы IEEE, 23 (5), IEEE Press, 2008, стр. 18-25.
  15. ^ Вермтер Дж. И Хан У. Поиск новой терминологии в очень больших корпусах, в Proc. of K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада
  16. ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для изучения онтологий предметной области с использованием преобладания и тенденции предметной области. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN  978-1-920682-51-4
  17. ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для онтологий предметной области в вероятностной структуре. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN  978-1-920682-51-4
  18. ^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN  978-3-319-66938-0.
  19. ^ Маккен, Лив; Лефевер, Элс; Хост, Вероник (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по фрагментам». Терминология. 19 (1): 1–30. Дои:10.1075 / term.19.1.01mac.
  20. ^ Шарофф, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпусов (PDF), Берлин: Springer-Verlag