Извлечение терминологии - Terminology extraction

Извлечение терминологии (также известный как срок добыча глоссарий добыча, срок признание, или терминология добыча полезных ископаемых) является подзадачей извлечение информации. Цель извлечения терминологии - автоматическое извлечение релевантных терминов из заданного корпус.^[1]

в семантическая сеть эры, все большее число сообществ и сетевых предприятий начали получать доступ и взаимодействовать через Интернет. Моделирование этих сообществ и их информационных потребностей важно для нескольких веб-приложения, как тематические поисковые роботы,^[2] веб-сервисы,^[3] рекомендательные системы,^[4] и т. д. Развитие извлечения терминологии также важно для языковая индустрия.

Один из первых шагов к моделированию область знаний состоит в том, чтобы собрать словарь относящихся к предметной области терминов, составляющих лингвистическое поверхностное проявление предметной области концепции. В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов для конкретной предметной области.^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12]^[13]^[14]^[15]^[16]^[17]

Обычно подходы к автоматическому извлечению терминов используют лингвистические процессоры (часть тегов речи, фрагменты фраз ) для извлечения терминологических кандидатов, т.е. синтаксически правдоподобных терминологических существительные фразы. К именным фразам относятся составные (например, «кредитная карта»), прилагательные к существительным (например, «местный туристический информационный офис») и предложные существительные (например, «совет директоров»). В английском языке чаще всего встречаются первые два (составные и прилагательные существительные).^[18] Затем терминологические статьи фильтруются из списка кандидатов с использованием статистических и машинное обучение методы. После фильтрации, из-за их низкой двусмысленности и высокой специфичности, эти термины особенно полезны для концептуализации области знаний или для поддержки создания онтология предметной области или терминологическая база. Кроме того, извлечение терминологии - очень полезная отправная точка для семантическое сходство, управление знаниями, человеческий перевод и машинный перевод, так далее.

Извлечение двуязычной терминологии

Методы извлечения терминологии могут быть применены к параллельные корпуса. В сочетании, например, с совпадение статистика, можно получить кандидатов на перевод терминов.^[19] Двуязычная терминология также может быть извлечена из сопоставимых корпусов.^[20] (корпуса, содержащие тексты одного типа текста, домена, но не переводы документов между собой).

Смотрите также

Рекомендации

^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
^ Менцер Ф., Пант Г. и Сринивасан П. Тематические поисковые роботы: проблемы машинного обучения.
^ Фан Дж. И Камбхампати С. Снимок общедоступных веб-служб в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
^ Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам, в ACM Transactions on Information Systems (TOIS), 23 (3), 2005.
^ Буриго Д. и Жакмен К. Term Extraction + Term Clustering: интегрированная платформа для компьютерной терминологии В архиве 2006-06-19 на Wayback Machine, в Proc. EACL, 1999.
^ Collier, N .; Nobata, C .; Цудзи Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология. 7 (2): 239–257. Дои:10.1075 / term.7.2.07col.
^ К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание многословных терминов: метод C-value / NC-value. В: C. Nikolau и C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
^ К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод C-value / NC-value автоматического распознавания многословных терминов, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF). Журнал IBM Systems. 43 (3): 546–563. Дои:10.1147 / sj.433.0546.
^ Навильи Р. и Веларди П. Изучение онтологий домена из хранилищ документов и выделенных веб-сайтов. Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151-179.
^ Оливер, А. и Васкес, М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии. Труды последних достижений в обработке естественного языка (РАНЛП 2015), 2015, стр. 473–479
^ Ю. Парк, Р. Дж. Берд, Б. Богураев. «Автоматическое извлечение глоссария: за пределами определения терминологии», Международная конференция по компьютерной лингвистике, Труды 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002.
^ Склано, Ф. и Веларди, П.. TermExtractor: веб-приложение для изучения общей терминологии возникающих веб-сообществ. Появиться в Proc. 3-й Международной конференции по функциональной совместимости корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
^ П. Веларди, Р. Навильи, П. Д'Амадио. Изучение Интернета для создания специализированных глоссариев, Интеллектуальные системы IEEE, 23 (5), IEEE Press, 2008, стр. 18-25.
^ Вермтер Дж. И Хан У. Поиск новой терминологии в очень больших корпусах, в Proc. of K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада
^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для изучения онтологий предметной области с использованием преобладания и тенденции предметной области. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4
^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для онтологий предметной области в вероятностной структуре. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4
^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
^ Маккен, Лив; Лефевер, Элс; Хост, Вероник (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по фрагментам». Терминология. 19 (1): 1–30. Дои:10.1075 / term.19.1.01mac.
^ Шарофф, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпусов (PDF), Берлин: Springer-Verlag

[1] Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.

[2] Менцер Ф., Пант Г. и Сринивасан П. Тематические поисковые роботы: проблемы машинного обучения.

[3] Фан Дж. И Камбхампати С. Снимок общедоступных веб-служб в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).

[4] Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам, в ACM Transactions on Information Systems (TOIS), 23 (3), 2005.

[5] Буриго Д. и Жакмен К. Term Extraction + Term Clustering: интегрированная платформа для компьютерной терминологии В архиве 2006-06-19 на Wayback Machine, в Proc. EACL, 1999.

[6] Collier, N .; Nobata, C .; Цудзи Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология. 7 (2): 239–257. Дои:10.1075 / term.7.2.07col.

[7] К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание многословных терминов: метод C-value / NC-value. В: C. Nikolau и C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.

[8] К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод C-value / NC-value автоматического распознавания многословных терминов, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2

[9] Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF). Журнал IBM Systems. 43 (3): 546–563. Дои:10.1147 / sj.433.0546.

[10] Навильи Р. и Веларди П. Изучение онтологий домена из хранилищ документов и выделенных веб-сайтов. Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151-179.

[11] Оливер, А. и Васкес, М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии. Труды последних достижений в обработке естественного языка (РАНЛП 2015), 2015, стр. 473–479

[12] Ю. Парк, Р. Дж. Берд, Б. Богураев. «Автоматическое извлечение глоссария: за пределами определения терминологии», Международная конференция по компьютерной лингвистике, Труды 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002.

[13] Склано, Ф. и Веларди, П.. TermExtractor: веб-приложение для изучения общей терминологии возникающих веб-сообществ. Появиться в Proc. 3-й Международной конференции по функциональной совместимости корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.

[14] П. Веларди, Р. Навильи, П. Д'Амадио. Изучение Интернета для создания специализированных глоссариев, Интеллектуальные системы IEEE, 23 (5), IEEE Press, 2008, стр. 18-25.

[15] Вермтер Дж. И Хан У. Поиск новой терминологии в очень больших корпусах, в Proc. of K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада

[16] Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для изучения онтологий предметной области с использованием преобладания и тенденции предметной области. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4

[17] Вонг, В., Лю, В. и Беннамун, М. (2007) Определение срока для онтологий предметной области в вероятностной структуре. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотое побережье. ISBN 978-1-920682-51-4

[18] Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта. Достижения в интеллектуальных системах и вычислениях. 650. С. 222–235. Дои:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.

[19] Маккен, Лив; Лефевер, Элс; Хост, Вероник (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по фрагментам». Терминология. 19 (1): 1–30. Дои:10.1075 / term.19.1.01mac.

[20] Шарофф, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпусов (PDF), Берлин: Springer-Verlag

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Обработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Обучение онтологии Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерная обзор	Автоматическая оценка эссе Конкордансер Проверка грамматики Интеллектуального ввода текста Программа проверки орфографии Подбор синтаксиса
Естественный язык пользовательский интерфейс	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс