Идентификация языка - Language identification
В обработка естественного языка, идентификация языка или же угадывание языка проблема определения, какие естественный язык данное содержание находится в. Вычислительные подходы к этой проблеме рассматривают ее как частный случай категоризация текста, решается с помощью различных статистический методы.
Обзор
Существует несколько статистических подходов к идентификации языка, использующих различные методы классификации данных. Один из методов - сравнить сжимаемость текста со сжимаемостью текстов на ряде известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать для эмпирического построения генеалогических деревьев языков, которые близко соответствуют деревьям, построенным с использованием исторических методов.[нужна цитата ] Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается новинкой или лучше, чем более простые методы.
Другой метод, описанный Кавнаром и Тренклем (1994) и Даннингом (1994), заключается в создании языка н-грамм модель из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Cavnar и Trenkle) или закодированных байтах (Dunning); в последнем - языковая идентификация и определение кодировки символов интегрированы. Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным языком является язык с моделью, наиболее похожей на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, когда вводимый текст находится на языке, для которого нет модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, составленные на нескольких языках, как это часто бывает в Интернете.
Более новый метод см. В ehůřek and Kolkus (2009). Этот метод может определять несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: н-грамм подходит к борьбе с.
Старый статистический метод Грефенстетта был основан на преобладании определенных служебные слова (например, «the» на английском языке).
Выявление похожих языков
Одно из самых больших препятствий в системах языковой идентификации - различать близкородственные языки. Подобные языки, такие как сербский и хорватский или же индонезийский и малайский представляют собой значительное лексическое и структурное совпадение, что усложняет различение систем между ними.
В 2014 году общая задача DSL[1] был организован с предоставлением набора данных (Tan et al., 2014), содержащего 13 различных языков (и языковых разновидностей) в шести языковых группах: группа A (боснийский, хорватский, сербский), группа B (индонезийский, малазийский), группа C (чешский , Словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровный испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% (Goutte et al., 2014). Результаты совместной задачи DSL описаны в Zampieri et al. 2014 г.
Программного обеспечения
- Apache OpenNLP включает статистический детектор на основе символов и граммов и поставляется с моделью, которая может различать 103 языка
- Апач Тика содержит детектор языка для 18 языков
Рекомендации
- Бенедетто, Д., Э. Калиоти и В. Лорето. Языковые деревья и архивирование. Письма с физическими проверками, 88:4 (2002), Теория сложности.
- Кавнар, Уильям Б. и Джон М. Тренкл. «Классификация текстов на основе N-граммов». Материалы 3-го ежегодного симпозиума по анализу документов и поиску информации SDAIR-94 (1994) [1].
- Чилибрази, Руди и Пол М. Витаньи. "Кластеризация путем сжатия ". IEEE Transactions по теории информации 51 (4), апрель 2005 г., 1523-1545.
- Даннинг, Т. (1994) "Статистическая идентификация языка". Технический отчет MCCS 94-273, Государственный университет Нью-Мексико, 1994.
- Гудман, Джошуа. (2002) Расширенный комментарий к теме «Языковые деревья и архивирование». Microsoft Research, 21 февраля 2002 г. (Это критика сжатия данных в пользу наивного метода Байеса.)
- Goutte, C .; Leger, S .; Карпуат, М. (2014) Система NRC для дискриминации схожих языков. Материалы семинара Coling 2014 «Применение инструментов НЛП к схожим языкам, разновидностям и диалектам»
- Грефенстетт, Грегори. (1995) Сравнение двух схем языковой идентификации. Материалы 3-й Международной конференции по статистическому анализу текстовых данных (JADT 1995).
- Поутсма, Арьен. (2001) Применение методов Монте-Карло для языковой идентификации. SmartHaven, Амстердам. Представлено на CLIN 2001.
- Tan, L .; Zampieri, M .; Любешич, Н .; Тидеманн, Дж. (2014) Объединение сопоставимых источников данных для дискриминации схожих языков: коллекция DSL Corpus. Труды 7-го семинара по созданию и использованию сопоставимых корпусов (BUCC). Рейкьявик, Исландия. п. 6-10
- Экономист. (2002) "Элементы стиля: анализ сжатых данных приводит к впечатляющим результатам в лингвистике. "
- Радим Жегуржек и Милан Колкус. (2009) "Идентификация языка в сети: расширение словарного метода " Компьютерная лингвистика и интеллектуальная обработка текста.
- Zampieri, M .; Tan, L .; Любешич, Н .; Тидеманн, Дж. (2014) Отчет о совместной задаче DSL 2014. Труды 1-го семинара по применению инструментов НЛП к подобным языкам, разновидностям и диалектам (VarDial). Дублин, Ирландия. п. 58-67.
Смотрите также
- Идентификация на родном языке
- Алгоритмическая теория информации
- Искусственное изучение грамматики
- Аффиксы фамилий
- Колмогоровская сложность
- Языковой анализ для определения происхождения
- Машинный перевод
- Перевод