Несоответствие словарного запаса - Википедия - Vocabulary mismatch

Несоответствие словарного запаса - обычное явление в использовании естественных языков, возникающее, когда разные люди по-разному называют одно и то же или одно и то же понятие.

Furnas et al. (1987) были, пожалуй, первыми, кто количественно изучил проблему несоответствия словарного запаса.[1] Их результаты показывают, что в среднем в 80% случаев разные люди (эксперты в одной области) будут называть одно и то же по-разному. Обычно есть десятки возможных имен, которые можно отнести к одному и тому же. Это исследование мотивировало работу над скрытое семантическое индексирование.

Несоответствие словаря между запросами, созданными пользователем, и соответствующими документами в корпусе вызывает проблему несоответствия терминов в поиск информации. Чжао и Каллан (2010)[2] были, возможно, первыми, кто количественно изучил проблему несоответствия словарного запаса в поисковой системе. Их результаты показывают, что средний термин запроса не появляется в 30-40% документов, относящихся к запросу пользователя. Они также показали, что эта вероятность несоответствия является центральной вероятностью в одной из фундаментальных вероятностных моделей поиска, Модель двоичной независимости. Они разработали новые методы прогнозирования веса терминов, которые могут потенциально повысить точность поиска на 50-80% по сравнению с сильными моделями поиска по ключевым словам. Дальнейшие исследования показывают, что опытные пользователи могут использовать расширение логической конъюнктивной нормальной формы для повышения эффективности поиска на 50–300% по нерасширенным запросам с ключевыми словами.[3]

Методы устранения несоответствия

Рекомендации

  1. ^ Фурнас, Г. и др., Проблема словарного запаса при общении между человеком и системой, Коммуникации ACM, 1987, 30 (11), стр. 964-971.
  2. ^ Чжао, Л. и Каллан, Дж., Прогнозирование срочной необходимости, Труды 19-й конференции ACM по управлению информацией и знаниями (CIKM 2010). Торонто, Канада, 2010 г.
  3. ^ а б Чжао Л. и Каллан Дж. Автоматическая диагностика несоответствия терминов для выборочного расширения запросов, SIGIR 2012.