Статистически неправдоподобная фраза - Statistically improbable phrase

А статистически неправдоподобная фраза (ГЛОТОК) - это фраза или набор слов, которые чаще встречаются в документе (или коллекции документов), чем в более крупных корпус.[1][2][3] Amazon.com использует эту концепцию при определении ключевых слов для данной книги или главы, поскольку ключевые слова книги или главы, скорее всего, будут непропорционально появляться в этом разделе.[4][5] Кристиан Руддер также использовал эту концепцию с данными из профили онлайн-знакомств и Twitter посты для определения фраз, наиболее характерных для данной расы или пола в его книге Датаклизм.[6]

Пример

В документе о компьютерах наиболее распространенным словом, вероятно, будет слово «the», но поскольку «the» является наиболее часто используемым словом в английском языке, вполне вероятно, что в любом данном документе будет слово «the» используется очень часто. Однако фраза типа «явный логический алгоритм» может встречаться в документе с гораздо большей частотой, чем ее средняя частота на английском языке. Следовательно, эта фраза вряд ли встретится в каком-либо документе, но сделал встречаются в данном документе. «Явный логический алгоритм» был бы статистически невероятной фразой.

Статистически невероятные фразы Дарвина О происхождении видов может быть: умеренные производства, потомки родов, переходные градации, неизвестный прародитель, ископаемые образования, наши домашние породы, модифицированное потомство, сомнительные формы, близкородственные формы, прибыльные разновидности, чрезвычайно отдаленные, переходные степени, очень разные виды и беспородное потомство.[7]

Смотрите также

  • Словосочетание - Любые серии слов, которые встречаются чаще, чем можно было бы ожидать.
  • Googlewhack - Пара слов, встречающихся на одной веб-странице, по индексации Google.
  • tf-idf - Статистика, используемая при поиске информации и интеллектуальном анализе текста.

Рекомендации

  1. ^ "SIPping Википедия" (PDF). Courses.cms.caltech.edu. Получено 2017-01-01.
  2. ^ Джонатан Бейли (3 июля 2012 г.). "Как долго должна быть статистически неправдоподобная фраза?". Плагиат сегодня.
  3. ^ Эррами, Мунир; Сунь, Чжаохуэй; Джордж, Анджела С .; Лонг, Тара С .; Скиннер, Майкл А .; Рен, Джонатан Д.; Гарнер, Гарольд Р. (1 июня 2010 г.). «Выявление дублированного контента с помощью статистически невероятных фраз». Биоинформатика. 26 (11): 1453–1457. Дои:10.1093 / биоинформатика / btq146. ЧВК  2872002. PMID  20472545. Получено 1 января 2017 - через bioinformatics.oxfordjournals.org.
  4. ^ «Что такое статистически неправдоподобные фразы?». Amazon.com. Получено 2007-12-18.
  5. ^ Уикс, Линтон (30 августа 2005 г.). «Жизненная статистика Amazon показывает, как складываются книги». Вашингтон Пост. Получено 8 сентября, 2015.
  6. ^ Руль, Кристиан (2014). Dataclysm: кто мы, когда думаем, что никто не смотрит. Нью-Йорк: Crown Publishers. ISBN  978-0-385-34737-2.
  7. ^ Социологически неправдоподобные фразы Кривая древесина, апрель 2005 г.