Закон кучи - Википедия - Heaps law

Типичный сюжет закона Кучи. Ось X представляет размер текста, а ось Y представляет количество отдельных словарных элементов, присутствующих в тексте. Сравните значения двух осей

В лингвистика, Закон кучи (также называемый Закон Хердана) является эмпирический закон который описывает количество отдельных слов в документе (или наборе документов) в зависимости от длины документа (так называемое отношение типа-токена). Его можно сформулировать как

куда Vр это количество отдельных слов в экземпляре текста размера п. K β - свободные параметры, определяемые эмпирически. С английским текстовые корпуса обычно K составляет от 10 до 100, а β составляет от 0,4 до 0,6.

Закон часто приписывают Гарольд Стэнли Хипс, но первоначально был обнаружен Густавом Херданом (1960 ).[1] При мягких предположениях закон Хердана – Хипса асимптотически эквивалентен Закон Ципфа относительно частот отдельных слов в тексте.[2] Это является следствием того факта, что отношение типа-лексема (в общем) однородного текста может быть получено из распределения его типов.[3]

Закон Кучи означает, что по мере сбора большего количества экземпляров текста будет уменьшаться отдача с точки зрения открытия полного словаря, из которого взяты отдельные термины.

Закон Хипса также применяется к ситуациям, в которых «словарь» - это всего лишь некоторый набор отдельных типов, которые являются атрибутами некоторого набора объектов. Например, объектами могут быть люди, а типами - страна происхождения человека. Если люди выбираются случайным образом (то есть мы отбираем не по стране происхождения), то закон Хипса гласит, что у нас быстро появятся представители из большинства стран (пропорционально их населению), но будет все труднее охватить всю набор стран, продолжая этот метод выборки.


Смотрите также

Рекомендации

Цитаты

  1. ^ Эгге (2007): «Закон Хердана в лингвистике и закон Хипса в поиске информации - это разные формулировки одного и того же явления».
  2. ^ Корнаи (1999); Баэза-Ятс и Наварро (2000); ван Лейенхорст и ван дер Вейде (2003).
  3. ^ Миличка (2009)

Источники

  • Баеза-Йейтс, Рикардо; Наварро, Гонсало (2000), «Индексы блочной адресации для приблизительного поиска текста», Журнал Американского общества информационных наук, 51 (1): 69–82, CiteSeerX  10.1.1.31.4832, Дои:10.1002 / (sici) 1097-4571 (2000) 51: 1 <69 :: aid-asi10> 3.0.co; 2-c.
  • Эгге, Л. (2007), "Распутывание закона Хердана и закона Хипса: математические и информатрические аргументы", Журнал Американского общества информационных наук и технологий, 58 (5): 702–709, Дои:10.1002 / asi.20524.
  • Кучи, Гарольд Стэнли (1978), Информационный поиск: вычислительные и теоретические аспекты, Academic Press. Закон Хипса предложен в разделе 7.5 (стр. 206–208).
  • Хердан, Густав (1960), Математика типа лексемы, Гаага: Мутон.
  • Корнаи, Андрас (1999), «Закон Ципфа за пределами среднего диапазона», в Rogers, James (ed.), Материалы шестого заседания по математике языка, Университет Центральной Флориды, стр. 347–356..
  • Миличка, Иржи (2009), «Отношение тип-токен и Hapax-токен: комбинаторная модель», Глоттотеория. Международный журнал теоретической лингвистики, 1 (2): 99–110, Дои:10.1515 / glot-2009-0009, S2CID  124490442.
  • van Leijenhorst, D.C; van der Weide, Th. П. (2005), "Формальный вывод закона Кучи", Информационные науки, 170 (2–4): 263–272, Дои:10.1016 / j.ins.2004.03.006.
  • В этой статье использован материал из закона Хипса о PlanetMath, который находится под лицензией Лицензия Creative Commons Attribution / Share-Alike.