Индекс Тверски - Tversky index

В Индекс Тверски, названный в честь Амос Тверски,[1] асимметричный мера сходства на наборы который сравнивает вариант с прототипом. Индекс Тверски можно рассматривать как обобщение Коэффициент Соренсена – Дайса и Коэффициент Танимото (он же Индекс Жаккара ).

Для наборов Икс и Y индекс Тверски - это число от 0 до 1, задаваемое

,

Вот, обозначает относительное дополнение Y в X.

В дальнейшем, являются параметрами индекса Тверски. Настройка производит коэффициент Танимото; установка дает коэффициент Соренсена – Дайса.

Если мы рассмотрим Икс быть прототипом и Y быть вариантом, то соответствует весу прототипа и соответствует весу варианта. Тверски меры с представляют особый интерес.[2]

Из-за присущей асимметрии индекс Тверски не соответствует критериям метрики сходства. Однако, если требуется симметрия, был предложен вариант исходной формулировки с использованием Максимум и мин функции[3].

,

,

,

Эта формулировка также меняет порядок параметров и . Таким образом, контролирует баланс между и в знаменателе. Так же, контролирует эффект симметричной разности против в знаменателе.

Заметки

  1. ^ Тверски, Амос (1977). «Особенности сходства» (PDF). Психологический обзор. 84 (4): 327–352. Дои:10.1037 / 0033-295x.84.4.327.
  2. ^ http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
  3. ^ Хименес, С., Бесерра, К., Гелбух, А. SOFTCARDINALITY-CORE: улучшение перекрытия текста с помощью распределительных мер для семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (* SEM), Том 1: Материалы основной конференции и общая задача: семантическое текстовое сходство, стр.194-201, 7–8 июня 2013 г., Атланта, Джорджия, США.