Система поиска информации SMART - SMART Information Retrieval System

В SMART (Система механического анализа и поиска текста) Система поиска информации является поиск информации система разработана в Корнелл Университет в 1960-е гг. Многие важные концепции информационного поиска были разработаны в рамках исследования УМНАЯ[мертвая ссылка ] система, включая векторная космическая модель, обратная связь по релевантности, и Классификация роккио.

Джерард Солтон возглавил группу, которая разработала SMART. Другие участники включены Майк Леск.

Система SMART также предоставляет набор корпусов, запросов и рейтингов ссылок, взятых из различных предметов, в частности

К наследию системы SMART принадлежит так называемая тройная нотация SMART, мнемоническая схема для обозначения tf-idf варианты взвешивания в модели векторного пространства. Мнемоника для представления комбинации весов принимает вид ddd.qqq, где первые три буквы представляют собой весовой коэффициент для вектора документа собрания, а вторые три буквы представляют собой весовой термин для вектора документа запроса. Например, ltc.lnn представляет ltc взвешивание, примененное к документу инкассо, и lnn взвешивание, примененное к документу запроса.

Следующие таблицы устанавливают нотацию SMART:[1]

Символы и обозначения
представляет вектор документа, где это вес термина в и это количество уникальных терминов в . Положительные характеристики характеризуют термины, которые присутствуют в документе, а нулевой вес используется для терминов, которые отсутствуют в документе.
Частота встречаемости термина в документе Количество уникальных терминов в документе
Количество инкассовых документовСреднее количество уникальных терминов в документе
Количество документов со сроком настоящее времяКоличество символов в документе
Частота встречаемости наиболее употребительного термина в документе Среднее количество символов в документе
Средняя частота встречаемости термина в документе Статистика глобального сбора
Наклон в контексте нормализации длины повернутого документа[2]
Умная тройная запись с взвешиванием термов
Частота сроков Частота документов Нормализация длины документа
бДвоичный весИкспНе учитывает частоту сбораИкспНет нормализации длины документа
тпЧастота необработанного терминажОбратная частота сбораcКосинусная нормализация
аУвеличенная нормализованная частота запросовтОбратная частота сборатыПоворотная уникальная нормализация[2]
лЛогарифмпВероятностная обратная частота сборабНормализация развернутой характерной длины[2]
LНормализация на основе среднесрочной частоты[2]
dДвойной логарифм

Серые буквы в первом, пятом и девятом столбцах - это схема, использованная Солтоном и Бакли в их статье 1988 года.[3] Жирными буквами во втором, шестом и десятом столбцах обозначена схема, использованная в экспериментах, о которых сообщалось после этого.

Рекомендации

  1. ^ Пальчоудхури, Саупарна (2016). "О происхождении tf-idf". sauparna.sdf.org. Получено 2019-07-29.
  2. ^ а б c d Сингхал А., Бакли К. и Митра М. (1996). Нормализация длины сводного документа. СИГИР Форум, 51, 176-184.
  3. ^ Солтон, Г., и Бакли, К. (1988). Подходы с взвешиванием терминов в автоматическом поиске текста. Инф. Процесс. Управ., 24, 513-523.

внешняя ссылка