Надежная совместная фильтрация - Википедия - Robust collaborative filtering

Надежная совместная фильтрация, или же совместная фильтрация, устойчивая к атакам, относится к алгоритмам или методам, направленным на совместная фильтрация более устойчивый к попыткам манипуляции, но при этом сохраняет качество рекомендаций. В общем, эти попытки манипуляции обычно относятся к атакам шиллинга, также называемым атаками с внедрением профиля. Совместная фильтрация предсказывает рейтинг пользователя по элементам, находя похожих пользователей и просматривая их оценки, а поскольку в онлайн-системе можно создавать практически неограниченное количество копий профилей пользователей, совместная фильтрация становится уязвимой, когда несколько копий поддельных профилей вводятся в систему. система. Предлагается несколько различных подходов для повышения надежности совместной фильтрации как на основе моделей, так и на основе памяти. Тем не менее, надежные методы совместной фильтрации все еще являются активной областью исследований, и их основные приложения еще впереди.

Вступление

Одна из самых больших проблем для совместной фильтрации - это шиллинг-атаки. То есть злоумышленники или конкурент могут преднамеренно внедрить в систему определенное количество поддельных профилей (обычно 1 ~ 5%) таким образом, чтобы они могли повлиять на качество рекомендаций или даже изменить прогнозируемые рейтинги в интересах своих преимуществ. Некоторые из основных стратегий атаки шиллингом - это случайные атаки, средние атаки, массовые атаки и атаки, ориентированные на сегменты.

Случайные атаки вставляют профили, которые дают случайные рейтинги подмножеству элементов; средние атаки дают средний рейтинг каждого элемента.[1] Широко распространенные и сегментно-ориентированные атаки представляют собой более новую и более сложную модель атаки. Профили атаки подгруппы дают случайный рейтинг подмножеству элементов и максимальный рейтинг очень популярным элементам, чтобы повысить вероятность того, что у этих поддельных профилей будет много соседей. Атака, ориентированная на сегменты, похожа на модель атаки подножки, но она дает максимальный рейтинг элементам, которые, как ожидается, будут высоко оценены целевой группой пользователей, а не часто.[2]

В общем, совместная фильтрация на основе элементов, как известно, более надежна, чем совместная фильтрация на основе пользователей. Однако совместная фильтрация на основе элементов по-прежнему не полностью защищена от массовых и сегментных атак.

Надежная совместная фильтрация обычно работает следующим образом:

  1. Построить модель обнаружения пользователей спама
  2. Следуйте рабочему процессу обычного совместная фильтрация системы, но только с использованием рейтинговых данных пользователей, не связанных со спамом.

Отношения с пользователями

Распределение косинусного расстояния при массовых атаках разной величины

Это метод обнаружения, предложенный Gao et al. чтобы сделать совместную фильтрацию на основе памяти более надежной. [3] Некоторые популярные показатели, используемые в совместной фильтрации для измерения сходства пользователей, - это коэффициент корреляции Пирсона, схожесть интересов и косинусное расстояние. (Ссылаться на CF на основе памяти для определений) Рекомендательная система может обнаруживать атаки, используя тот факт, что распределение этих показателей различается, когда в системе есть пользователи спама. Поскольку шиллинг-атаки внедряют не один поддельный профиль, а большое количество похожих поддельных профилей, эти пользователи спама будут иметь необычно высокое сходство, чем обычные пользователи.

Вся система работает так. Учитывая матрицу рейтингов, он запускает алгоритм кластеризации на основе плотности на показателях взаимоотношений пользователей для обнаружения пользователей спама, и дает вес 0 пользователям спама и вес 1 для обычных пользователей. То есть при вычислении прогнозов система будет учитывать оценки только обычных пользователей. Остальная часть алгоритма работает точно так же, как обычная совместная фильтрация на основе элементов.

Согласно экспериментальным результатам на данных MovieLens, этот надежный подход CF сохраняет точность по сравнению с обычным CF на основе элементов, но является более стабильным. Результат прогноза для обычного CF сдвигается на 30-40%, когда вводятся профили пользователей спама, но этот надежный подход сдвигается только примерно на 5-10%.

Рекомендации

  1. ^ Бхаскар Мехта, Томас Хофманн и Вольфганг Нейдл, Надежная совместная фильтрация, RecSys ‘07 Proceedings of the 2007 ACM Conference on Recommender Systems, 49-56
  2. ^ Бамшад Мобашер, Робин Берк, Чад Уильямс и Руна Баумик, Анализ и обнаружение сегментно-ориентированных атак на совместные рекомендации, Достижения в области веб-майнинга и анализа использования Интернета, 2005 г., стр. 96-118
  3. ^ Мин Гао, Бинь Лин, Цюань Юань, Цинюй Сюн и Линда Ян, Надежный подход совместной фильтрации, основанный на отношениях с пользователями для рекомендательных систем, Математические проблемы инженерии, том 2014, ID статьи 162521