Коллективная классификация - Collective classification

В теория сети, коллективная классификация - это одновременное предсказание меток для нескольких объектов, где каждая метка предсказывается с использованием информации о наблюдаемом объекте. Особенности, наблюдаемые особенности и метки его соседей, а также ненаблюдаемые метки его соседей.[1] Задачи коллективной классификации определяются в терминах сетей случайных величин, где структура сети определяет взаимосвязь между случайными величинами. Вывод выполняется одновременно с несколькими случайными величинами, обычно путем распространения информации между узлами в сети для выполнения приблизительного вывода. Подходы, использующие коллективную классификацию, могут использовать реляционная информация при выполнении вывода. Примеры коллективной классификации включают прогнозирование атрибутов (например, пола, возраста, политической принадлежности) отдельных лиц в социальная сеть, классифицируя веб-страницы в Всемирная сеть и определение области исследования статьи в наборе данных научной публикации.

Мотивация и предыстория

Традиционно основное внимание машинного обучения уделяется решению классификация проблемы. (Например, учитывая набор электронных писем, мы хотим определить, какие из них спам, а которые нет.) Многие модели машинного обучения для выполнения этой задачи будут пытаться классифицировать каждый элемент независимо и сконцентрируйтесь на прогнозировании меток классов по отдельности. Однако точность прогнозирования меток, значения которых должны быть выведены, можно повысить, зная правильные метки классов для связанных элементов. Например, легче предсказать тему веб-страницы, если мы знаем темы веб-страниц, которые ссылаются на нее. Точно так же вероятность того, что конкретное слово является глаголом, увеличивается, если мы знаем, что предыдущее слово в предложении является существительным; знание первых нескольких символов в слове может значительно упростить идентификацию оставшихся символов. Многие исследователи предложили методы, которые пытаются классифицировать образцы совместно или коллективно, вместо того, чтобы рассматривать каждый образец по отдельности; эти методы позволили значительно повысить точность классификации.[1][2]

пример

Рассмотрим задачу определения политической принадлежности пользователей в социальной сети, где некоторая часть этой принадлежности наблюдается, а остальные не наблюдаются. У каждого пользователя есть локальные функции, такие как информация о его профиле, и существуют ссылки между пользователями, которые являются друзьями в этой социальной сети. Подход, который не предусматривает коллективной классификации пользователей, будет рассматривать каждого пользователя в сети независимо и использовать его локальные функции для определения принадлежности к сторонам. Подход, который выполняет коллективную классификацию, может предполагать, что пользователи, которые являются друзьями, как правило, имеют схожие политические взгляды, и затем могут совместно вывести всю ненаблюдаемую партийную принадлежность, используя богатую реляционную структуру социальной сети.

Определение

Рассмотрим полу-контролируемое обучение проблема присвоения меток узлам в сети с использованием знания подмножества меток узлов. В частности, нам дана сеть, представленная график с набором узлов и набор кромок представляющие отношения между узлами. Каждый узел описывается его атрибутами: вектор признаков и его метка (или класс) .

в дальнейшем можно разделить на два набора узлов: , набор узлов, для которых нам известны правильные значения меток (наблюдаемые переменные), и , узлы, метки которых должны быть выведены. Задача коллективной классификации - пометить узлы в с этикеткой из набора этикеток .

В таких условиях традиционные алгоритмы классификации предполагают, что данные извлекаются независимо и идентично из некоторого распределения (iid). Это означает, что метки, выведенные для узлов, метка которых не наблюдается, независимы друг от друга. При коллективной классификации этого допущения не делают. Вместо этого есть три различных типа корреляций, которые можно использовать для определения классификации или обозначения :

  1. Соотношения между этикеткой и наблюдаемые атрибуты . Традиционные iid-классификаторы, использующие векторы признаков, являются примером подходов, использующих эту корреляцию.
  2. Соотношения между этикеткой и наблюдаемые атрибуты (включая наблюдаемые метки) узлов в окрестности .
  3. Соотношения между этикеткой и ненаблюдаемые метки объектов в окрестности .

Коллективная классификация относится к комбинированной классификации набора взаимосвязанных объектов с использованием трех вышеуказанных типов информации.

Методы

Существует несколько существующих подходов к коллективной классификации. Два основных метода - это итерационные методы и методы, основанные на вероятностные графические модели.[3]

Итерационные методы

Общая идея итерационных методов состоит в том, чтобы итеративно комбинировать и пересматривать прогнозы отдельных узлов, чтобы достичь равновесия. Когда обновление прогнозов для отдельных узлов - это быстрая операция, сложность этих итерационных методов будет равна количеству итераций, необходимых для сходимости. Хотя сходимость и оптимальность не всегда гарантированы математически, на практике эти подходы обычно быстро сходятся к хорошему решению, в зависимости от структуры графа и сложности задачи. Методы, представленные в этом разделе, представляют этот итеративный подход.

Распространение метки

Естественное предположение при классификации сети состоит в том, что соседние узлы, вероятно, будут иметь одинаковую метку (т. зараза[необходимо разрешение неоднозначности ] или гомофилия ). Предиктор для узла с использованием метода распространения меток - это средневзвешенное значение соседних меток [4]

Алгоритмы итеративной классификации (ICA)

Хотя распространение меток на удивление эффективно, иногда оно может не улавливать сложную динамику отношений. Более сложные подходы могут использовать более богатые предикторы. Предположим, у нас есть классификатор. который был обучен классифицировать узел учитывая его особенности и особенности и этикетки своих соседей . Применяется итеративная классификация с использованием локального классификатора для каждого узла, который использует информацию о текущих прогнозах и достоверную информацию о соседях узла, и повторяется до тех пор, пока локальные прогнозы не сходятся в глобальном решении. Итеративная классификация - это «алгоритмическая структура», поскольку она не зависит от выбора предиктора; это делает его очень универсальным инструментом для коллективной классификации.[5][6][7]

Коллективная классификация с графическими моделями

Другой подход к коллективной классификации состоит в том, чтобы представить проблему с графическая модель и использовать методы обучения и вывода для подхода графического моделирования, чтобы прийти к правильным классификациям. Графические модели - это инструменты для совместного вероятностного вывода, что делает их идеальными для коллективной классификации. Они характеризуются графическим представлением распределения вероятностей , в котором случайные величины являются узлами графа . Графические модели можно разделить на широкие категории в зависимости от того, направлен ли лежащий в основе граф (например, Байесовские сети или коллекции локальных классификаторов) или ненаправленные (например, Марковские случайные поля (MRF)).

Выборка Гиббса

Выборка Гиббса - это общая структура для аппроксимации распределения. Это Цепь Маркова Монте-Карло алгоритм, в котором он итеративно производит выборку из текущей оценки распределения, создавая цепь Маркова, которая сходится к целевому (стационарному) распределению. Основная идея выборки Гиббса состоит в том, чтобы выбрать лучшую оценку метки для учитывая все значения для узлов в используя локальный классификатор за фиксированное количество итераций. После этого отбираем образцы этикеток для каждого и вести статистику подсчета количества проб, которые мы отбирали для этикетки для узла . Собрав предопределенное количество таких выборок, мы выводим лучшую метку для узла. выбрав метку, которая была присвоена максимальное количество раз при сборе образцов.[8][9]

Путевое распространение убеждений

Для некоторых неориентированных графических моделей можно эффективно выполнять точный вывод с помощью передачи сообщений или распространение веры алгоритмы.[10] Эти алгоритмы следуют простому итеративному шаблону: каждая переменная передает свои «убеждения» о предельных распределениях своих соседей, а затем использует входящие сообщения о своем собственном значении для обновления своих убеждений. Сходимость к истинным маргиналам гарантируется для MRF с древовидной структурой, но не гарантируется для MRF с циклами.

Статистическое реляционное обучение (SRL), связанное с

Статистическое реляционное обучение часто используется для решения проблем коллективной классификации. Для настройки коллективной классификации применялись различные методы SRL. Некоторые из методов включают прямые методы, такие как вероятностные реляционные модели (PRM),[11] связанные условные модели, такие как классификация на основе ссылок,[12]и косвенные методы, такие как Марковские логические сети (МЛН)[13] и Вероятностная мягкая логика (PSL).[14]

Приложения

Коллективная классификация применяется во многих областях, которые демонстрируют реляционную структуру, например:

Смотрите также

использованная литература

  1. ^ а б Сен, Притхвирадж; Намата, Галилей; Билгич, Мустафа; Гетур, Лиза; Галлигер, Брайан; Элиасси-Рад, Тина (2008). «Коллективная классификация сетевых данных». Журнал AI. 29 (3): 93. Дои:10.1609 / aimag.v29i3.2157. ISSN  0738-4602.
  2. ^ Kajdanowicz, Tomasz; Казиенко, Пшемыслав (2018). «Коллективная классификация»: 253–265. Дои:10.1007/978-1-4939-7131-2_45. Цитировать журнал требует | журнал = (Помогите)
  3. ^ Лондон, Бен; Getoor, Лиз (2014). «Коллективная классификация сетевых данных». Классификация данных: алгоритмы и приложения. 29: 399--416.
  4. ^ Чжу, Сяоцзинь. «Изучение данных с метками и без меток с помощью распространения меток». CiteSeerX  10.1.1.14.3864. Цитировать журнал требует | журнал = (Помогите)
  5. ^ Невилл, Дженнифер; Дженсен, Дэвид (2000). Итеративная классификация в реляционных данных (PDF). Семинар AAAI по изучению статистических моделей на основе реляционных данных (SRL). AAAI. п. 8.
  6. ^ Чакрабарти, Сумен; Дом, Байрон; Индик, Петр (1998). Расширенная категоризация гипертекста с использованием гиперссылок. Материалы Международной конференции ACM SIGMOD 1998 года по управлению данными. Ассоциация вычислительной техники (ACM). п. 307–318. Дои:10.1145/276304.276332.
  7. ^ Дженсен, Дэвид; Невилл, Дженнифер; Галлахер, Дэвид (2000). Почему коллективный вывод улучшает реляционную классификацию. ACM SIGKDD международная конференция по обнаружению знаний и интеллектуальному анализу данных. Ассоциация вычислительной техники (ACM). п. 5. Дои:10.1145/1014052.1014125.
  8. ^ Макскасси, Софус; Провост, Фостер (2007). «Классификация сетевых данных: инструментарий и однофакторное исследование» (PDF). Журнал исследований в области машинного обучения: 935 - 983.
  9. ^ Геман, Стюарт; Дональд, Фостер (1990). Стохастическая релаксация, распределения Гиббса и байесовское восстановление изображений. Издательство Morgan Kaufmann Publishers Inc. стр. 452–472.
  10. ^ Yedidia, J.S .; Freeman, W.T .; Ю. (январь 2003 г.). «Понимание распространения убеждений и их обобщений». В Лакемейере, Герхард; Небель, Бернхард (ред.). Изучение искусственного интеллекта в новом тысячелетии. Морган Кауфманн. С. 239–236. ISBN  978-1-55860-811-5. Получено 2009-03-30.
  11. ^ Гетур, Лиза; Фридман, Нир; Коллер, Дафна; Таскар, Бенджамин (2002). «Изучение вероятностных моделей ссылочной структуры» (PDF). Цитировать журнал требует | журнал = (Помогите)
  12. ^ Лу, Цин; Getoor, Лиз (2003). Классификация на основе ссылок (PDF). Международная конференция по машинному обучению (ICML).
  13. ^ Доминогс, Педро; Ричардсон, Мэтью (2006). «Марковские логические сети» (PDF). Цитировать журнал требует | журнал = (Помогите)
  14. ^ Бах, Стивен; Брошелер, Матиас; Хуанг, Берт; Гетур, Лиз (2017). "Марковские случайные поля без шарнирных потерь и вероятностная мягкая логика". Журнал исследований в области машинного обучения. 18: 1–67.
  15. ^ Яафор, Омар; Биррегах, Бабига (31.07.2017). Коллективная классификация в социальных сетях. Нью-Йорк, Нью-Йорк, США: ACM. Дои:10.1145/3110025.3110128. ISBN  978-1-4503-4993-2.
  16. ^ Фахреи, Шобейр; Фулдс, Джеймс; Шашанка, Мадхусудана; Гетур, Лиз (2015). Коллективное обнаружение спамеров в развивающихся мульти-реляционных социальных сетях. Нью-Йорк, Нью-Йорк, США: ACM Press. Дои:10.1145/2783258.2788606. ISBN  978-1-4503-3664-2.
  17. ^ Бхаттачарья, Индраджит; Getoor, Лиз (2007). «Разрешение коллективной сущности в реляционных данных». Транзакции ACM при обнаружении знаний из данных. Ассоциация вычислительной техники (ACM). 1 (1): 5. Дои:10.1145/1217299.1217304. HDL:1903/4241. ISSN  1556-4681.
  18. ^ Ло, Линь; Ян, Чжихао; Ян, Пей; Чжан, Инь; Ван, Лэй; Линь, Хунфэй; Ван, Цзянь (24.11.2017). Рен, Джонатан (ред.). «Основанный на внимании подход BiLSTM-CRF к распознаванию химического вещества на уровне документа». Биоинформатика. Издательство Оксфордского университета (ОУП). 34 (8): 1381–1388. Дои:10.1093 / биоинформатика / btx761. ISSN  1367-4803.
  19. ^ Берфорд, Клинт; Птица, Стивен; Болдуин, Тимоти (2015). Коллективная классификация документов с неявными междокументными семантическими отношениями. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. Дои:10.18653 / версия 1 / с15-1012.
  20. ^ Житник М, Зупан Б (2015). «Вывод генной сети путем объединения данных из различных распределений». Биоинформатика. 31 (12): i230-9. Дои:10.1093 / биоинформатика / btv258. ЧВК  4542780. PMID  26072487.
  21. ^ Трибель, Рудольф; Мосос, Оскар Мартинес; Бургард, Вольфрам (2008). «Коллективная классификация для маркировки мест и объектов в данных 2D и 3D диапазона». Анализ данных, машинное обучение и приложения. Берлин, Гейдельберг: Springer Berlin Heidelberg. С. 293–300. Дои:10.1007/978-3-540-78246-9_35. ISBN  978-3-540-78239-1. ISSN  1431-8814.