Обнаружение изменений и уведомление - Change detection and notification
Обнаружение изменений и уведомление (CDN) относится к автоматическому обнаружению изменений, внесенных в Всемирная сеть страницы и уведомление заинтересованных пользователей по электронной почте или другим способом. В то время как поисковые системы предназначены для поиска веб-страниц, системы CDN предназначены для отслеживания изменений на веб-страницах. Перед обнаружением изменений и уведомлением пользователям необходимо было вручную проверять наличие изменений веб-страниц, либо повторно посещая веб-сайты, либо периодически выполняя повторный поиск. Эффективному и эффективному обнаружению изменений и уведомлению мешает тот факт, что большинство серверов не отслеживают точно изменения содержимого с помощью Last-Modified или ETag заголовки. Подробный анализ систем CDN можно найти Вот.
История
В 1996 г. NetMind разработал первый инструмент обнаружения изменений и уведомления, известный как Mind-it, который работал шесть лет. Это породило новые службы, такие как ChangeDetection (1999), ChangeDetect (2002), Оповещения Google (2003) и Versionista (2007), который использовался Президентская кампания Джона Маккейна 2008 года в гонке за 2008 президентские выборы в США.[1] Исторически опрос изменений выполнялся либо сервером, который отправлял уведомления по электронной почте, либо настольной программой, которая звуком предупреждала пользователя об изменении. Оповещение об изменениях также возможно напрямую на мобильные устройства и через всплывающие уведомления, вебхуки и обратные вызовы HTTP для интеграции приложений.
Варианты мониторинга различаются в зависимости от услуги или продукта и варьируются от мониторинга отдельной веб-страницы до целых веб-сайтов. То, что на самом деле отслеживается, также зависит от услуги или продукта с возможностями мониторинга текста, ссылок, документов, сценариев, изображений или снимков экрана.
За заметным исключением патентных заявок Google, связанных с Оповещения Google, интеллектуальная собственность активность со стороны поставщиков обнаружения изменений и уведомлений минимальна.[2] Ни один поставщик не воспользовался исключительными правами на изменение технологии обнаружения и уведомления посредством патентов или других юридических средств.[нужна цитата ] Это привело к значительному функциональному дублированию продуктов и услуг.
Архитектурные подходы
Службы обнаружения изменений и уведомления можно разделить на категории программная архитектура они используют. Можно выделить два основных подхода:
На базе сервера
Сервер опрашивает контент, отслеживает изменения и регистрирует данные, отправляя предупреждения в виде уведомлений по электронной почте, вебхуки, RSS. Обычно связанный веб-сайт с конфигурацией управляется пользователем. Некоторые службы также имеют приложение для мобильных устройств, которое подключается к облачный сервер и предоставляет оповещения на мобильное устройство.
На основе клиента
Локальное клиентское приложение с графический интерфейс пользователя опрашивает контент, отслеживает изменения и регистрирует данные.
Соображения
Некоторые веб-страницы регулярно меняются из-за включения рекламы или каналов на представленную страницу. Это может вызвать ложные срабатывания при обнаружении изменений, поскольку пользователей часто интересуют только изменения в основном содержании. Существуют некоторые подходы к решению этой проблемы.
- Создайте показатель разницы между двумя версиями страницы (рассчитанный, например, на основе изменения общего размера, изменений в файле HTML или изменений в ДОМ дерево ) и игнорировать изменения ниже некоторого порога. Порог может быть установлен пользователем или оценен автоматически путем сравнения некоторых ранних версий страницы.
- Извлечение контента. Для популярных сайтов или сайтов, на которых запущено популярное программное обеспечение, контент можно активно отделить от мусора, выбрав поддерево DOM, например, используя XPath. Другой типичный метод - использование обычные выражения для извлечения только того текста, который интересует пользователя.
использованная литература
- ^ "К Wayback Machine, Шерман!". Экономист. Получено 9 января 2019.
- ^ "Он создал оповещения Google. Теперь он выращивает миндаль". CNN. 4 апреля 2016 г.. Получено 9 сентября 2016.
- Chakravarthy, S .; Хара, С. К. Х. (2006). «Автоматическое обнаружение изменений и уведомление о веб-страницах (приглашенный доклад)». 17-я Международная конференция по приложениям баз данных и экспертных систем (DEXA'06). п. 465. Дои:10.1109 / DEXA.2006.34. ISBN 0-7695-2641-1.
- Шобхна, Бансал; Чадхаури, Манодж (июнь 2013 г.). «Обзор системы обнаружения изменений веб-страниц с использованием различных подходов» (PDF). Международный журнал компьютерных наук и мобильных вычислений. IJCSMC. 2 (6): 294–299. ISSN 2320-088X. Получено 8 сентября 2016.
- Маллаваараччи, Виджини; Мегахапола, Лакмал; Алвис, Рошан; Хешан, Эранга; Медения, Дулани; Джаяратна, Сампатх (январь 2019 г.). «Обнаружение изменений и уведомление веб-страниц: обзор». arXiv:1901.02660. Bibcode:2019arXiv190102660M. Дои:10.1145/3369876. Цитировать журнал требует
| журнал =
(Помогите)