Обнаружение изменений и уведомление - Change detection and notification

Обнаружение изменений и уведомление (CDN) относится к автоматическому обнаружению изменений, внесенных в Всемирная сеть страницы и уведомление заинтересованных пользователей по электронной почте или другим способом. В то время как поисковые системы предназначены для поиска веб-страниц, системы CDN предназначены для отслеживания изменений на веб-страницах. Перед обнаружением изменений и уведомлением пользователям необходимо было вручную проверять наличие изменений веб-страниц, либо повторно посещая веб-сайты, либо периодически выполняя повторный поиск. Эффективному и эффективному обнаружению изменений и уведомлению мешает тот факт, что большинство серверов не отслеживают точно изменения содержимого с помощью Last-Modified или ETag заголовки. Подробный анализ систем CDN можно найти Вот.

История

В 1996 г. NetMind разработал первый инструмент обнаружения изменений и уведомления, известный как Mind-it, который работал шесть лет. Это породило новые службы, такие как ChangeDetection (1999), ChangeDetect (2002), Оповещения Google (2003) и Versionista (2007), который использовался Президентская кампания Джона Маккейна 2008 года в гонке за 2008 президентские выборы в США.[1] Исторически опрос изменений выполнялся либо сервером, который отправлял уведомления по электронной почте, либо настольной программой, которая звуком предупреждала пользователя об изменении. Оповещение об изменениях также возможно напрямую на мобильные устройства и через всплывающие уведомления, вебхуки и обратные вызовы HTTP для интеграции приложений.

Варианты мониторинга различаются в зависимости от услуги или продукта и варьируются от мониторинга отдельной веб-страницы до целых веб-сайтов. То, что на самом деле отслеживается, также зависит от услуги или продукта с возможностями мониторинга текста, ссылок, документов, сценариев, изображений или снимков экрана.

За заметным исключением патентных заявок Google, связанных с Оповещения Google, интеллектуальная собственность активность со стороны поставщиков обнаружения изменений и уведомлений минимальна.[2] Ни один поставщик не воспользовался исключительными правами на изменение технологии обнаружения и уведомления посредством патентов или других юридических средств.[нужна цитата ] Это привело к значительному функциональному дублированию продуктов и услуг.

Архитектурные подходы

Службы обнаружения изменений и уведомления можно разделить на категории программная архитектура они используют. Можно выделить два основных подхода:

На базе сервера

Сервер опрашивает контент, отслеживает изменения и регистрирует данные, отправляя предупреждения в виде уведомлений по электронной почте, вебхуки, RSS. Обычно связанный веб-сайт с конфигурацией управляется пользователем. Некоторые службы также имеют приложение для мобильных устройств, которое подключается к облачный сервер и предоставляет оповещения на мобильное устройство.

На основе клиента

Локальное клиентское приложение с графический интерфейс пользователя опрашивает контент, отслеживает изменения и регистрирует данные.

Соображения

Некоторые веб-страницы регулярно меняются из-за включения рекламы или каналов на представленную страницу. Это может вызвать ложные срабатывания при обнаружении изменений, поскольку пользователей часто интересуют только изменения в основном содержании. Существуют некоторые подходы к решению этой проблемы.

  • Создайте показатель разницы между двумя версиями страницы (рассчитанный, например, на основе изменения общего размера, изменений в файле HTML или изменений в ДОМ дерево ) и игнорировать изменения ниже некоторого порога. Порог может быть установлен пользователем или оценен автоматически путем сравнения некоторых ранних версий страницы.
  • Извлечение контента. Для популярных сайтов или сайтов, на которых запущено популярное программное обеспечение, контент можно активно отделить от мусора, выбрав поддерево DOM, например, используя XPath. Другой типичный метод - использование обычные выражения для извлечения только того текста, который интересует пользователя.

использованная литература

  1. ^ "К Wayback Machine, Шерман!". Экономист. Получено 9 января 2019.
  2. ^ "Он создал оповещения Google. Теперь он выращивает миндаль". CNN. 4 апреля 2016 г.. Получено 9 сентября 2016.