Архив сайта - Википедия - Archive site

В веб-архивирование, архив сайта это интернет сайт в котором хранится информация о прошлых веб-страницах, которую может просмотреть любой желающий.

Общие техники

Два распространенных метода архивирования веб-сайтов: поисковый робот или запрашивая материалы от пользователей:

  1. Используя поисковый робот: С помощью поискового робота (например, Интернет-архив ) сервис не будет зависеть от активного сообщества в отношении своего контента и, таким образом, сможет быстрее построить базу данных большего размера. Однако веб-сканеры могут только индексировать и архивировать информацию, которую общественность выбрала для публикации в Интернете или которая доступна для сканирования, поскольку разработчики веб-сайтов и системные администраторы имеют возможность блокировать доступ веб-сканеров к [определенным] веб-страницам. (используя robots.txt ).
  2. Представления пользователей: Несмотря на то, что запуск служб отправки пользователей может быть затруднен из-за потенциально низкого количества отправлений пользователей, эта система может дать одни из лучших результатов. Сканируя веб-страницы, можно получить только ту информацию, которую публика выбрала для размещения в сети; однако потенциальные поставщики контента могут не беспокоиться о размещении определенной информации, предполагая, что она никому не будет интересна, потому что у них нет подходящего места для ее публикации или из-за опасений по поводу авторских прав.[1] Однако пользователи, которые видят, что кому-то нужна их информация, могут быть более склонны ее отправить.

Примеры

Группы Google

12 февраля 2001 г. Google приобрел Usenet архивы дискуссионных групп из Deja.com и превратили это в свою Группы Google служба.[2] Они позволяют пользователям искать старые обсуждения с помощью поисковой технологии Google, при этом позволяя пользователям публиковать сообщения в списки рассылки.

Интернет-архив

В Интернет-архив создает сборник веб-сайтов и цифровые СМИ. Начиная с 1996 года, Архив использует поискового робота для создания своей базы данных. Это один из самых известных архивных сайтов.

Архивы NBCUniversal

Архивы NBCUniversal предлагать доступ к эксклюзивному контенту от NBCUniversal и его дочерние компании. Их веб-сайт NBCUniversal Archives обеспечивает удобный просмотр прошлых и недавних новостных клипов и является ярким примером архива новостей.[3]

Следующая точка

Следующая точка предлагает автоматизированный облако -основан, SaaS для нужд маркетинга, соблюдения нормативных требований и судебных разбирательств, включая электронное обнаружение.

Архив PANDORA

ПАНДОРА (Архив Пандоры ), основанная в 1996 г. Национальной библиотекой г. Австралия, расшифровывается как «Сохранение сетевых документальных ресурсов Австралии и доступ к ним», что отражает их миссию. Они предоставляют долгосрочный каталог избранных онлайн-публикаций и веб-сайтов, созданных австралийцами или имеющих австралийскую тематику. При создании каталога они используют свои PANDAS (Система цифрового архивирования PANDORA).

textfiles.com

textfiles.com это большая библиотека старых текстовых файлов, поддерживаемая Джейсон Скотт Садофски. Его задача - архивировать старые документы, которые хлынули системы досок объявлений (BBS) его юности и документировать опыт других людей в системах досок объявлений.

Смотрите также

Рекомендации

  1. ^ Цзиньфан Ню, Университет Южной Флориды (март – апрель 2012 г.). «Обзор веб-архивирования». Журнал D-Lib. 18 (3/4). Дои:10.1045 / март2012-niu1.
  2. ^ "Google приобретает службу обсуждения Usenet и значительные активы у Deja.com". 12 февраля 2001 г.
  3. ^ Архивы NBCUniversal