Интернет ARChive - Web ARChive

Интернет ARChive
Расширение имени файла
.warc
Тип интернет-СМИ
приложение / warc[1]
Расширен сARC[2]
СтандартISO 28500: 2017[3]
Открытый формат ?да
Интернет сайтIIPC.github.io/ warc-спецификации/технические характеристики/ warc-format/ warc-1.1/

В Интернет ARChive (WARC)формат архива определяет метод объединения нескольких цифровых ресурсов в совокупность архивный файл вместе со связанной информацией. Формат WARC - это переработка Интернет-архив Формат файла ARC[4] который традиционно использовался для хранения "веб-сканирование "как последовательности блоков контента, взятых из Всемирная паутина. Формат WARC обобщает старый формат, чтобы лучше поддерживать потребности архивных организаций в сборе, доступе и обмене. Помимо текущего записанного основного содержимого, ревизия включает связанный вторичный контент, например, назначенный метаданные, сокращенные события обнаружения дубликатов и более поздние преобразования.[5] Формат WARC основан на потоках HTTP / 1.0 с аналогичным заголовком и использованием CRLF в качестве разделителей, что делает его очень удобным для реализаций поисковых роботов.

WARC теперь признан большинством национальная библиотека системы в качестве стандарта для веб-архивирования.[6]

Программного обеспечения

Рекомендации

  1. ^ "приложение / варк". Получено 17 марта 2018.
  2. ^ "Вступление". Получено 5 марта 2015.
  3. ^ «Информация и документация - формат файла WARC». Получено 16 марта 2018.
  4. ^ "ARC_IA, формат файла Internet Archive ARC". www.digitalpreservation.gov. Получено 2015-05-09.
  5. ^ "WARC, формат файла Web ARChive". www.digitalpreservation.gov. Получено 2015-05-09.
  6. ^ http://digitalia.sbn.it/article/view/1473
  7. ^ Скривано, Джузеппе (6 августа 2012 г.). "Выпущен GNU wget 1.14". Выпущен GNU wget 1.14. Фонд свободного программного обеспечения, Inc.. Получено 25 февраля, 2016.

внешняя ссылка