Вебархив - Webarchiv
Тип сайта | Цифровая библиотека |
---|---|
Доступно в | Чешский, английский |
Основан | 2000 |
Штаб-квартира | Прага, Чехия |
Родитель | Национальная библиотека Чешской Республики |
URL | Webarchiv.cz |
Запущен | 2001 |
Вебархив представляет собой цифровой архив важных чешских веб-ресурсов (т. е. опубликованных на Интернет ), которые собираются с целью их длительного хранения.
Консервация началась в 2000 году, организована с помощью Национальная библиотека Чешской Республики, в сотрудничестве с Моравская библиотека и Институт компьютерных наук Масариковский университет. В настоящее время Вебархив организован Национальная библиотека Чешской Республики только.
Webarchiv использует инструменты, разработанные Internet Archive и Международный консорциум сохранения Интернета (IIPC) такие как Heritrix для веб-архивирование.[1]
Webarchiv является членом IIPC с 2007 года.
Виды урожая
Основная цель проекта Webarchiv - реализовать комплексное решение в области архивирования национальных веб-документов, т.е. Сюда входят инструменты и методы для сбора, архивирования и сохранения веб-ресурсов, а также обеспечения долгосрочного доступа к ним. Осуществляются как крупномасштабный автоматизированный сбор всей национальной сети, так и выборочное архивирование, включая тематические коллекции, основанные на событиях. В настоящее время эти методы апробированы и являются предметом дальнейших исследований. Чтобы все операции выполнялись в обычном режиме, необходимо выполнение двух условий: необходимо обеспечить долгосрочное финансирование и решить текущие правовые вопросы (в первую очередь, законодательство об обязательном экземпляре).[2]
Webarchiv имеет две коллекции заархивированных веб-сайтов. Один доступен через онлайн-доступ; это ограниченный набор данных, содержание которого регулируется соглашениями с исходными издателями. Вторая коллекция доступна только в библиотеке. Согласно чешскому закону об авторском праве онлайн-доступ к заархивированным веб-сайтам осуществляется по соглашению с владельцем веб-сайта или по лицензии Creative Commons. Веб-сайты без этого соглашения заблокированы из онлайн-архива и доступны только с терминалов библиотеки.[3]
Комплексные урожаи
Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Список URL-адресов предоставлен организацией CZ.NIC.
Селективные урожаи
Коллекция ресурсов, имеющих историческую, научную или культурную ценность, выбранную вручную. Сборник доступен онлайн по контрактам с издателями.
Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Требования к полному сканированию:
Домен - собраны веб-ресурсы чешского домена (.cz). Ресурсы с другими доменами также могут быть собраны, но они должны соответствовать дополнительным требованиям:
Остальные требования необязательны:[4]
Формат - заготовка ресурсов разных форматов зависит от технических настроек комбайна.[4]
Доступ - собираются только свободно доступные ресурсы[4]
Количество файлов - максимум 5000 файлов с одного домена[4]
Тематические урожаи
Коллекции тем - это наборы ресурсов, которые относятся к определенному событию темы, например, выборам.
использованная литература
- ^ «Обзор проекта WebArchiv». WebArchiv. Получено 18 марта 2014.
- ^ "О Webarchiv | Webarchiv.cz".
- ^ "Часто задаваемые вопросы | Webarchiv.cz".
- ^ а б c d http://webarchiv.cz/en/comprehensive-harvests
внешние ссылки
- Домашняя страница Webarchiv (Доступны чешский и английский языки)
- Архивирование чешского Интернета: проблемы и вызовы. Петр Жабичка, 2003 г.