Австралийский веб-архив - Australian Web Archive
В Австралийский веб-архив (AWA) является общедоступным онлайн-база данных архивных австралийских веб-сайтов, размещенных Национальная библиотека Австралии (NLA) на своем Trove платформа, агрегатор баз данных онлайн-библиотеки. Он состоит из собственных Архив PANDORA, то Веб-архив правительства Австралии (AGWA) и Национальная библиотека Австралии ".au" домен коллекции. Доступ осуществляется через единый интерфейс в Trove, который является общедоступным.[1][2][3] Австралийский веб-архив был создан в марте 2019 г.[4] и является одним из самых больших веб-архивы в мире.[5] Его цель - предоставить ресурс для историков и исследователей сейчас и в будущем.[5]
История трех компонентов
Служба PANDORA начала архивирование веб-сайтов в октябре 1996 года.[6]
В 2005 году NLA начало архивировать ежегодные снимки всего австралийского веб-домена (URL с суффикс. ".au"[4]),[7] собраны через большие ползать урожай.[8] Позже самые ранние веб-сайты веб-домена .au, относящиеся к 1996 году, были получены из Интернет-архив. В 2019 году этот контент впервые стал общедоступным через Trove.[9]
Инфраструктура PANDORA, которая хорошо работает для выборочного мелкомасштабного архивирования, не адаптируется к крупномасштабному «массовому сбору» веб-контента, поэтому пришлось разработать новую техническую систему, в рамках которой служба веб-архивирования интегрировала бы доставку заархивированных веб-сайтов. в интерфейсе живого веб-сайта, обеспечивающем беспрепятственную доставку заархивированных веб-сайтов пользователю, что технически сложно достичь.[10]
AGWA
Правительство Австралии веб-сайты являются записями Содружества и, следовательно, являются публикациями, управление которыми должно осуществляться в соответствии с Закон об архивах 1983 г..[11]
Веб-архив правительства Австралии (AGWA) состоит из массового архивирования Правительство Содружества веб-сайты. NLA начала регулярный сбор данных с веб-сайтов в июне 2011 года.[12] после того, как в мае 2010 года было преодолено серьезное препятствие, заключившееся в административном соглашении, позволяющем NLA собирать, сохранять и делать доступными правительственные веб-сайты без необходимости запрашивать предварительное разрешение для каждого веб-сайта или документа, как это было до этого. Сервис использует Heritrix веб-краулер для сбора урожая, Файлы WARC для хранения и Open Wayback для доставки услуги. Правительство публикует огромное количество материалов, но необходимо преодолеть множество трудностей, пытаясь сохранить контент, например, его внезапное исчезновение. В марте 2014 года AGWA стала общедоступной.[10]
AGWA соответствует требованиям к сохранению и хранению материалов для веб-сайтов, поскольку «хранить в качестве национальных архивов» (RNA) материалы в соответствии с Закон об архивах; тем не мение ролики и файлы документов (например, PDF-файлы или же Документы Word ) не всегда захватываются, поэтому должны управляться отдельно.[11]
По состоянию на начало 2015 года AGWA включает контент, с 2005 года составлял около 144 миллионов файлов, занимая 15 терабайты. Он включал только веб-сайты правительства Содружества, которые были собраны путем массового сбора почти 1000 URL-адресов семян. График сбора урожая еще не установлен, но в настоящее время сбор урожая проводится примерно три раза в год.[10]
Слияние
В 2017 году архивы AGWA и PANDORA были объединены с другими коллекциями веб-архивов, чтобы сформировать коллекцию веб-архивов Trove.[9] После доработки и создания веб-архива Австралии, правительственные веб-сайты, заархивированные через AGWA и теперь включенные в AWA, по-прежнему можно искать отдельно с помощью опции «Расширенный поиск».[9]
Описание AWA
Интернет-архив описывается NLA как «набор моментальных снимков веб-сайтов, снятых, пока они доступны в сети, а затем сохраняются в статической копии». Коллекция, хранящаяся в AWA, «имеет отношение к культурной, социальной, политической, исследовательской и коммерческой жизни и деятельности Австралии и австралийцев». Он собирает веб-материалы посредством запланированного архивирования выбранных веб-сайтов и публикаций, а также некоторых для этого случая сбор урожая, относящийся к знаменательным событиям[9]
По состоянию на март 2019 года, когда он начался, AWA уже содержало около 600 терабайты данных, с 9 миллиардами записей.[5][13] Он содержит больше функций, чем Wayback Machine, организованный Интернет-архив, позволяя полнотекстовый поиск используя поисковый движок построен в доме. Разработчики также разработали методы фильтрации нежелательного «шума». Данные остаются на серверах библиотеки, хотя переход на облако планируется в будущем по мере роста контента.[5] Удобство использования широким кругом пользователей и, в частности, поисковые функции были основными приоритетами во время разработки.[9]
Архив полностью доступен для поиска на основе комбинации методов, используемых разработчиками. Каждая команда создала уникальный и сложный алгоритм поиска, адаптировав версию Google Алгоритм ранжирования страницы (основанный на частоте кликов на странице), измененный, чтобы приводить к более качественным ресурсам. Другие технологии включают Байесовский фильтр (фактически спам-фильтр ), а Небезопасно для работы классификатор из Yahoo, и машинное обучение.[14]
Перед поиском есть опция «Ограничить веб-домен gov.au»,[15] и правительственные веб-сайты, заархивированные через AGWA, по-прежнему можно искать отдельно с помощью опции «Расширенный поиск».[9] Другие параметры расширенного поиска - это ограничение по временному диапазону снимков, домену и типу файла.[16]
Поскольку многие из более ранних веб-сайтов 1990-х годов теперь утрачены, главным образом из-за частой смены веб-платформ, Австралийский веб-архив является важной инициативой, которая поможет сохранить текущие и будущие веб-страницы, особенно австралийский контент.[4] Материалы будут по-прежнему добавляться в Архив, а другие онлайн-материалы, собираемые в соответствии с Закон о национальной библиотеке 1960 г., то обязательный депозит положения Закон об авторском праве 1968 г. и НОА политика отбора цифровых коллекций.[9]
Сайты Азиатско-Тихоокеанского региона
Сайты в Азиатско-Тихоокеанский регион не включены в AWA, но NLA сотрудничает с Интернет-архив для сбора и сохранения «избранных веб-сайтов Азиатско-Тихоокеанского региона, связанных с конкретными событиями или общественно-политическими группами».[17]
Смотрите также
Рекомендации
- ^ «Сохранение сетевых ресурсов Австралии и доступ к ним». Архив Пандоры. Получено 30 апреля 2020.
- ^ «Архивные сайты». Национальная библиотека Австралии. 23 марта 2020 г.. Получено 30 апреля 2020.
- ^ Коербин, Пол (11 февраля 2015 г.). "Веб-архив правительства Австралии". Национальная библиотека Австралии. Получено 30 апреля 2020.
- ^ а б c Брунс, Аксель (14 марта 2019 г.). «Австралийский веб-архив - важное достижение, но с этого момента все станет еще сложнее». Разговор. Получено 30 апреля 2020.
- ^ а б c d Нотт, Джордж (11 марта 2019 г.). «Национальная библиотека запускает« огромный »архив австралийского Интернета». Computerworld. Получено 6 мая 2020.
- ^ «История и достижения». ПАНДОРА. 18 февраля 2009 г.. Получено 6 мая 2020.
- ^ Маккензи, Амелия (12 марта 2019 г.). «Сохранение истории веб-поиска в Австралии: начало австралийского веб-архива». Национальная библиотека Австралии. Получено 6 мая 2020.
- ^ «Архивные сайты (1996 - по настоящее время)». Trove. Получено 6 мая 2020.
- ^ а б c d е ж грамм "Об австралийском веб-архиве". Справочный центр Trove. Получено 8 мая 2020.
- ^ а б c Коербин, Пол (11 февраля 2015 г.). "Веб-архив правительства Австралии: сбор документального наследия правительства в Интернете идет в широких масштабах". Национальная библиотека Австралии. Получено 6 мая 2020.
- ^ а б «Архивирование веб-сайтов правительства Австралии». Национальный архив Австралии. Получено 8 мая 2020.
- ^ «Архивные сайты». Национальная библиотека Австралии. 7 декабря 2018 г.. Получено 6 мая 2020.
- ^ ПРИМЕЧАНИЕ. На странице справки AWA указано 400 ТБ, 8 миллиардов записей.
- ^ "Проверьте веб-архив Австралии". Южный телефон. 11 апреля 2019 г.. Получено 8 мая 2020.
- ^ «Австралийский веб-архив». Trove. Получено 8 мая 2020.
- ^ "Австралийский веб-архив - Расширенный поиск". Trove. Получено 8 мая 2020.
- ^ «Архивные сайты». Национальная библиотека Австралии. 23 марта 2020 г.. Получено 8 мая 2020.