Обычное сканирование - Common Crawl
Тип бизнеса | 501 (с) (3) некоммерческий |
---|---|
Доступно в | английский |
Штаб-квартира | Сан - Франциско, Калифорния; Лос-Анджелес, Калифорния, Соединенные Штаты |
Учредитель (и) | Гил Эльбаз |
Ключевые люди | Питер Норвиг, Нова Спивак, Карл Маламуд, Курт Боллакер Джой Ито |
URL | обыкновенный краул |
Обычное сканирование это некоммерческий 501 (с) (3) организация, которая ползет в Интернете и бесплатно предоставляет свои архивы и наборы данных общественности.[1][2] Common Crawl's веб-архив состоит из петабайт данных, собранных с 2011 года.[3] Как правило, сканирование выполняется каждый месяц.[4]
Common Crawl была основана Гил Эльбаз.[5] Советники некоммерческой организации включают Питер Норвиг и Джой Ито.[6] Сканеры организации уважают не следует и robots.txt политики. Открытый исходный код для обработки набора данных Common Crawl общедоступен.
История
Веб-сервисы Amazon начал размещать архив Common Crawl в рамках своей программы Public Data Sets в 2012 году.[7]
Организация начала выпуск метаданные файлы и текстовый вывод сканеров вместе с .arc файлы в июле того же года.[8] Ранее архивы Common Crawl включали только файлы .arc.[8]
В декабре 2012 г. Блекко пожертвовано поисковой системе Common Crawl метаданные blekko собрана во время сканирования, проведенного с февраля по октябрь 2012 года.[9] Донорские данные помогли Common Crawl «улучшить его ползать, избегая при этом спам, порно и влияние чрезмерного SEO."[9]
В 2013 году Common Crawl начал использовать Фонд программного обеспечения Apache Nutch webcrawler вместо пользовательского сканера.[10] Common Crawl перешел с использования файлов .arc на .warc файлы с его сканированием за ноябрь 2013 г.[11]
Common Crawl использовался для обучения OpenAI GPT-3 языковая модель, анонсированная в 2020 году.[12]
История общих данных сканирования
Следующие данные были получены из официального Общий блог сканирования
Дата сканирования | Размер в ТиБ | Миллиарды страниц | Комментарии |
---|---|---|---|
Ноябрь 2018 г. | 220 | 2.6 | |
Октябрь 2018 г. | 240 | 3.0 | |
Сентябрь 2018 г. | 220 | 2.8 | |
Август 2018 г. | |||
Июль 2018 г. | 255 | 3.25 | |
Июнь 2018 г. | 235 | 3.05 | |
Май 2018 | 215 | 2.75 | |
Апрель 2018 г. | 230 | 3.1 | |
Март 2018 г. | 250 | 3.2 | |
Февраль 2018 г. | 270 | 3.4 | |
Январь 2018 | 270 | 3.4 | |
Декабрь 2017 г. | 240 | 2.9 | |
Ноябрь 2017 г. | 260 | 3.2 | |
Октябрь 2017 г. | 300 | 3.65 | |
Сентябрь 2017 г. | 250 | 3.01 | |
Август 2017 г. | 280 | 3.28 | |
Июль 2017 г. | 240 | 2.89 | |
Июнь 2017 г. | 260 | 3.16 | |
Май 2017 г. | 250 | 2.96 | |
Апрель 2017 г. | 250 | 2.94 | |
Март 2017 г. | 250 | 3.07 | |
Февраль 2017 г. | 250 | 3.08 | |
Январь 2017 г. | 250 | 3.14 | |
Декабрь 2016 г. | - | 2.85 | |
Октябрь 2016 | - | 3.25 | |
Сентябрь 2016 | - | 1.72 | |
Август 2016 г. | - | 1.61 | |
Июль 2016 | - | 1.73 | |
Июнь 2016 | - | 1.23 | |
Май 2016 | - | 1.46 | |
Апрель 2016 г. | - | 1.33 | |
Февраль 2016 г. | - | 1.73 | |
Ноябрь 2015 | 151 | 1.82 | |
Сентябрь 2015 г. | 106 | 1.32 | |
Август 2015 г. | 149 | 1.84 | |
Июль 2015 г. | 145 | 1.81 | |
Июнь 2015 г. | 131 | 1.67 | |
Май 2015 г. | 159 | 2.05 | |
Апрель 2015 г. | 168 | 2.11 | |
Март 2015 г. | 124 | 1.64 | |
Февраль 2015 г. | 145 | 1.9 | |
Январь 2015 | 139 | 1.82 | |
Декабрь 2014 г. | 160 | 2.08 | |
Ноябрь 2014 г. | 135 | 1.95 | |
Октябрь 2014 г. | 254 | 3.7 | |
Сентябрь 2014 г. | 220 | 2.8 | |
Август 2014 г. | 200 | 2.8 | |
Июль 2014 г. | 266 | 3.6 | |
Апрель 2014 г. | 183 | 2.6 | |
Март 2014 г. | 223 | 2.8 | Первое сканирование Nutch |
Январь 2014 | 148 | 2.3 | Сканирование выполняется ежемесячно |
Ноябрь 2013 | 102 | 2 | Данные в формате файла Warc |
Июль 2012 г. | - | - | Данные в формате файла Arc |
Январь 2012 г. | - | - | Набор общедоступных данных веб-сервисов Amazon |
Ноябрь 2011 г. | 40 | 5 | Первая доступность на Amazon |
Премия Norvig Web Data Science Award
В подтверждение с SURFsara, Common Crawl спонсирует премию Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей в Бенилюкс.[13][14] Премия названа в честь Питер Норвиг который также возглавляет судейскую комиссию по присуждению награды.[13]
Рекомендации
- ^ Розанна Ся (5 февраля 2012 г.). «Технический предприниматель Гил Эльбаз добился успеха в Лос-Анджелесе» Лос-Анджелес Таймс. Получено 31 июля, 2014.
- ^ «Гиль Эльбаз и обыкновенный обход». NBC News. 4 апреля 2013 г.. Получено 31 июля, 2014.
- ^ "Итак, вы готовы начать". Получено 2018-06-02.
- ^ Лиза Грин (8 января 2014 г.). «Теперь доступны данные сканирования за зимний период 2013 года». Получено 2 июня, 2018.
- ^ «Стартапы - Гил Эльбаз и Нова Спивак Common Crawl - TWiST # 222». На этой неделе в стартапах. 10 января 2012 г.
- ^ Том Симонит (23 января 2013 г.). «Бесплатная база данных всей сети может породить следующий Google». Обзор технологий MIT. Получено 31 июля, 2014.
- ^ Дженнифер Зайно (13 марта 2012 г.). «Обычное сканирование для добавления новых данных в корзину Amazon Web Services». Семантическая сеть. Архивировано из оригинал 1 июля 2014 г.. Получено 31 июля, 2014.
- ^ а б Дженнифер Зайно (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для пользователей». Семантическая сеть. Архивировано из оригинал 12 августа 2014 г.. Получено 31 июля, 2014.
- ^ а б Дженнифер Зайно (18 декабря 2012 г.). «Пожертвование данных Blekko - большое преимущество для обычного сканирования». Семантическая сеть. Архивировано из оригинал 12 августа 2014 г.. Получено 31 июля, 2014.
- ^ Джордан Мендельсон (20 февраля 2014 г.). "Переход обыкновенного кролика к голышу". Обычное сканирование. Получено 31 июля, 2014.
- ^ Джордан Мендельсон (27 ноября 2013 г.). "Доступны новые данные сканирования!". Обычное сканирование. Получено 31 июля, 2014.
- ^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01.06.2020). «Языковые модели - немногие изучающие». п. 14. arXiv:2005.14165.
большая часть наших данных получена из необработанного Common Crawl с фильтрацией только на основе качества.
- ^ а б Лиза Грин (15 ноября 2012 г.). "Премия Norvig Web Data Science Award". Обычное сканирование. Получено 31 июля, 2014.
- ^ «Премия Norvig Web Data Science Award 2014». Голландский технический центр наук о жизни. Архивировано из оригинал 15 августа 2014 г.. Получено 31 июля, 2014.
внешняя ссылка
- Обычное сканирование в Калифорнии, США
- Общий репозиторий сканирования на GitHub со сканером, библиотеками и примером кода
- Группа обсуждения Common Crawl
- Общий блог сканирования