StormCrawler - StormCrawler
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Разработчики) | DigitalPebble, Ltd. |
---|---|
изначальный выпуск | 11 сентября 2014 г. |
Стабильный выпуск | 1.16 / 16 января 2020 г. |
Репозиторий | |
Написано в | Ява |
Тип | Поисковый робот |
Лицензия | Лицензия Apache |
Интернет сайт | штурмовик |
StormCrawler является Открытый исходный код сбор ресурсов для построения с малой задержкой, масштабируемый поисковые роботы наApache Storm. Он предоставляется в Лицензия Apache и написан в основном на Java (язык программирования).
StormCrawler имеет модульную структуру и состоит из основного модуля, который обеспечивает основные строительные блоки веб-сканера, такие как выборка, анализ и фильтрация URL-адресов. Помимо основных компонентов, проект также предоставляет внешние ресурсы, такие как, например, носик и болты для Elasticsearch и Apache Solr или ParserBolt, который использует Апач Тика для анализа различных форматов документов.
Проект используется в производстве различными компаниями.[1]
Linux.com опубликовал в октябре 2016 года вопросы и ответы с автором StormCrawler.[2] InfoQ провела один в декабре 2016 года.[3] Сравнительный тест с Apache Nutch был опубликован в январе 2017 года на сайте dzone.com.[4]
В нескольких исследовательских работах упоминалось использование StormCrawler в 2018 году, в частности:
- Создание многомиллионного корпуса персидского языка.[5]
- СИРЕНА - поиск и извлечение информации о безопасности eNgine.[6]
Проект WIKI содержит список видео и слайдов, доступных в Интернете.[7]
StormCrawler в основном используется Обычное сканирование[8] для создания большого и общедоступного набора данных.
Смотрите также
Рекомендации
- ^ "На основе · DigitalPebble / Storm-Crawler Wiki · GitHub". Github.com. 2017-03-02. Получено 2017-04-19.
- ^ "StormCrawler: SDK с открытым исходным кодом для создания веб-сканеров с помощью ApacheStorm | Linux.com | Источник информации о Linux". Linux.com. 2016-10-12. Получено 2017-04-19.
- ^ "Жюльен Ниош о StormCrawler, конвейерах краулера с открытым исходным кодом при поддержке Apache Storm". Infoq.com. 2016-12-15. Получено 2017-04-19.
- ^ "Битва краулеров: Apache Nutch против StormCrawler - DZone Big Data". Dzone.com. Получено 2017-04-19.
- ^ «МирасТекст: автоматически сгенерированный корпус текста для персидского языка».
- ^ Санагаварапу, Лалит Мохан; Матур, Нирадж; Агравал, Шриянш; Редди, Ю. Рагху (2018). Достижения в области поиска информации. Конспект лекций по информатике. 10772. С. 811–814. Дои:10.1007/978-3-319-76941-7_81. ISBN 978-3-319-76940-0.
- ^ «Презентации · DigitalPebble / Storm-Crawler Wiki · GitHub». Github.com. 2017-04-04. Получено 2017-04-19.
- ^ http://commoncrawl.org/2016/10/news-dataset-available/