Интеграция веб-данных - Википедия - Web data integration
Интеграция веб-данных (WDI) - это процесс объединения и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, отображение, контроль качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются "веб-данные ". WDI - это расширение и специализация интеграция данных который рассматривает Интернет как набор разнородных баз данных.
Методы интеграции данных в контексте Интернета формируют основу для предприятий, использующих данные, доступные на постоянно увеличивающемся количестве общедоступных веб-сайтов.[1] Корпоративные расходы в этой области составили около 2,5 млрд долларов США в 2017 году, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США.[2]
Источники
Интеграция веб-данных расширяет и специализирует интеграцию данных, чтобы видеть в Интернете набор представлений баз данных, доступных через веб-протоколы, включая, но не ограничиваясь:[3]
- Каталоги открытых данных
- Каталоги государственных данных
- Веб-приложения и сайты
- UI (веб-скрапинг )
- API
- Семантическая сеть (SPARQL)
- HTML встроенные структурированные данные
- Таблицы данных HTML
- Таблицы
- PDF-файлы
- Интернет-энциклопедии
Доступ к данным и преобразование
У WDI есть технические проблемы, отличные от интеграции данных из-за доступа к данным и преобразования, необходимых для веб-данные источники часто неструктурированный или же полуструктурированный данные без стандартного механизма запросов.
Качество данных
Понимание качества и правдивости данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее косвенно доверены и имеют более низкое качество, чем данные, собранные из надежного источника. Есть попытки автоматизировать рейтинг доверия для веб-данных.[4]
Качество данных при интеграции данных обычно может быть достигнуто после доступа к данным и преобразования, но качество WDI может потребоваться контролировать по мере сбора данных из-за как времени, так и затрат на повторный сбор данных.
Приложения
WDI имеет применение во многих областях, включая биоинформатику,[5] поисковые системы,[6] сравнение цен,[7] и судебно-медицинский поиск[8] анализ данных, бизнес-аналитика, здравоохранение, фармацевтика[9] и разработка продукта.
Большинство систем сравнения цен и систем рекомендаций используют данные, созданные пользователями, для создания рекомендаций для своих пользователей. Аналогичным образом системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle.[10] чтобы видеть точность данных и создавать продукты, ориентированные на пользователя. Фактически, по оценкам IBM, некачественный WDI обходится компаниям более чем в 3 триллиона долларов.[11] дохода каждый год.
Рекомендации
- ^ "Интеграция веб-данных IE 670". www.uni-mannheim.de. 2019-01-24. Получено 2019-02-11.
- ^ "Opimas: рынок извлечения веб-данных". Опимас: Начнем с понимания. Получено 2019-02-12.
- ^ «Введение :: Интеграция веб-данных». www.webdataintegration.io. Получено 2019-02-14.
- ^ Хименес-Гарсия, Хосе М .; Таккар, суровый; Циммерманн, Антуан (2016). «Оценка доверия с помощью PageRank в сети данных». В мешке, Харальд; Риццо, Джузеппе; Стейнмец, Надин; Младенич, Дунья; Ауэр, Сорен; Ланге, Кристоф (ред.). Семантическая сеть. Конспект лекций по информатике. 9989. Издательство Springer International. С. 293–307. Дои:10.1007/978-3-319-47602-5_45. ISBN 9783319476025.
- ^ «Интеграция веб-данных». Database Group Лейпциг.
- ^ «Интеграция данных в веб-масштабе - вы можете позволить себе платить только по мере использования». www.datascienceassn.org. Получено 2019-02-12.
- ^ Сигел, Майкл Д .; Мэдник, Стюарт Э .; Чжу, Хунвэй (2008). «Обеспечение возможности глобального сравнения цен за счет семантической интеграции веб-данных». Международный журнал электронного бизнеса. 6 (4): 319. Дои:10.1504 / IJEB.2008.020672. HDL:1721.1/40084. S2CID 7995576. Получено 2019-02-12.
- ^ «PwC покупает Kusiri, лондонский стартап по обнаружению мошенничества». www.consultancy.uk. 2015-10-30. Получено 2019-02-12.
- ^ «Как интеграция данных меняет здравоохранение и фармацевтику». Информация об интеграции данных. 2020-04-27. Получено 2020-05-04.
- ^ "Kaggle: ваше сообщество машинного обучения и науки о данных". www.kaggle.com. Получено 2020-05-04.
- ^ Import.io. «Интеграция веб-данных: революционный подход к работе с веб-данными». www.import.io. Получено 2020-05-04.