Интеграция веб-данных - Википедия - Web data integration

Интеграция веб-данных (WDI) - это процесс объединения и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, отображение, контроль качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются "веб-данные ". WDI - это расширение и специализация интеграция данных который рассматривает Интернет как набор разнородных баз данных.

Методы интеграции данных в контексте Интернета формируют основу для предприятий, использующих данные, доступные на постоянно увеличивающемся количестве общедоступных веб-сайтов.[1] Корпоративные расходы в этой области составили около 2,5 млрд долларов США в 2017 году, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США.[2]

Источники

Интеграция веб-данных расширяет и специализирует интеграцию данных, чтобы видеть в Интернете набор представлений баз данных, доступных через веб-протоколы, включая, но не ограничиваясь:[3]

  • Каталоги открытых данных
  • Каталоги государственных данных
  • Веб-приложения и сайты
  • Семантическая сеть (SPARQL)
  • HTML встроенные структурированные данные
  • Таблицы данных HTML
  • Таблицы
  • PDF-файлы
  • Интернет-энциклопедии

Доступ к данным и преобразование

У WDI есть технические проблемы, отличные от интеграции данных из-за доступа к данным и преобразования, необходимых для веб-данные источники часто неструктурированный или же полуструктурированный данные без стандартного механизма запросов.

Качество данных

Понимание качества и правдивости данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее косвенно доверены и имеют более низкое качество, чем данные, собранные из надежного источника. Есть попытки автоматизировать рейтинг доверия для веб-данных.[4]

Качество данных при интеграции данных обычно может быть достигнуто после доступа к данным и преобразования, но качество WDI может потребоваться контролировать по мере сбора данных из-за как времени, так и затрат на повторный сбор данных.

Приложения

WDI имеет применение во многих областях, включая биоинформатику,[5] поисковые системы,[6] сравнение цен,[7] и судебно-медицинский поиск[8] анализ данных, бизнес-аналитика, здравоохранение, фармацевтика[9] и разработка продукта.

Большинство систем сравнения цен и систем рекомендаций используют данные, созданные пользователями, для создания рекомендаций для своих пользователей. Аналогичным образом системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle.[10] чтобы видеть точность данных и создавать продукты, ориентированные на пользователя. Фактически, по оценкам IBM, некачественный WDI обходится компаниям более чем в 3 триллиона долларов.[11] дохода каждый год.

Рекомендации

  1. ^ "Интеграция веб-данных IE 670". www.uni-mannheim.de. 2019-01-24. Получено 2019-02-11.
  2. ^ "Opimas: рынок извлечения веб-данных". Опимас: Начнем с понимания. Получено 2019-02-12.
  3. ^ «Введение :: Интеграция веб-данных». www.webdataintegration.io. Получено 2019-02-14.
  4. ^ Хименес-Гарсия, Хосе М .; Таккар, суровый; Циммерманн, Антуан (2016). «Оценка доверия с помощью PageRank в сети данных». В мешке, Харальд; Риццо, Джузеппе; Стейнмец, Надин; Младенич, Дунья; Ауэр, Сорен; Ланге, Кристоф (ред.). Семантическая сеть. Конспект лекций по информатике. 9989. Издательство Springer International. С. 293–307. Дои:10.1007/978-3-319-47602-5_45. ISBN  9783319476025.
  5. ^ «Интеграция веб-данных». Database Group Лейпциг.
  6. ^ «Интеграция данных в веб-масштабе - вы можете позволить себе платить только по мере использования». www.datascienceassn.org. Получено 2019-02-12.
  7. ^ Сигел, Майкл Д .; Мэдник, Стюарт Э .; Чжу, Хунвэй (2008). «Обеспечение возможности глобального сравнения цен за счет семантической интеграции веб-данных». Международный журнал электронного бизнеса. 6 (4): 319. Дои:10.1504 / IJEB.2008.020672. HDL:1721.1/40084. S2CID  7995576. Получено 2019-02-12.
  8. ^ «PwC покупает Kusiri, лондонский стартап по обнаружению мошенничества». www.consultancy.uk. 2015-10-30. Получено 2019-02-12.
  9. ^ «Как интеграция данных меняет здравоохранение и фармацевтику». Информация об интеграции данных. 2020-04-27. Получено 2020-05-04.
  10. ^ "Kaggle: ваше сообщество машинного обучения и науки о данных". www.kaggle.com. Получено 2020-05-04.
  11. ^ Import.io. «Интеграция веб-данных: революционный подход к работе с веб-данными». www.import.io. Получено 2020-05-04.