Информатика населения - Википедия - Population informatics

Поле информатика населения систематическое изучение популяций посредством вторичного анализа массивных коллекций данных (так называемое "большое количество данных ") о людях. Ученые в этой области называют этот массивный сбор данных социальный геном, обозначающий коллективный цифровой след нашего общества. Применяется информатика населения наука о данных к данным социального генома, чтобы ответить на фундаментальные вопросы о человеческом обществе и здоровье населения, как и биоинформатика применяет науку о данных к человеческий геном данные, чтобы ответить на вопросы об индивидуальном здоровье. Это новая область исследований на пересечении SBEH (социальных, поведенческих, экономических и медицинских) наук, информатики и статистики, в которой количественные методы и вычислительные инструменты используются для ответа на фундаментальные вопросы о нашем обществе.

Data Science

Биоинформатика

Информатика населения

Вступление

История

Термин впервые был использован в августе 2012 года, когда Лаборатория информатики населения была основана в Университете Северной Каролины в Чапел-Хилл. Термин был впервые определен в рецензируемой статье в 2013 году.^[1] и более подробно описано в другой статье в 2014 году.^[2] Первый Семинар по демографической информатике для больших данных была проведена на конференции ACM SIGKDD в Сиднее, Австралия, в августе 2015 года.

Цели

Изучать социальные, поведенческие, экономические науки и науки о здоровье с использованием массивных коллекций данных, также известных как социальный геном данные, о людях. Основная цель популяционной информатики - улучшить понимание социальных процессов путем разработки и применения вычислительно-ресурсоемких методов к социальный геном данные.

Некоторые из важных суб-дисциплин:

Бизнес-аналитика
Социальные вычисления: анализ данных социальных сетей
Информатика политики
Информатика общественного здравоохранения
Вычислительная журналистика
Вычислительная транспортная наука
Вычислительная эпидемиология
Вычислительная экономика
Вычислительная социология
Вычислительная социология

Подходы

Запись связи, задача поиска записей в наборе данных, которые относятся к одному и тому же объекту в разных источниках данных, является основным видом деятельности в области популяционной информатики, потому что большая часть цифровых следов людей фрагментирована во многих разнородных базах данных, которые необходимо связать перед анализом можно сделать.

После того, как соответствующие наборы данных связаны, следующей задачей обычно является разработка обоснованных значимых показателей для ответа на вопрос исследования. Часто разработка показателей включает в себя итерацию между индуктивным и дедуктивным подходами с данными и вопросом исследования до тех пор, пока не будут разработаны пригодные для использования меры, потому что данные были собраны для других целей без предполагаемого использования для ответа на поставленный вопрос. Разработка значимых и полезных показателей на основе существующих данных является серьезной проблемой во многих исследовательских проектах. В области вычислений эти меры часто называют характеристиками.

Наконец, когда наборы данных связаны и разработаны необходимые меры, аналитический набор данных готов для анализа. Общие методы анализа включают традиционные исследования, основанные на гипотезах, а также более индуктивные подходы, такие как наука о данных и прогнозная аналитика.

Отношение к другим полям

Вычислительная социология относится к академическим субдисциплинам, связанным с вычислительными подходами в социальных науках. Это означает, что компьютеры используются для моделирования, моделирования и анализа социальных явлений. Поля включают вычислительная экономика и вычислительная социология. Основополагающая статья по вычислительной социальной науке принадлежит Lazer et al. 2009 г.^[3] это было резюме семинара, проведенного в Гарварде с тем же названием. Однако в статье нет точного определения термина «вычислительная социальная наука».

В целом, вычислительная социальная наука - это более широкая область, охватывающая популяционную информатику. Помимо популяционной информатики, он также включает в себя комплексные симуляции социальных явлений. Часто сложные имитационные модели используют результаты информатики населения для настройки параметров реального мира.

Наука о данных для социального блага (DSSG) - еще одна развивающаяся похожая область. Но опять же, DSSG - это более крупная область применения науки о данных к любой социальной проблеме, которая включает изучение человеческих популяций, но также и многих проблем, которые не используют никаких данных о людях.

Реконструкция населения - это междисциплинарная область для реконструкции конкретных (исторических) популяций путем связывания данных из различных источников, что приводит к богатым новым ресурсам для изучения социологами.^[4]

Связанные группы и семинары

Первый Семинар по демографической информатике для больших данных был проведен на конференции ACM SIGKDD в Сиднее, Австралия, в 2015 году. В семинаре приняли участие исследователи в области компьютерных наук, а также практики и исследователи в области общественного здравоохранения. Эта страница в Википедии началась на семинаре.

В Международная сеть передачи данных о населении (IPDLN) облегчает связь между центрами, специализирующимися на связывании данных, и пользователями связанных данных. Как производители, так и пользователи привержены систематическому применению связи данных для обеспечения общественной пользы в областях, связанных со здоровьем и населением.

Вызовы

Три основные проблемы, характерные для популяционной информатики:

Сохранение конфиденциальности субъектов данных - из-за растущей озабоченности по поводу конфиденциальности и конфиденциальности совместное использование или обмен конфиденциальными данными о субъектах между различными организациями часто не допускается. Следовательно, информатика населения должна применяться к зашифрованным данным или в условиях сохранения конфиденциальности.^[1]^[5]^[6]
Необходимость в границах ошибок для результатов - поскольку данные реального мира часто содержат ошибки, необходимо использовать границы ошибок (для приблизительного сопоставления), чтобы на основе этих результатов можно было принимать реальные решения, которые имеют прямое влияние на людей.^[7]^[8] Также важно исследование распространения ошибок во всем конвейере данных от интеграции данных до окончательного анализа.^[9]
Масштабируемость - базы данных постоянно увеличиваются в размерах, что делает популяционную информатику дорогостоящей с точки зрения объема и количества источников данных.^[10] Необходимо разработать масштабируемые алгоритмы для обеспечения эффективных и практичных приложений демографической информатики в контексте реального мира.

Смотрите также

внешняя ссылка

[:0-1] а ^б Кум, Хе-Чунг; Ахальт, Стэнли (1 января 2013 г.). «Конфиденциальность по дизайну: понимание моделей доступа к вторичным данным». Совместные саммиты AMIA по трансляционным научным трудам Саммит AMIA по трансляционным наукам. 2013: 126–130. ISSN 2153-4063. ЧВК 3845756. PMID 24303251.

[2] Кум, Хе-Чунг; Кришнамурти, А .; Machanavajjhala, A .; Ахалт, Южная Каролина (2014-01-01). «Социальный геном: использование больших данных для популяционной информатики». Компьютер. 47 (1): 56–63. Дои:10.1109 / MC.2013.405. ISSN 0018-9162.

[3] Лазер, Дэвид; Пентланд, Алекс (Сэнди); Адамич, Лада; Арал, Синан; Барабаши, Альберт Ласло; Брюэр, Девон; Кристакис, Николас; Подрядчик, Ношир; Фаулер, Джеймс (2009-02-06). «Жизнь в сети: наступающая эра вычислительной социальной науки». Наука. 323 (5915): 721–723. Дои:10.1126 / science.1167742. ISSN 0036-8075. ЧВК 2745217. PMID 19197046.

[4] Bloothooft, G .; Christen, P .; Mandemakers, K .; Шрааген, М. (2015). Реконструкция населения - Springer. Дои:10.1007/978-3-319-19884-2. ISBN 978-3-319-19883-5.

[5] Динуша Вацалан, Питер Кристен и Василиос С. Верикиос. «Таксономия методов связывания записей с сохранением конфиденциальности». Журнал информационных систем (Elsevier), 38 (6): 946-969, 2013. DOI: 10.1016 / j.is.2012.11.005

[6] Кум, Хе-Чунг; Кришнамурти, Ашок; Machanavajjhala, Ashwin; Рейтер, Майкл К; Ахальт, Стэнли (01.03.2014). "Сохранение конфиденциальности интерактивной привязки записей (PPIRL)". Журнал Американской ассоциации медицинской информатики. 21 (2): 212–220. Дои:10.1136 / amiajnl-2013-002165. ISSN 1067-5027. ЧВК 3932473. PMID 24201028.

[7] Питер Кристен. «Сопоставление данных - концепции и методы для связывания записей, разрешения сущностей и обнаружения дубликатов». Системы и приложения, ориентированные на данные (Springer), 2012 г. DOI: 10.1007 / 978-3-642-31164-2

[8] Питер Кристен, Динуша Вацалан и Чжичун Фу. "Расширенные методы связывания записей и аспекты конфиденциальности для реконструкции населения - обзор и тематические исследования ". Population Reconstruction: 87-110 (Springer) 2015. DOI: 10.1007 / 978-3-319-19884-2_5

[9] Lahiri, P .; Ларсен, Майкл Д. (2005-03-01). «Регрессионный анализ со связанными данными». Журнал Американской статистической ассоциации. 100 (469): 222–230. CiteSeerX 10.1.1.143.1706. Дои:10.1198/016214504000001277. JSTOR 27590532.

[10] Тилина Ранбадуге, Динуша Ватсалан и Питер Кристен. «Масштабируемое индексирование на основе кластеризации для многосторонней связи с сохранением конфиденциальности записей». PAKDD: 549-561 (Springer) 2015 г. DOI: 10.1007 / 978-3-319-18032-8_43

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]