Сбор данных

Сбор данных это процесс обнаружения закономерностей в больших наборы данных с участием методов на пересечении машинное обучение, статистика, и системы баз данных.^[1] Интеллектуальный анализ данных - это междисциплинарный подполе Информатика и статистика с общей целью извлекать информацию (с помощью интеллектуальных методов) из набора данных и преобразовывать информацию в понятную структуру для дальнейшего использования.^[1]^[2]^[3]^[4] Интеллектуальный анализ данных - это этап анализа процесса «обнаружения знаний в базах данных» или KDD.^[5] Помимо этапа необработанного анализа, он также включает в себя базу данных и управление данными аспекты предварительная обработка данных, модель и вывод соображения, метрики интересности, сложность соображения, постобработка обнаруженных структур, визуализация, и онлайн-обновление.^[1]

Термин «интеллектуальный анализ данных» - это неправильное употребление, поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение (добыча полезных ископаемых) самих данных.^[6] Это также модное слово^[7] и часто применяется к любой форме крупномасштабных данных или обработка информации (коллекция, добыча, складирование, анализ и статистика), а также любое приложение компьютерная система поддержки принятия решений, включая искусственный интеллект (например, машинное обучение) и бизнес-аналитика. Книга Интеллектуальный анализ данных: практические инструменты и методы машинного обучения с использованием Java^[8] (который охватывает в основном материалы по машинному обучению) изначально должен был называться просто Практическое машинное обучение, а срок сбор данных был добавлен только по маркетинговым причинам.^[9] Часто более общие термины (крупномасштабный) анализ данных и аналитика —Или, когда речь идет о реальных методах, искусственный интеллект и машинное обучение- более уместны.

Фактическая задача интеллектуального анализа данных - это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных шаблонов, таких как группы записей данных (кластерный анализ ), необычные записи (обнаружение аномалии ) и зависимости (поиск правил ассоциации, последовательный анализ шаблонов ). Обычно это связано с использованием таких методов базы данных, как пространственные индексы. Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозная аналитика. Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью система поддержки принятия решений. Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, но относятся к общему процессу KDD в качестве дополнительных этапов.

Разница между анализ данных а интеллектуальный анализ данных заключается в том, что анализ данных используется для проверки моделей и гипотез по набору данных, например, для анализа эффективности маркетинговой кампании, независимо от объема данных; В отличие от этого, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления скрытых или скрытых закономерностей в большом объеме данных.^[10]

Связанные термины дноуглубительные работы, ловля данных, и отслеживание данных относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности любых обнаруженных закономерностей. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Этимология

В 1960-х годах статистики и экономисты использовали такие термины, как ловля данных или же дноуглубительные работы сослаться на то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» использовался экономистом столь же критически. Майкл Ловелл в статье, опубликованной в Обзор экономических исследований в 1983 г.^[11]^[12] Ловелл указывает, что практика «маскируется под разными псевдонимами, от« экспериментирования »(положительный) до« рыбалки »или« слежки »(отрицательного).

Период, термин сбор данных появился примерно в 1990 году в сообществе баз данных, как правило, с положительной коннотацией. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных» ™, но поскольку она была зарегистрирована торговой маркой HNC, компании из Сан-Диего, для продвижения своей рабочей станции для интеллектуального анализа данных;^[13] исследователи впоследствии обратились к сбор данных. Другие используемые термины включают археология данных, сбор информации, открытие информации, извлечение знаний, так далее. Григорий Пятецкий-Шапиро придумал термин «открытие знаний в базах данных» для первого семинара по той же теме (КДД-1989) и этот термин стал более популярным в AI и машинное обучение сообщество. Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и в прессе.^[14] В настоящее время условия сбор данных и открытие знаний используются взаимозаменяемо.

В академическом сообществе основные форумы для исследований начались в 1995 году, когда Первая международная конференция по интеллектуальному анализу данных и открытию знаний (КДД-95 ) был начат в Монреале под AAAI спонсорство. Сопредседателем его был Усама Файяд и Рамасами Утурусами. Год спустя, в 1996 году, Усама Файяд запустил журнал Клувера под названием Интеллектуальный анализ данных и обнаружение знаний в качестве главного редактора-учредителя. Позже он начал SIGKDD Информационный бюллетень SIGKDD Explorations.^[15] Конференция KDD International стала главной конференцией высочайшего качества в области интеллектуального анализа данных с уровнем приема исследовательских работ менее 18%. Журнал Интеллектуальный анализ данных и обнаружение знаний является основным исследовательским журналом в данной области.

Фон

Ручное извлечение шаблонов из данные происходило веками. Ранние методы выявления закономерностей в данных включают: Теорема Байеса (1700-е годы) и регрессивный анализ (1800-е годы). Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко увеличили возможности сбора, хранения и обработки данных. В качестве наборы данных выросли в размерах и сложности, прямой «практический» анализ данных все чаще дополняется косвенной, автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети, кластерный анализ, генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е), и опорные векторные машины (1990-е). Интеллектуальный анализ данных - это процесс применения этих методов с целью выявления скрытых закономерностей.^[16] в больших наборах данных. Это ликвидирует разрыв между прикладная статистика и искусственный интеллект (который обычно дает математическую основу), чтобы управление базами данных за счет использования способа хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, что позволяет применять такие методы к постоянно растущим наборам данных.

Процесс

В процесс обнаружения знаний в базах данных (KDD) обычно определяется стадиями:

Выбор
Предварительная обработка
Трансформация
Сбор данных
Интерпретация / оценка.^[5]

Однако существует множество вариаций на эту тему, таких как Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

Деловое понимание
Понимание данных
Подготовка данных
Моделирование
Оценка
Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных.^[17] Единственным другим стандартом интеллектуального анализа данных, названным в этих опросах, был SEMMA. Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных.^[18] Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году.^[19]

Предварительная обработка

Прежде чем можно будет использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, реально присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти шаблоны, но при этом оставаться достаточно кратким, чтобы быть добытым в приемлемый срок. Обычным источником данных является витрина данных или же хранилище данных. Предварительная обработка важна для анализа многомерный наборы данных до интеллектуального анализа данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум и те, у кого отсутствующие данные.

Интеллектуальный анализ данных включает шесть общих классов задач:^[5]

Обнаружение аномалий (обнаружение выбросов / изменений / отклонений) - выявление необычных записей данных, которые могут быть интересны, или ошибок данных, требующих дальнейшего изучения.
Изучение правил ассоциации (моделирование зависимостей) - поиск отношений между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя изучение правил ассоциации, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
Кластеризация - это задача обнаружения групп и структур в данных, которые так или иначе «похожи», без использования известных структур в данных.
Классификация - это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное» или как «спам».
Регресс - пытается найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки отношений между данными или наборами данных.
Обобщение - обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.

Проверка результатов

Пример данных, созданных дноуглубительные работы с помощью бота, управляемого статистиком Тайлером Вигеном, очевидно демонстрируя тесную связь между победой лучшего слова в конкурсе орфографических пчел и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. Сходство тенденций - очевидное совпадение.

Интеллектуальный анализ данных может быть непреднамеренно использован неправильно, и тогда результаты могут оказаться значительными; но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведенный на новой выборке данных и толку мало. Часто это является результатом исследования слишком большого количества гипотез и неправильного выполнения статистическая проверка гипотез. Простая версия этой проблемы в машинное обучение известен как переоснащение, но одна и та же проблема может возникнуть на разных этапах процесса, и, таким образом, разделения на поезд / тест - если оно вообще возможно - может быть недостаточно, чтобы этого не произошло.^[20]

Последний шаг открытия знаний из данных - это проверка того, что шаблоны, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все шаблоны, обнаруженные алгоритмами интеллектуального анализа данных, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоснащение. Чтобы преодолеть это, оценка использует набор тестов данных, на которых алгоритм интеллектуального анализа данных не был обучен. Выученные шаблоны применяются к этому набору тестов, и полученный результат сравнивается с желаемым. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучен на Обучающий набор образцов электронных писем. После обучения выученные шаблоны будут применены к тестируемому набору сообщений электронной почты, в которых он нет был обучен. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например: Кривые ROC.

Если изученные шаблоны не соответствуют желаемым стандартам, впоследствии необходимо повторно оценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если усвоенные шаблоны действительно соответствуют желаемым стандартам, тогда последний шаг - интерпретировать усвоенные шаблоны и превратить их в знания.

Исследование

Ведущим профессиональным органом в этой области является Ассоциация вычислительной техники (ACM) Специальная группа по интересам (SIG) по обнаружению знаний и интеллектуальному анализу данных (SIGKDD ).^[21]^[22] С 1989 года ACM SIG проводит ежегодную международную конференцию и публикует свои труды.^[23] а с 1999 года он издает два раза в год академический журнал под названием «Исследования SIGKDD».^[24]

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

Темы интеллектуального анализа данных также присутствуют во многих конференции по управлению данными / базам данных такие как конференция ICDE, Конференция SIGMOD и Международная конференция по очень большим базам данных

Стандарты

Были предприняты некоторые попытки определить стандарты для процесса интеллектуального анализа данных, например, Европейское соглашение 1999 г. Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM 1.0) и 2004 г. Java Data Mining стандарт (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор остановилась. JDM 2.0 был отозван, не дойдя до окончательной версии.

Для обмена извлеченных моделей - в частности, для использования в прогнозная аналитика - ключевым стандартом является Язык разметки прогнозной модели (PMML), который является XML - язык, разработанный группой интеллектуального анализа данных (DMG) и поддерживаемый в качестве формата обмена многими приложениями интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования - особую задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для покрытия (например) кластеризация подпространств были предложены независимо от DMG.^[25]

Известные применения

Интеллектуальный анализ данных используется везде, где сегодня доступны цифровые данные. Примечательный примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке и надзоре.

Проблемы конфиденциальности и этики

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется с интеллектуальным анализом информации, касающейся поведения людей (этического и прочего).^[26]

Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно Конфиденциальность, законность и этика.^[27] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов, например, в Полная информационная осведомленность Программа или в СОВЕТОВАТЬ, поднял вопрос о конфиденциальности.^[28]^[29]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или шаблоны, которые ставят под угрозу конфиденциальность и обязательства по обеспечению конфиденциальности. Обычно это происходит через агрегирование данных. Агрегирование данных включает в себя объединение данных вместе (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных на индивидуальном уровне выводимой или иным образом очевидной).^[30] Это не интеллектуальный анализ данных как таковой, но результат подготовки данных перед анализом и для его целей. Угроза частной жизни человека вступает в игру, когда данные после компиляции заставляют майнер данных или любое лицо, имеющее доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных лиц, особенно когда данные изначально были анонимными.^[31]^[32]^[33]

Рекомендуется^{[согласно кому? ]} знать следующее перед данные собираются:^[30]

Цель сбора данных и любые (известные) проекты интеллектуального анализа данных;
Как будут использоваться данные;
Кто сможет добывать данные и использовать данные и их производные;
Состояние безопасности доступа к данным;
Как можно обновить собранные данные.

Данные также могут быть изменены таким образом, чтобы становиться анонимно, поэтому личность не может быть легко идентифицирована.^[30] Однако даже «анонимные» наборы данных потенциально могут содержать достаточно информации, чтобы позволить идентифицировать людей, как это произошло, когда журналисты смогли найти нескольких людей на основе набора историй поиска, которые были непреднамеренно опубликованы AOL.^[34]

Непреднамеренное раскрытие личная информация ведущий к поставщику нарушает добросовестную информационную практику. Эта неосмотрительность может причинить указанному лицу финансовые, эмоциональные или телесные повреждения. В одном случае нарушение конфиденциальности, покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям по добыче данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям.^[35]

Ситуация в Европе

Европа имеет довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Тем не менее США–E.U. Принципы безопасной гавани, разработанная в период с 1998 по 2000 год, в настоящее время фактически подвергает европейских пользователей риску использования конфиденциальности компаниями США. Как следствие Эдвард Сноуден с раскрытие информации о глобальном надзоре, было усилено обсуждение вопроса об отзыве этого соглашения, так как, в частности, данные будут полностью доступны для Национальное Агенство Безопасности, а попытки договориться с США не увенчались успехом.^[36]

В частности, в Соединенном Королевстве были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацеливания на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не разбираются в том, как их можно использовать на цифровых рынках.^[37]

Ситуация в США

В Соединенных Штатах вопросы конфиденциальности были решены Конгресс США через прохождение регулирующего контроля, такого как Медицинское страхование Портативность и Акт об ответственности (HIPAA). HIPAA требует, чтобы люди дали свое «осознанное согласие» в отношении информации, которую они предоставляют, и ее предполагаемого использования в настоящем и будущем. Согласно статье в Неделя биотехнологического бизнеса«[в] практике HIPAA не может обеспечить более надежную защиту, чем давно действующие правила в области исследований», - заявляет AAHC. Что еще более важно, цель правила защиты посредством информированного согласия - приблизиться к уровню непонятности для обычных людей. . "^[38] Это подчеркивает необходимость анонимности данных при агрегировании данных и методах интеллектуального анализа.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о семейных правах на образование и неприкосновенность частной жизни (FERPA) применяется только к определенным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не регулируется никаким законодательством.

авторское право

Ситуация в Европе

Под Европейское авторское право и законы базы данных, добыча произведений, охраняемых авторским правом (например, веб-майнинг ) без разрешения правообладателя не является законным. Если база данных представляет собой чистые данные в Европе, может быть, что нет авторских прав, но могут существовать права на базу данных, поэтому интеллектуальный анализ данных становится предметом интеллектуальная собственность права собственников, которые охраняются Директива базы данных. По рекомендации Обзор Харгривза, это привело к тому, что правительство Великобритании в 2014 году внесло поправки в закон об авторском праве, разрешив добычу контента в качестве ограничение и исключение.^[39] Великобритания стала второй страной в мире, которая сделала это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничения Директива информационного общества (2001), исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями.

В Европейская комиссия способствовал обсуждению с заинтересованными сторонами интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы».^[40] Акцент на решении этой правовой проблемы, такой как лицензирование, а не ограничения и исключения, привел к тому, что представители университетов, исследователи, библиотеки, группы гражданского общества и открытый доступ издатели должны выйти из диалога с заинтересованными сторонами в мае 2013 года.^[41]

Ситуация в США

Закон США об авторском праве, и, в частности, его положение о добросовестное использование, поддерживает законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является трансформирующим, то есть не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в составе Расчет Google Book Председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, одним из которых является интеллектуальный анализ текста и данных.^[42]

Программного обеспечения

Бесплатное программное обеспечение и приложения для интеллектуального анализа данных с открытым исходным кодом

Следующие приложения доступны под бесплатными лицензиями / лицензиями с открытым исходным кодом. Также доступен открытый доступ к исходному коду приложения.

Морковь2: Структура кластеризации текста и результатов поиска.
Chemicalize.org: Программа для разработки химических структур и поисковая система в Интернете.
ELKI: Университетский исследовательский проект с продвинутым кластерный анализ и обнаружение выбросов методы, написанные в Ява язык.
ВОРОТА: а обработка естественного языка и инструмент языковой инженерии.
KNIME: Konstanz Information Miner, удобный и комплексный фреймворк для анализа данных.
Массовый онлайн-анализ (MOA): интеллектуальный анализ потоков больших данных в реальном времени с помощью инструмента смещения концепций в Ява язык программирования.
MEPX - кроссплатформенный инструмент для задач регрессии и классификации на основе варианта генетического программирования.
ML-Flex: программный пакет, который позволяет пользователям интегрироваться со сторонними пакетами машинного обучения, написанными на любом языке программирования, выполнять анализ классификации параллельно на нескольких вычислительных узлах и создавать отчеты о результатах классификации в формате HTML.
mlpack: набор готовых алгоритмов машинного обучения, написанных на C ++ язык.
НЛТК (Инструментарий естественного языка ): Набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для Python язык.
OpenNN: Открыть нейронные сети библиотека.
апельсин: Компонентный анализ данных и машинное обучение программный пакет, написанный на Python язык.
р: А язык программирования и программная среда для статистический вычисления, интеллектуальный анализ данных и графика. Это часть Проект GNU.
scikit-learn это библиотека машинного обучения с открытым исходным кодом для языка программирования Python.
Факел: An Открытый исходный код глубокое обучение библиотека для Lua язык программирования и научные вычисления фреймворк с широкой поддержкой машинное обучение алгоритмы.
UIMA: UIMA (Архитектура управления неструктурированной информацией) - это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM.
Weka: Набор программных приложений для машинного обучения, написанных на Ява язык программирования.

Проприетарное программное обеспечение и приложения для интеллектуального анализа данных

Следующие приложения доступны по проприетарным лицензиям.

Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
LIONsolver: интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
Megaputer Intelligence: программное обеспечение для интеллектуального анализа данных и текста называется PolyAnalyst.
Службы Microsoft Analysis Services: программное обеспечение для интеллектуального анализа данных, предоставленное Microsoft.
NetOwl: набор многоязычных продуктов для анализа текста и сущностей, которые позволяют интеллектуальный анализ данных.
Oracle Data Mining: программное обеспечение для интеллектуального анализа данных от Корпорация Oracle.
PSeven: платформа для автоматизации инженерного моделирования и анализа, мультидисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE.
Qlucore Omics Explorer: программа для интеллектуального анализа данных.
RapidMiner: Среда для машинное обучение и эксперименты по интеллектуальному анализу данных.
SAS Enterprise Майнер: программное обеспечение для интеллектуального анализа данных, предоставленное Институт САС.
SPSS Modeler: программное обеспечение для интеллектуального анализа данных, предоставленное IBM.
СТАТИСТИКА Data Miner: программное обеспечение для интеллектуального анализа данных, предоставленное StatSoft.
Танагра: Программное обеспечение интеллектуального анализа данных, ориентированное на визуализацию, в том числе для обучения.
Vertica: программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett Packard.
Облачная платформа Google: автоматизированные пользовательские модели машинного обучения, управляемые Google.
Amazon SageMaker: управляемая услуга, предоставляемая Amazon для создания и производства пользовательских моделей машинного обучения.

Смотрите также

Методы

Домены приложений

Примеры применения

похожие темы

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализируя данные), см .:

Другие источники

Международный журнал хранилищ данных и майнинга

дальнейшее чтение

Кабена, Питер; Хаджнян, Пабло; Стадлер, Рольф; Верхес, Яап; Занаси, Алессандро (1997); Открытие интеллектуального анализа данных: от концепции до реализации, Prentice Hall, ISBN 0-13-743980-6
РС. Чен, Дж. Хан, P.S. Ю (1996) "Интеллектуальный анализ данных: обзор с точки зрения базы данных ". Инженерия знаний и данных, транзакции IEEE на 8 (6), 866–883
Фельдман, Ронен; Сэнгер, Джеймс (2007); Справочник по интеллектуальному анализу текстов, Издательство Кембриджского университета, ISBN 978-0-521-83657-9
Го, Йике; и Гроссман, Роберт (редакторы) (1999); Высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы, Kluwer Academic Publishers
Хан, Цзявэй, Мишлин Камбер и Цзян Пей. Интеллектуальный анализ данных: концепции и методы. Морган Кауфманн, 2006.
Хасти, Тревор, Тибширани, Роберт и Фридман, Джером (2001); Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование, Спрингер, ISBN 0-387-95284-5
Лю, Бинг (2007, 2011); Веб-интеллектуальный анализ данных: изучение гиперссылок, содержимого и данных об использовании, Springer, ISBN 3-540-37881-2
Мерфи, Крис (16 мая 2011 г.). «Есть ли свобода слова при интеллектуальном анализе данных?». Информационная неделя: 12.
Нисбет, Роберт; Старейшина, Джон; Майнер, Гэри (2009); Справочник по приложениям статистического анализа и интеллектуального анализа данных, Академическая пресса / Эльзевьер, ISBN 978-0-12-374765-5
Понселе, Паскаль; Масселья, Флоран; и Teisseire, Maguelonne (редакторы) (октябрь 2007 г.); «Паттерны интеллектуального анализа данных: новые методы и приложения», Справочник по информатике, ISBN 978-1-59904-162-9
Тан, Пан-Нин; Штейнбах, Михаэль; и Кумар, Випин (2005); Введение в интеллектуальный анализ данных, ISBN 0-321-32136-7
Теодоридис, Сергий; и Кутрумбас, Константинос (2009); Распознавание образов, 4-е издание, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M .; и Индуркхья, Нитин (1998); Прогнозный анализ данных, Морган Кауфманн
Виттен, Ян Х.; Франк, Эйбе; Холл, Марк А. (30 января 2011 г.). Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0. (Смотрите также Бесплатное программное обеспечение Weka )
Е, Нонг (2003); Справочник по интеллектуальному анализу данных, Махва, Нью-Джерси: Лоуренс Эрлбаум

внешняя ссылка

[acm-1] а ^б ^c Учебная программа по интеллектуальному анализу данных. ACM SIGKDD. 2006-04-30. Получено 2014-01-27.

[brittanica-2] Клифтон, Кристофер (2010). «Британская энциклопедия: определение интеллектуального анализа данных». Получено 2010-12-09.

[elements-3] Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). «Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование». Архивировано из оригинал на 2009-11-10. Получено 2012-08-07.

[4] Хан, Камбер, Пей, Джайвэй, Мишлин, Цзянь (2011). Data Mining: концепции и методы (3-е изд.). Морган Кауфманн. ISBN 978-0-12-381479-1.CS1 maint: несколько имен: список авторов (связь)

[Fayyad-5] а ^б ^c Файяд, Усама; Пятецкий-Шапиро Григорий; Смит, Padhraic (1996). «От интеллектуального анализа данных к обнаружению знаний в базах данных» (PDF). Получено 17 декабря 2008.

[han-kamber-6] Хан, Цзявэй; Камбер, Мишлен (2001). Интеллектуальный анализ данных: концепции и методы. Морган Кауфманн. п. 5. ISBN 978-1-55860-489-6. Таким образом, интеллектуальный анализ данных правильнее было бы назвать «интеллектуальным анализом знаний из данных», что, к сожалению, несколько длинно.

[7] Осенняя конференция OKAIRP 2005, Университет штата Аризона Архивировано 2014-02-01 в Wayback Machine

[witten-8] Виттен, Ян Х.; Франк, Эйбе; Холл, Марк А. (2011). Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0.

[9] Bouckaert, Remco R .; Франк, Эйбе; Холл, Марка А .; Холмс, Джеффри; Пфарингер, Бернхард; Reutemann, Питер; Виттен, Ян Х. (2010). "WEKA Опыт работы с проектом Java с открытым исходным кодом". Журнал исследований в области машинного обучения. 11: 2533–2541. первоначальное название «Практическое машинное обучение» было изменено ... Термин «интеллектуальный анализ данных» был [добавлен] в основном по маркетинговым причинам.

[10] Олсон, Д. Л. (2007). Интеллектуальный анализ данных в бизнес-сервисах. Сервисный бизнес, 1(3), 181–193. Дои:10.1007 / s11628-006-0014-7

[11] Ловелл, Майкл С. (1983). "Сбор данных". Обзор экономики и статистики. 65 (1): 1–12. Дои:10.2307/1924403. JSTOR 1924403.

[12] Charemza, Wojciech W .; Мертвец, Дерек Ф. (1992). "Сбор данных". Новые направления в эконометрической практике. Олдершот: Эдвард Элгар. С. 14–31. ISBN 1-85278-461-X.

[Mena-13] Мена, Хесус (2011). Криминалистическая экспертиза машинного обучения для правоохранительных органов, безопасности и разведки. Бока-Ратон, Флорида: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

[14] Пятецкий-Шапиро Григорий; Паркер, Гэри (2011). «Урок: интеллектуальный анализ данных и открытие знаний: введение». Введение в интеллектуальный анализ данных. KD Nuggets. Получено 30 августа 2012.

[SIGKDD-explorations-15] Файяд, Усама (15 июня 1999 г.). «Первая редакция главного редактора». SIGKDD Исследования. 13 (1): 102. Дои:10.1145/2207243.2207269. S2CID 13314420. Получено 27 декабря 2010.

[Kantardzic-16] Кантарджич, Мехмед (2003). Data Mining: концепции, модели, методы и алгоритмы. Джон Вили и сыновья. ISBN 978-0-471-22852-3. OCLC 50055336.

[17] Григорий Пятецкий-Шапиро (2002) Опрос по методологии KDnuggets, Григорий Пятецкий-Шапиро (2004) Опрос по методологии KDnuggets, Григорий Пятецкий-Шапиро (2007) Опрос по методологии KDnuggets, Григорий Пятецкий-Шапиро (2014) Опрос по методологии KDnuggets

[kurgan-18] Лукаш Курган и Петр Мусилек: «Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных». Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Дои:10.1017 / S0269888906000737

[AzevedoSantos-19] Азеведо А. и Сантос М. Ф. KDD, SEMMA и CRISP-DM: параллельный обзор Архивировано 2013-01-09 в Wayback Machine. В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.

[hawkins-20] Хокинс, Дуглас М (2004). «Проблема переобучения». Журнал химической информации и компьютерных наук. 44 (1): 1–12. Дои:10.1021 / ci0342472. PMID 14741005.

[21] «Microsoft Academic Search: лучшие конференции по интеллектуальному анализу данных». Microsoft Academic Search.

[22] "Google Scholar: Лучшие публикации - интеллектуальный анализ и анализ данных". Google ученый.

[23] Труды Архивировано 2010-04-30 на Wayback Machine, Международные конференции по открытию знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.

[24] SIGKDD Исследования, ACM, Нью-Йорк.

[25] Гюннеманн, Стефан; Кремер, Харди; Зайдл, Томас (2011). «Расширение стандарта PMML на модели подпространственной кластеризации». Материалы семинара 2011 г. по моделированию языка разметки с предсказанием. п. 48. Дои:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.

[26] Зельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические вопросы» (PDF). Секция государственной статистики ASA. Американская статистическая ассоциация.

[27] Питтс, Чип (15 марта 2007 г.). «Конец незаконного домашнего шпионажа? Не рассчитывай на это». Вашингтон Зритель. Архивировано из оригинал на 2007-11-28.

[28] Тайпале, Ким А. (15 декабря 2003 г.). «Интеллектуальный анализ данных и внутренняя безопасность: соединяем точки для понимания данных». Колумбийский научно-технический обзор права. 5 (2). OCLC 45263753. SSRN 546782.

[29] Ресиг, Джон. «Платформа для разработки служб обмена мгновенными сообщениями» (PDF). Получено 16 марта 2018.

[NASCIO-30] а ^б ^c Подумайте, прежде чем копать: последствия интеллектуального анализа и агрегирования данных для конфиденциальности Архивировано 2008-12-17 на Wayback Machine, Обзор исследований NASCIO, сентябрь 2004 г.

[31] Ом, Пол. "Не создавайте базу данных разорения". Harvard Business Review.

[32] Дарвин Бонд-Грэм, Iron Cagebook - логический конец патентов Facebook, Counterpunch.org, 2013.12.03

[33] Дарвин Бонд-Грэм, Конференция стартапов внутри технологической индустрии, Counterpunch.org, 2013.09.11

[34] Данные поиска AOL идентифицировали людей, SecurityFocus, август 2006 г.

[35] Кшетри, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF). Телекоммуникационная политика. 38 (11): 1134–1145. Дои:10.1016 / j.telpol.2014.10.002.

[36] Weiss, Martin A .; Арчик, Кристин (19 мая 2016 г.). «Конфиденциальность данных в США - ЕС: от Safe Harbor к Privacy Shield» (PDF). Вашингтон, округ Колумбия Исследовательская служба Конгресса США. п. 6. R44257. Получено 9 апреля 2020. 6 октября 2015 г. CJEU ... издал решение, которое аннулировало Safe Harbor (вступает в силу немедленно) в том виде, в каком оно выполняется в настоящее время.

[37] Паркер, Джордж. «Британские компании, нацеленные на использование больших данных для работы с клиентами». Подпишитесь на чтение | Financial Times, Financial Times, 30 сентября 2018 г., www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647.

[38] Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям, Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic

[39] Британские исследователи получили право на интеллектуальный анализ данных в соответствии с новым британским законодательством об авторском праве. Архивировано 9 июня 2014 г. Wayback Machine Out-Law.com. Проверено 14 ноября 2014 г.

[40] «Лицензии для Европы - Структурированный диалог с заинтересованными сторонами 2013». Европейская комиссия. Получено 14 ноября 2014.

[41] «Интеллектуальный анализ текста и данных: важность и необходимость изменений в Европе». Ассоциация европейских исследовательских библиотек. Получено 14 ноября 2014.

[42] "Судья выносит упрощенное судебное решение в пользу Google Книг - победа в справедливом использовании". Lexology.com. Antonelli Law Ltd. Получено 14 ноября 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

Информатика
Примечание. Этот шаблон примерно соответствует модели 2012 г. Система классификации вычислений ACM.
Аппаратное обеспечение	Печатная плата Периферийный Интегральная схема Очень крупномасштабная интеграция Системы на кристалле (SoC) Энергопотребление (Зеленые вычисления) Автоматизация электронного проектирования Аппаратное ускорение
Компьютерные системы организация	Компьютерная архитектура Встроенная система Вычисления в реальном времени Надежность
Сети	Сетевая архитектура Сетевой протокол Сетевые компоненты Сетевой планировщик Оценка производительности сети Сетевая служба
Организация программного обеспечения	Устный переводчик Промежуточное ПО Виртуальная машина Операционная система Качество программного обеспечения
Обозначения программного обеспечения и инструменты	Парадигма программирования Язык программирования Компилятор Доменный язык Язык моделирования Программный фреймворк Интегрированная среда развития Управление конфигурацией программного обеспечения Библиотека программного обеспечения Репозиторий программного обеспечения
Разработка программного обеспечения	Управляющая переменная Процесс разработки программного обеспечения Анализ требований Разработка программного обеспечения Разработка программного обеспечения Развертывание программного обеспечения Сопровождение программного обеспечения Команда программистов Модель с открытым исходным кодом
Теория вычислений	Модель вычисления Формальный язык Теория автоматов Теория вычислимости Теория вычислительной сложности Логика Семантика
Алгоритмы	Разработка алгоритма Анализ алгоритмов Алгоритмическая эффективность Рандомизированный алгоритм Вычислительная геометрия
Математика вычислений	Дискретная математика Вероятность Статистика Математическое программное обеспечение Теория информации Математический анализ Числовой анализ
Информация системы	Система управления базами данных Системы хранения информации Информационная система предприятия Социальные информационные системы Географическая информационная система Система поддержки принятия решений Система управления технологическим процессом Мультимедийная информационная система Сбор данных Цифровая библиотека Вычислительная платформа Цифровой маркетинг Всемирная паутина Поиск информации
Безопасность	Криптография Формальные методы Охранные услуги Система обнаружения вторжений Аппаратная безопасность Сетевая безопасность Информационная безопасность Безопасность приложений
Человек – компьютер взаимодействие	Интерактивный дизайн Социальные вычисления Повсеместные вычисления Визуализация Доступность
Параллелизм	Параллельные вычисления Параллельные вычисления Распределенных вычислений Многопоточность Многопроцессорность
Искусственный интеллект	Обработка естественного языка Представление знаний и рассуждения Компьютерное зрение Автоматизированное планирование и составление графиков Методология поиска Метод контроля Философия искусственного интеллекта Распределенный искусственный интеллект
Машинное обучение	Контролируемое обучение Обучение без учителя Обучение с подкреплением Многозадачное обучение Перекрестная проверка
Графика	Анимация Рендеринг Обработка изображений Блок обработки графики Смешанная реальность Виртуальная реальность Сжатие изображения Твердотельное моделирование
Применяемый вычисление	Электронная коммерция Корпоративное программное обеспечение Вычислительная математика Вычислительная физика Вычислительная химия Вычислительная биология Вычислительная социальная наука Вычислительная инженерия Компьютерное здравоохранение Цифровое искусство Электронное издание Кибервойна Электронное голосование Видеоигры Обработка текста Исследование операций Образовательные технологии Управление документами
Книга Категория Контур ВикиПроект Commons

Сбор данных - Data mining

Содержание

Этимология

Фон

Процесс

Предварительная обработка