Анализ онлайн-контента - Википедия - Online content analysis

Анализ онлайн-контента или же онлайн-анализ текста относится к набору исследовательских методов, используемых для описания онлайн-материалов и выводов о них посредством систематического кодирования и интерпретации. Анализ онлайн-контента - это форма Анализ содержания для анализа Интернет-коммуникаций.

История и определение

Контент-анализ как систематическое изучение и интерпретация коммуникации восходит как минимум к 17 веку. Тем не менее, так было до подъема газета В начале 20 века массовое производство печатных материалов вызвало потребность в количественном анализе печатных слов.[1]

Определение Берельсона (1952) обеспечивает основу для текстового анализа как «исследовательской техники для объективного, систематического и количественного описания явного содержания коммуникации».[2] Контент-анализ состоит из категоризации единиц текстов (то есть предложений, квази-предложений, абзацев, документов, веб-страниц и т. Д.) В соответствии с их существенными характеристиками, чтобы построить набор данных, который позволяет аналитику интерпретировать тексты и делать выводы. Хотя контент-анализ часто количественный, исследователи концептуализируют эту технику как смешанные методы потому что текстовое кодирование требует высокой степени качественный интерпретация.[3] Социологи использовали эту технику для исследования вопросов, касающихся СМИ,[1] медиа эффекты[4] и Формирование повестки дня.[5]

С развитием онлайн-коммуникации методы контент-анализа были адаптированы и применены к Интернет-исследования. Как и с появлением газет, распространение онлайн-контента предоставляет расширенные возможности для исследователей, заинтересованных в контент-анализе. В то время как использование онлайн-источников представляет новые исследовательские проблемы и возможности, основная исследовательская процедура онлайн-анализа контента, описанная McMillan (2000), практически неотличима от контент-анализа с использованием офлайн-источников:

  1. Сформулируйте исследовательский вопрос с акцентом на выявление проверяемых гипотез, которые могут привести к теоретическому прогрессу.
  2. Определить основа выборки что образец будет взят из, и построить образец (часто называемый «корпусом») контента для анализа.
  3. Разработайте и внедрите схему кодирования, которая может использоваться для категоризации контента, чтобы ответить на вопрос, определенный на шаге 1. Это требует указания периода времени, единицы контекста, в которую внедряется контент, и единицы кодирования, которая классифицирует контент.
  4. Обучите программистов последовательному внедрению схемы кодирования и проверке надежность среди кодеров. Это ключевой шаг в обеспечении воспроизводимость анализа.
  5. Анализируйте и интерпретируйте данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании, представленном в наборе данных.

Контент-анализ в интернет-исследованиях

С момента появления онлайн-общения ученые обсуждали, как адаптировать методы анализа текста для изучения веб-контента. Природа онлайн-источников требует особого внимания на многих этапах контент-анализа по сравнению с офлайн-источниками.

В то время как автономный контент, такой как печатный текст, остается статичным после создания, онлайн-контент может часто меняться. Динамический характер онлайн-материалов в сочетании с большим и постоянно увеличивающимся объемом онлайн-контента может затруднить построение основы выборки, на основе которой можно составить случайную выборку. Контент сайта также может различаться у разных пользователей, что требует тщательного определения основы выборки. Некоторые исследователи использовали поисковые системы для построения рамок выборки. Этот метод имеет недостатки, так как результаты поисковых систем бессистемны и не случайны, что делает их ненадежными для получения объективной выборки. Проблемы с рамкой выборки можно обойти, используя всю интересующую нас совокупность, например твиты отдельных пользователей Twitter.[6] или онлайновое архивное содержание определенных газет в качестве основы выборки.[7] Изменения в онлайн-материалах могут усложнить категоризацию контента (шаг 3). Поскольку онлайн-контент может часто меняться, особенно важно отметить период времени, в течение которого собирается образец. Полезный шаг - заархивировать образец содержимого, чтобы предотвратить внесение изменений.

Интернет-контент также является нелинейным. Печатный текст имеет четко очерченные границы, которые можно использовать для определения контекстных единиц (например, газетная статья). Границы онлайн-контента, который будет использоваться в выборке, определить труднее. Ранние аналитики онлайн-контента часто определяли «веб-сайт» в качестве единицы контекста, не имея четкого определения того, что они имели в виду.[2] Исследователи рекомендуют четко и последовательно определять, из чего состоит «веб-страница», или уменьшать размер единицы контекста до функции на веб-сайте.[2][3] Исследователи также использовали более дискретные единицы онлайн-коммуникации, такие как веб-комментарии.[8] или твиты.[6]

Кинг (2008) использовал онтологию терминов, полученную из многих тысяч предварительно классифицированных документов, для анализа тематики ряда поисковых систем.[9]

Автоматический контент-анализ

Рост онлайн-контента резко увеличил количество цифрового текста, который можно использовать в исследованиях. Количество доступного текста побудило к методологическим инновациям, чтобы разобраться в текстовых наборах данных, которые слишком велики, чтобы их можно было практически вручную кодировать, как это было в традиционной методологической практике.[3][7] Достижения в методологии вместе с увеличением емкости и снижением затрат на вычисления позволили исследователям использовать методы, которые ранее были недоступны для анализа больших наборов текстового контента.

Автоматический контент-анализ представляет собой небольшое отклонение от процедуры онлайн-контент-анализа McMillan в том, что кодеры-люди дополняются вычислительным методом, и некоторые из этих методов не требуют определения категорий на более высоком уровне. В моделях количественного анализа текста часто используются методы «набора слов», которые удаляют порядок слов, удаляют слова, которые очень распространены и очень необычны, и упрощают слова с помощью лемматизация или же остановка который уменьшает размерность текста за счет сокращения сложных слов до их корневого слова.[10] Хотя эти методы принципиально редукционистские в том, как они интерпретируют текст, они могут быть очень полезны, если правильно применяются и проверяются.

Гриммер и Стюарт (2013) выделяют две основные категории автоматического текстового анализа: под наблюдением и без присмотра методы.Контролируемые методы включают создание схемы кодирования и ручное кодирование подвыборки документов, которые исследователь хочет проанализировать. В идеале подвыборка, называемая «обучающей выборкой», является репрезентативной для выборки в целом. Кодированный обучающий набор затем используется для «обучения» алгоритма тому, как слова в документах соответствуют каждой категории кодирования. Алгоритм может применяться для автоматического анализа оставшихся в корпусе документов.[10]

  • Методы словаря: исследователь предварительно выбирает набор ключевых слов (н-грамм ) для каждой категории. Затем машина использует эти ключевые слова для классификации каждой текстовой единицы по категории.
  • Индивидуальные методы: исследователь предварительно маркирует образец текстов и обучает машинное обучение алгоритм (т.е. Алгоритм SVM ) используя эти ярлыки. Машина маркирует оставшиеся наблюдения, экстраполируя информацию из обучающей выборки.
  • Методы ансамбля: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные несколько меток для маркировки остальных наблюдений (подробнее см. Collingwood and Wiklerson 2011).[11]
  • Контролируемое идеологическое масштабирование (то есть баллы по словам) используется для размещения различных текстовых единиц в идеологическом континууме. Исследователь выбирает два набора текстов, представляющих каждую идеологическую крайность, которые алгоритм может использовать для определения слов, принадлежащих каждой крайней точке. Остальные тексты в корпусе масштабируются в зависимости от того, сколько слов каждой крайней ссылки они содержат.[12]

Неконтролируемые методы может использоваться, когда набор категорий для кодирования не может быть четко определен до анализа. В отличие от контролируемых методов, люди-программисты не обязаны обучать алгоритм. Одним из ключевых вариантов для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов, а не определение категорий заранее.

  • Модели единого членства: эти модели автоматически группируют тексты в разные категории, которые являются взаимоисключающими, а документы кодируются в одну и только одну категорию. Как указали Гриммер и Стюарт (16), «каждый алгоритм имеет три компонента: (1) определение сходства документов или расстояния; (2) целевая функция, которая реализует идеальную кластеризацию; и (3) алгоритм оптимизации».[10]
  • Модели смешанного членства: согласно также Гриммеру и Стюарту (17), модели смешанного членства «улучшают результаты моделей с одним членством, включая дополнительную структуру, специфичную для конкретной задачи».[10] Модели смешанного членства FAC классифицируют отдельные слова в каждом документе по категориям, что позволяет документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один из примеров FAC смешанного членства, который может использоваться для анализа изменений в фокусе политических субъектов[6] или газетные статьи.[7] Одним из наиболее часто используемых методов тематического моделирования является LDA.
  • Неконтролируемое идеологическое масштабирование (то есть словесная рыба): алгоритмы, которые выделяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от контролируемых методов масштабирования, таких как оценки слов, такие методы, как wordfish[13] не требуют, чтобы исследователь предоставлял образцы крайних идеологических текстов.

Проверка

Результаты контролируемых методов могут быть проверены путем рисования отдельной подвыборки корпуса, называемой «набором проверки». Документы в наборе для проверки можно кодировать вручную и сравнивать с результатами автоматического кодирования, чтобы оценить, насколько хорошо алгоритм воспроизводит кодирование человека. Это сравнение может принимать форму оценок надежности между кодировщиками, подобных тем, которые используются для проверки согласованности кодировщиков, выполняемых людьми, в традиционном текстовом анализе.

Валидация неконтролируемых методов может осуществляться несколькими способами.

  • Семантический (или внутренний ) достоверность показывает, насколько хорошо документы в каждом идентифицированном кластере представляют отдельную категориальную единицу. В тематической модели это будет степень, в которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить, создав набор проверки, который люди-программисты используют для ручной проверки выбора темы или взаимосвязи документов внутри кластера по сравнению с документами из разных кластеров.
  • Прогнозирующий (или внешний ) достоверность - это степень, в которой изменения частоты каждого кластера могут быть объяснены внешними событиями. Если группы тем допустимы, наиболее важные темы должны реагировать во времени предсказуемым образом в результате происходящих внешних событий.

Проблемы онлайн-анализа текста

Несмотря на непрерывную эволюцию текстового анализа в социальных науках, все еще остаются нерешенными некоторые методологические проблемы. Это (неисключительный) список некоторых из этих проблем:

  • Когда исследователи должны определять свои категории? Ex-ante, вперед и назад или для этого случая ? Некоторые социологи утверждают, что исследователи должны разработать свою теорию, ожидания и методы (в данном случае конкретные категории, которые они будут использовать для классификации различных текстовых единиц), прежде чем они начнут собирать и изучать данные.[14] в то время как некоторые другие поддерживают, что определение набора категорий - это непрерывный процесс.[15][16]
  • Проверка. Хотя большинство исследователей сообщают об измерениях валидации своих методов (т.е. оценки межкодерной надежности, точности и отзыва, матриц неточности и т. Д.), Некоторые другие этого не делают. В частности, большое количество ученых обеспокоены тем, что некоторые методы тематического моделирования вряд ли могут быть проверены.[17]
  • Случайные выборки. С одной стороны, чрезвычайно сложно узнать, сколько единиц одного типа текстов (например, постов в блогах) находится в Интернете в определенное время. Таким образом, поскольку большую часть времени Вселенная неизвестна, как исследователь может выбрать случайную выборку? Если в некоторых случаях практически невозможно получить случайную выборку, должны ли исследователи работать с выборками или они должны попытаться собрать все текстовые единицы, которые они наблюдают? И, с другой стороны, иногда исследователям приходится работать с образцами, которые предоставляются им некоторыми поисковыми системами (например, Google) и онлайн-компаниями (например, Twitter), но исследователи не имеют доступа к тому, как эти образцы были созданы и были ли они случайны или нет. Следует ли исследователям использовать такие образцы?

Смотрите также

Рекомендации

  1. ^ а б Криппендорф, Клаус (2012). Контент-анализ: введение в его методологию. Таузенд-Оукс, Калифорния: Сейдж.
  2. ^ а б c Макмиллан, Салли Дж. (Март 2000 г.). «Микроскоп и движущаяся цель: проблема применения анализа контента во всемирной паутине». Журналистика и массовые коммуникации ежеквартально. 77 (1): 80–98. Дои:10.1177/107769900007700107.
  3. ^ а б c ван Зельм, Мартина; Янковский, Ник (2005). Контент-анализ интернет-документов. Неопубликованная рукопись.
  4. ^ Рифф, Дэниел; Лейси, Стивен; Фико, Фредерик (1998). Анализ сообщений СМИ: использование количественного анализа контента в исследованиях. Махва, Нью-Джерси, Лондон: Лоуренс Эрлбаум.
  5. ^ Баумгартнер, Франк; Джонс, Брайан (1993). Повестки дня и нестабильность в американской политике. Чикаго. Университет Чикао Press. ISBN  9780226039534.
  6. ^ а б c Барбера, Пабло; Бонно, Ричард; Иган, Патрик; Йост, Джон; Наглер, Джонатан; Такер, Джошуа (2014). «Лидеры или последователи? Измерение политической реакции в Конгрессе США с использованием данных социальных сетей». Подготовлено для передачи на ежегодном собрании Американской ассоциации политологии.
  7. ^ а б c Ди Маджио, Пол; Наг, Маниш; Блей, Дэвид (декабрь 2013 г.). «Использование сходства между тематическим моделированием и социологической точки зрения на культуру: применение к освещению в газетах государственного финансирования искусства США». Поэтика. 41 (6): 570–606. Дои:10.1016 / j.poetic.2013.08.004.
  8. ^ Мишне, Гилад; Взгляд, Натали (2006). «Оставить ответ: анализ комментариев блога». Третья ежегодная конференция по экосистеме веб-журналов.
  9. ^ Кинг, Джон Д. (2008). Анализ содержания поисковой системы (Кандидат наук). Технологический университет Квинсленда.
  10. ^ а б c d Гриммер, Джастин; Стюарт, Брэндон (2013). «Текст как данные: перспективы и недостатки методов автоматического контент-анализа политических текстов». Политический анализ. 21 (3): 1–31.
  11. ^ Коллингвуд, Лорен и Джон Вилкерсон. (2011). Компромиссы в точности и эффективности контролируемых методов обучения, в Журнале информационных технологий и политики, статья 4.
  12. ^ Гербер, Элизабет; Льюис, Джефф (2004). «За пределами медианы: предпочтения избирателей, неоднородность округов и политическое представительство» (PDF). Журнал политической экономии. 112 (6): 1364–83. CiteSeerX  10.1.1.320.8707. Дои:10.1086/424737.
  13. ^ Слапин, Джонатан и Свен-Оливер Прокш. 2008. Модель масштабирования для оценки партийных позиций временного ряда по текстам. Американский журнал политических наук 52 (3): 705–22.
  14. ^ Кинг, Гэри, Роберт О. Кеохан и Сидней Верба. (1994). Разработка социального запроса: научный вывод в качественном исследовании. Princeton: Prince University Press.
  15. ^ Херринг, Сьюзан С. (2009). «Анализ веб-контента: расширение парадигмы». В Hunsinger, Джереми (ред.). Международный справочник интернет-исследований. Springer Нидерланды. С. 233–249. CiteSeerX  10.1.1.476.6090. Дои:10.1007/978-1-4020-9789-8_14. ISBN  978-1-4020-9788-1.
  16. ^ Салдана Джонни. (2009). Руководство по кодированию для качественного исследования. Лондон: SAGE Publication Ltd.
  17. ^ Чуанг, Джейсон, Джон Д. Уилкерсон, Ребекка Вайс, Дастин Тингли, Брэндон М. Стюарт, Маргарет Э. Робертс, Форо Пурсабзи-Сангде, Джастин Гриммер, Лия Финдлейтер, Джордан Бойд-Грабер и Джеффри Хир. (2014). Компьютерный контент-анализ: тематические модели для изучения множественных субъективных интерпретаций. Доклад представлен на конференции по системам обработки нейронной информации (NIPS). Семинар по машинному обучению, управляемому человеком. Монреаль, Канада.