Анализ онлайн-контента - Википедия - Online content analysis

Анализ онлайн-контента или же онлайн-анализ текста относится к набору исследовательских методов, используемых для описания онлайн-материалов и выводов о них посредством систематического кодирования и интерпретации. Анализ онлайн-контента - это форма Анализ содержания для анализа Интернет-коммуникаций.

История и определение

Контент-анализ как систематическое изучение и интерпретация коммуникации восходит как минимум к 17 веку. Тем не менее, так было до подъема газета В начале 20 века массовое производство печатных материалов вызвало потребность в количественном анализе печатных слов.^[1]

Определение Берельсона (1952) обеспечивает основу для текстового анализа как «исследовательской техники для объективного, систематического и количественного описания явного содержания коммуникации».^[2] Контент-анализ состоит из категоризации единиц текстов (то есть предложений, квази-предложений, абзацев, документов, веб-страниц и т. Д.) В соответствии с их существенными характеристиками, чтобы построить набор данных, который позволяет аналитику интерпретировать тексты и делать выводы. Хотя контент-анализ часто количественный, исследователи концептуализируют эту технику как смешанные методы потому что текстовое кодирование требует высокой степени качественный интерпретация.^[3] Социологи использовали эту технику для исследования вопросов, касающихся СМИ,^[1] медиа эффекты^[4] и Формирование повестки дня.^[5]

С развитием онлайн-коммуникации методы контент-анализа были адаптированы и применены к Интернет-исследования. Как и с появлением газет, распространение онлайн-контента предоставляет расширенные возможности для исследователей, заинтересованных в контент-анализе. В то время как использование онлайн-источников представляет новые исследовательские проблемы и возможности, основная исследовательская процедура онлайн-анализа контента, описанная McMillan (2000), практически неотличима от контент-анализа с использованием офлайн-источников:

Сформулируйте исследовательский вопрос с акцентом на выявление проверяемых гипотез, которые могут привести к теоретическому прогрессу.
Определить основа выборки что образец будет взят из, и построить образец (часто называемый «корпусом») контента для анализа.
Разработайте и внедрите схему кодирования, которая может использоваться для категоризации контента, чтобы ответить на вопрос, определенный на шаге 1. Это требует указания периода времени, единицы контекста, в которую внедряется контент, и единицы кодирования, которая классифицирует контент.
Обучите программистов последовательному внедрению схемы кодирования и проверке надежность среди кодеров. Это ключевой шаг в обеспечении воспроизводимость анализа.
Анализируйте и интерпретируйте данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании, представленном в наборе данных.

Контент-анализ в интернет-исследованиях

С момента появления онлайн-общения ученые обсуждали, как адаптировать методы анализа текста для изучения веб-контента. Природа онлайн-источников требует особого внимания на многих этапах контент-анализа по сравнению с офлайн-источниками.

В то время как автономный контент, такой как печатный текст, остается статичным после создания, онлайн-контент может часто меняться. Динамический характер онлайн-материалов в сочетании с большим и постоянно увеличивающимся объемом онлайн-контента может затруднить построение основы выборки, на основе которой можно составить случайную выборку. Контент сайта также может различаться у разных пользователей, что требует тщательного определения основы выборки. Некоторые исследователи использовали поисковые системы для построения рамок выборки. Этот метод имеет недостатки, так как результаты поисковых систем бессистемны и не случайны, что делает их ненадежными для получения объективной выборки. Проблемы с рамкой выборки можно обойти, используя всю интересующую нас совокупность, например твиты отдельных пользователей Twitter.^[6] или онлайновое архивное содержание определенных газет в качестве основы выборки.^[7] Изменения в онлайн-материалах могут усложнить категоризацию контента (шаг 3). Поскольку онлайн-контент может часто меняться, особенно важно отметить период времени, в течение которого собирается образец. Полезный шаг - заархивировать образец содержимого, чтобы предотвратить внесение изменений.

Интернет-контент также является нелинейным. Печатный текст имеет четко очерченные границы, которые можно использовать для определения контекстных единиц (например, газетная статья). Границы онлайн-контента, который будет использоваться в выборке, определить труднее. Ранние аналитики онлайн-контента часто определяли «веб-сайт» в качестве единицы контекста, не имея четкого определения того, что они имели в виду.^[2] Исследователи рекомендуют четко и последовательно определять, из чего состоит «веб-страница», или уменьшать размер единицы контекста до функции на веб-сайте.^[2]^[3] Исследователи также использовали более дискретные единицы онлайн-коммуникации, такие как веб-комментарии.^[8] или твиты.^[6]

Кинг (2008) использовал онтологию терминов, полученную из многих тысяч предварительно классифицированных документов, для анализа тематики ряда поисковых систем.^[9]

Автоматический контент-анализ

Рост онлайн-контента резко увеличил количество цифрового текста, который можно использовать в исследованиях. Количество доступного текста побудило к методологическим инновациям, чтобы разобраться в текстовых наборах данных, которые слишком велики, чтобы их можно было практически вручную кодировать, как это было в традиционной методологической практике.^[3]^[7] Достижения в методологии вместе с увеличением емкости и снижением затрат на вычисления позволили исследователям использовать методы, которые ранее были недоступны для анализа больших наборов текстового контента.

Автоматический контент-анализ представляет собой небольшое отклонение от процедуры онлайн-контент-анализа McMillan в том, что кодеры-люди дополняются вычислительным методом, и некоторые из этих методов не требуют определения категорий на более высоком уровне. В моделях количественного анализа текста часто используются методы «набора слов», которые удаляют порядок слов, удаляют слова, которые очень распространены и очень необычны, и упрощают слова с помощью лемматизация или же остановка который уменьшает размерность текста за счет сокращения сложных слов до их корневого слова.^[10] Хотя эти методы принципиально редукционистские в том, как они интерпретируют текст, они могут быть очень полезны, если правильно применяются и проверяются.

Гриммер и Стюарт (2013) выделяют две основные категории автоматического текстового анализа: под наблюдением и без присмотра методы.Контролируемые методы включают создание схемы кодирования и ручное кодирование подвыборки документов, которые исследователь хочет проанализировать. В идеале подвыборка, называемая «обучающей выборкой», является репрезентативной для выборки в целом. Кодированный обучающий набор затем используется для «обучения» алгоритма тому, как слова в документах соответствуют каждой категории кодирования. Алгоритм может применяться для автоматического анализа оставшихся в корпусе документов.^[10]

Методы словаря: исследователь предварительно выбирает набор ключевых слов (н-грамм ) для каждой категории. Затем машина использует эти ключевые слова для классификации каждой текстовой единицы по категории.
Индивидуальные методы: исследователь предварительно маркирует образец текстов и обучает машинное обучение алгоритм (т.е. Алгоритм SVM ) используя эти ярлыки. Машина маркирует оставшиеся наблюдения, экстраполируя информацию из обучающей выборки.
Методы ансамбля: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные несколько меток для маркировки остальных наблюдений (подробнее см. Collingwood and Wiklerson 2011).^[11]
Контролируемое идеологическое масштабирование (то есть баллы по словам) используется для размещения различных текстовых единиц в идеологическом континууме. Исследователь выбирает два набора текстов, представляющих каждую идеологическую крайность, которые алгоритм может использовать для определения слов, принадлежащих каждой крайней точке. Остальные тексты в корпусе масштабируются в зависимости от того, сколько слов каждой крайней ссылки они содержат.^[12]

Неконтролируемые методы может использоваться, когда набор категорий для кодирования не может быть четко определен до анализа. В отличие от контролируемых методов, люди-программисты не обязаны обучать алгоритм. Одним из ключевых вариантов для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов, а не определение категорий заранее.

Модели единого членства: эти модели автоматически группируют тексты в разные категории, которые являются взаимоисключающими, а документы кодируются в одну и только одну категорию. Как указали Гриммер и Стюарт (16), «каждый алгоритм имеет три компонента: (1) определение сходства документов или расстояния; (2) целевая функция, которая реализует идеальную кластеризацию; и (3) алгоритм оптимизации».^[10]
Модели смешанного членства: согласно также Гриммеру и Стюарту (17), модели смешанного членства «улучшают результаты моделей с одним членством, включая дополнительную структуру, специфичную для конкретной задачи».^[10] Модели смешанного членства FAC классифицируют отдельные слова в каждом документе по категориям, что позволяет документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один из примеров FAC смешанного членства, который может использоваться для анализа изменений в фокусе политических субъектов^[6] или газетные статьи.^[7] Одним из наиболее часто используемых методов тематического моделирования является LDA.
Неконтролируемое идеологическое масштабирование (то есть словесная рыба): алгоритмы, которые выделяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от контролируемых методов масштабирования, таких как оценки слов, такие методы, как wordfish^[13] не требуют, чтобы исследователь предоставлял образцы крайних идеологических текстов.

Проверка

Результаты контролируемых методов могут быть проверены путем рисования отдельной подвыборки корпуса, называемой «набором проверки». Документы в наборе для проверки можно кодировать вручную и сравнивать с результатами автоматического кодирования, чтобы оценить, насколько хорошо алгоритм воспроизводит кодирование человека. Это сравнение может принимать форму оценок надежности между кодировщиками, подобных тем, которые используются для проверки согласованности кодировщиков, выполняемых людьми, в традиционном текстовом анализе.

Валидация неконтролируемых методов может осуществляться несколькими способами.

Семантический (или внутренний ) достоверность показывает, насколько хорошо документы в каждом идентифицированном кластере представляют отдельную категориальную единицу. В тематической модели это будет степень, в которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить, создав набор проверки, который люди-программисты используют для ручной проверки выбора темы или взаимосвязи документов внутри кластера по сравнению с документами из разных кластеров.
Прогнозирующий (или внешний ) достоверность - это степень, в которой изменения частоты каждого кластера могут быть объяснены внешними событиями. Если группы тем допустимы, наиболее важные темы должны реагировать во времени предсказуемым образом в результате происходящих внешних событий.

Проблемы онлайн-анализа текста

Несмотря на непрерывную эволюцию текстового анализа в социальных науках, все еще остаются нерешенными некоторые методологические проблемы. Это (неисключительный) список некоторых из этих проблем:

Когда исследователи должны определять свои категории? Ex-ante, вперед и назад или для этого случая ? Некоторые социологи утверждают, что исследователи должны разработать свою теорию, ожидания и методы (в данном случае конкретные категории, которые они будут использовать для классификации различных текстовых единиц), прежде чем они начнут собирать и изучать данные.^[14] в то время как некоторые другие поддерживают, что определение набора категорий - это непрерывный процесс.^[15]^[16]
Проверка. Хотя большинство исследователей сообщают об измерениях валидации своих методов (т.е. оценки межкодерной надежности, точности и отзыва, матриц неточности и т. Д.), Некоторые другие этого не делают. В частности, большое количество ученых обеспокоены тем, что некоторые методы тематического моделирования вряд ли могут быть проверены.^[17]
Случайные выборки. С одной стороны, чрезвычайно сложно узнать, сколько единиц одного типа текстов (например, постов в блогах) находится в Интернете в определенное время. Таким образом, поскольку большую часть времени Вселенная неизвестна, как исследователь может выбрать случайную выборку? Если в некоторых случаях практически невозможно получить случайную выборку, должны ли исследователи работать с выборками или они должны попытаться собрать все текстовые единицы, которые они наблюдают? И, с другой стороны, иногда исследователям приходится работать с образцами, которые предоставляются им некоторыми поисковыми системами (например, Google) и онлайн-компаниями (например, Twitter), но исследователи не имеют доступа к тому, как эти образцы были созданы и были ли они случайны или нет. Следует ли исследователям использовать такие образцы?

Методы онлайн-исследования
Категории	Качественное онлайн-исследование
Конкретные методы исследования	Онлайн фокус-группа Онлайн-интервью Интернет-этнография Онлайн-анкеты Интернет-эксперименты Анализ онлайн-контента
Общественный портал Интернет-портал

Анализ онлайн-контента - Википедия - Online content analysis

Содержание

История и определение

Контент-анализ в интернет-исследованиях

Автоматический контент-анализ

Проверка

Проблемы онлайн-анализа текста

Смотрите также

Рекомендации