Анализ онлайн-контента
Анализ онлайн-контента или онлайн-текстовый анализ относится к набору исследовательских методов, используемых для описания и формирования выводов о онлайн-материалах посредством систематического кодирования и интерпретации. Анализ онлайн-контента — это форма контент-анализа для анализа интернет-коммуникаций.
История и определение [ править ]
Контент-анализ как систематическое исследование и интерпретация коммуникации восходит как минимум к 17 веку. Однако только с появлением газет в начале 20 века массовое производство печатных материалов создало спрос на количественный анализ печатных слов. [1]
Определение Берельсона (1952) обеспечивает основу для текстового анализа как «метода исследования для объективного, систематического и количественного описания явного содержания коммуникации». [2] Контент-анализ состоит из категоризации единиц текста (т. е. предложений, квазипредложений, абзацев, документов, веб-страниц и т. д.) в соответствии с их содержательными характеристиками с целью создания набора данных, который позволяет аналитику интерпретировать тексты и делать выводы. Хотя контент-анализ часто носит количественный характер , исследователи концептуализируют этот метод как смешанный по своей сути метод , поскольку кодирование текста требует высокой степени качественной интерпретации. [3] Социологи использовали этот метод для исследования исследовательских вопросов, касающихся средств массовой информации . [1] медиа-эффекты [4] и определение повестки дня . [5]
С развитием онлайн-коммуникаций методы контент-анализа были адаптированы и применены к интернет-исследованиям . Как и в случае с появлением газет, распространение онлайн-контента открывает расширенные возможности для исследователей, интересующихся контент-анализом. Хотя использование онлайн-источников представляет новые исследовательские проблемы и возможности, основная процедура исследования онлайн-контент-анализа, изложенная Макмилланом (2000), практически неотличима от контент-анализа с использованием офлайн-источников:
- Сформулируйте исследовательский вопрос, уделив особое внимание выявлению проверяемых гипотез, которые могут привести к теоретическим достижениям.
- Определите основу выборки , из которой будет взята выборка, и создайте выборку (часто называемую «корпусом») контента для анализа.
- Разработайте и внедрите схему кодирования, которую можно использовать для категоризации контента, чтобы ответить на вопрос, заданный на шаге 1. Для этого необходимо указать период времени, единицу контекста, в которую встроен контент, и единицу кодирования, которая классифицирует контент.
- Обучите кодировщиков последовательно реализовывать схему кодирования и проверять надежность кодировщиков. Это ключевой шаг в обеспечении воспроизводимости анализа.
- Анализируйте и интерпретируйте данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании, представленном в наборе данных.
Контент-анализ в интернет-исследованиях [ править ]
С появлением онлайн-коммуникаций ученые обсуждали, как адаптировать методы текстового анализа для изучения веб-контента. Характер онлайн-источников требует особой осторожности на многих этапах контент-анализа по сравнению с офлайн-источниками.
Хотя офлайн-контент, такой как печатный текст, после создания остается неизменным, онлайн-контент может часто меняться. Динамичный характер онлайн-материалов в сочетании с большим и постоянно растущим объемом онлайн-контента может затруднить создание основы выборки, из которой можно будет составить случайную выборку. Содержание сайта также может различаться у разных пользователей, что требует тщательного определения основы выборки. Некоторые исследователи использовали поисковые системы для создания основ выборки. Этот метод имеет недостатки, поскольку результаты поисковых систем несистематичны и неслучайны, что делает их ненадежными для получения объективной выборки. Проблему с рамками выборки можно обойти, используя всю интересующую совокупность, например твиты отдельных пользователей Твиттера. [6] или онлайн-архивное содержание определенных газет в качестве основы выборки. [7] Изменения в онлайн-материалах могут усложнить категоризацию контента (шаг 3). Поскольку онлайн-контент может часто меняться, особенно важно учитывать период времени, в течение которого собиралась выборка. Полезным шагом является архивирование образца содержимого, чтобы предотвратить внесение изменений.
Онлайн-контент также нелинейен. Печатный текст имеет четко очерченные границы, по которым можно идентифицировать единицы контекста (например, газетная статья). Границы онлайн-контента, который будет использоваться в выборке, определить сложнее. Ранние аналитики онлайн-контента часто указывали «веб-сайт» как единицу контекста без четкого определения того, что они имели в виду. [2] Исследователи рекомендуют четко и последовательно определять, из чего состоит «веб-страница», или уменьшать размер контекстной единицы до функции на веб-сайте. [2] [3] Исследователи также использовали более дискретные единицы онлайн-коммуникации, такие как веб-комментарии. [8] или твиты. [6]
Кинг (2008) использовал онтологию терминов, полученную на основе многих тысяч предварительно классифицированных документов, для анализа тематики ряда поисковых систем. [9]
Автоматический анализ контента [ править ]
Рост онлайн-контента резко увеличил объем цифрового текста, который можно использовать в исследованиях. Количество доступного текста стимулировало методологические инновации, направленные на понимание наборов текстовых данных, которые слишком велики для практического кодирования вручную, как это было в традиционной методологической практике. [3] [7] Достижения в методологии вместе с увеличением мощности и снижением затрат на вычисления позволили исследователям использовать методы, которые ранее были недоступны для анализа больших наборов текстового контента.
Автоматический анализ контента представляет собой небольшое отклонение от процедуры онлайн-анализа контента Макмиллана, поскольку программисты-люди дополняются вычислительным методом, и некоторые из этих методов не требуют расширенного определения категорий. В моделях количественного анализа текста часто используются методы « мешка слов », которые устраняют порядок слов, удаляют слова, которые очень распространены и очень редки, а также упрощают слова посредством лемматизации или стемминга , что уменьшает размерность текста за счет сведения сложных слов к их корневому слову. [10] Хотя эти методы в своей основе интерпретируют текст редукционистскими, они могут быть очень полезными, если их правильно применять и проверять.
Гриммер и Стюарт (2013) выделяют две основные категории автоматического текстового анализа: контролируемые и неконтролируемые методы. Контролируемые методы включают создание схемы кодирования и ручное кодирование подвыборки документов, которые исследователь хочет проанализировать. В идеале подвыборка, называемая «обучающим набором», является репрезентативной для выборки в целом. Затем закодированный обучающий набор используется для «обучения» алгоритма тому, как слова в документах соответствуют каждой категории кодирования. Алгоритм может быть применен для автоматического анализа остатков документов в корпусе. [10]
- Словарные методы: исследователь предварительно выбирает набор ключевых слов ( n-грамм ) для каждой категории. Затем машина использует эти ключевые слова для классификации каждого текстового блока в категорию.
- Индивидуальные методы: исследователь предварительно маркирует выборку текстов и обучает алгоритм машинного обучения (т. е. алгоритм SVM ), используя эти метки. Машина маркирует оставшуюся часть наблюдений, экстраполируя информацию из обучающего набора.
- Ансамблевые методы: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные несколько меток для маркировки остальных наблюдений (более подробную информацию см. в Collingwood and Wiklerson 2011). [11]
- Контролируемое идеологическое масштабирование (т.е. количество слов) используется для размещения различных текстовых единиц в идеологическом континууме. Исследователь выбирает два набора текстов, представляющих каждую идеологическую крайность, которые алгоритм может использовать для идентификации слов, принадлежащих каждой крайности. Остальные тексты корпуса масштабируются в зависимости от того, сколько слов каждого крайнего упоминания они содержат. [12]
Неконтролируемые методы можно использовать, когда набор категорий для кодирования не может быть четко определен до анализа. В отличие от контролируемых методов, программистам не требуется обучать алгоритм. Одним из ключевых решений для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов, а не определение категорий заранее.
- Модели с одним членством: эти модели автоматически группируют тексты в различные взаимоисключающие категории, а документы кодируются в одну и только одну категорию. Как отметили Гриммер и Стюарт (16), «каждый алгоритм состоит из трех компонентов: (1) определение сходства или расстояния документа; (2) целевая функция, которая реализует идеальную кластеризацию; и (3) алгоритм оптимизации». [10]
- Модели смешанного членства. По мнению Гриммера и Стюарта (17), модели смешанного членства «улучшают эффективность моделей с одним членством за счет включения дополнительной структуры, ориентированной на конкретные проблемы». [10] Модели FAC со смешанным членством классифицируют отдельные слова в каждом документе по категориям, позволяя документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один из примеров FAC со смешанным членством, который можно использовать для анализа изменений в фокусе политических сил. [6] или газетные статьи. [7] Одним из наиболее часто используемых методов тематического моделирования является LDA .
- Неконтролируемое идеологическое масштабирование (например, wordfish): алгоритмы, которые распределяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от контролируемых методов масштабирования, таких как wordcores, такие методы, как wordfish [13] не требовать от исследователя образцов экстремистских идеологических текстов.
Проверка [ править ]
Результаты контролируемых методов можно проверить путем составления отдельной подвыборки корпуса, называемой «набором проверки». Документы в наборе проверки можно закодировать вручную и сравнить с результатами автоматического кодирования, чтобы оценить, насколько хорошо алгоритм воспроизводит человеческое кодирование. Это сравнение может принимать форму оценок надежности между кодировщиками, подобных тем, которые используются для проверки согласованности кодеров-людей в традиционном текстовом анализе.
Валидация неконтролируемых методов может осуществляться несколькими способами.
- Семантическая (или внутренняя ) достоверность показывает, насколько хорошо документы в каждом идентифицированном кластере представляют собой отдельную категориальную единицу. В тематической модели это будет степень, в которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить, создав набор проверки, который программисты используют для ручной проверки выбора темы или связи документов внутри кластера по сравнению с документами из разных кластеров.
- Прогностическая (или внешняя ) достоверность — это степень, в которой сдвиги частоты каждого кластера можно объяснить внешними событиями. Если группы тем действительны, наиболее важные темы должны реагировать во времени предсказуемым образом в результате происходящих внешних событий.
онлайн- текстового анализа Проблемы
Несмотря на непрерывную эволюцию текстового анализа в социальных науках, все еще остаются некоторые нерешенные методологические проблемы. Это (неэксклюзивный) список, включающий некоторые из этих проблем:
- Когда исследователям следует определить свои категории? Предварительно , туда-сюда или специально ? Некоторые социологи утверждают, что исследователи должны разработать свою теорию, ожидания и методы (в данном случае конкретные категории, которые они будут использовать для классификации различных текстовых единиц), прежде чем они начнут собирать и изучать данные. [14] тогда как некоторые другие поддерживают, что определение набора категорий — это двусторонний процесс. [15] [16]
- Валидация. Хотя большинство исследователей сообщают о проверочных измерениях своих методов (т. е. межкодировочная надежность, оценки точности и полноты , матрицы путаницы и т. д.), некоторые другие этого не делают. В частности, большее количество ученых обеспокоено тем, что некоторые методы тематического моделирования вряд ли могут быть проверены. [17]
- Случайные образцы. С одной стороны, чрезвычайно сложно узнать, сколько единиц одного типа текстов (например, постов в блогах) находится в Интернете за определенное время. Таким образом, поскольку большую часть времени Вселенная неизвестна, как исследователь может выбрать случайную выборку? Если в некоторых случаях получить случайную выборку практически невозможно, следует ли исследователям работать с выборками или им следует попытаться собрать все текстовые единицы, которые они наблюдают? С другой стороны, иногда исследователям приходится работать с образцами, которые им предоставляют некоторые поисковые системы (например, Google) и онлайн-компании (например, Twitter), но исследователи не имеют доступа к тому, как эти образцы были созданы и являются ли они случайны или нет. Должны ли исследования использовать такие образцы?
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б Криппендорф, Клаус (2012). Контент-анализ: введение в его методологию . Таузенд-Оукс, Калифорния: Сейдж.
- ↑ Перейти обратно: Перейти обратно: а б с Макмиллан, Салли Дж. (март 2000 г.). «Микроскоп и движущаяся мишень: проблема применения контент-анализа во Всемирной паутине». Ежеквартальный журнал «Журналистика и массовые коммуникации» . 77 (1): 80–98. дои : 10.1177/107769900007700107 . S2CID 143760798 .
- ↑ Перейти обратно: Перейти обратно: а б с ван Сельм, Мартина; Янковский, Ник (2005). Контент-анализ интернет-документов . Неопубликованная рукопись.
- ^ Рифф, Дэниел; Лейси, Стивен; Фико, Фредерик (1998). Анализ сообщений СМИ: использование количественного контент-анализа в исследованиях . Махва, Нью-Джерси, Лондон: Лоуренс Эрлбаум.
- ^ Баумгартнер, Фрэнк; Джонс, Брайан (1993). Повестки дня и нестабильность в американской политике. Чикаго . Университет Чикао Пресс. ISBN 9780226039534 .
- ↑ Перейти обратно: Перейти обратно: а б с Барбера, Пабло; Бонно, Ричард; Иган, Патрик; Йост, Джон; Наглер, Джонатан; Такер, Джошуа (2014). «Лидеры или последователи? Измерение политической реакции в Конгрессе США с использованием данных социальных сетей». Подготовлено к представлению на ежегодном собрании Американской ассоциации политических наук .
- ↑ Перейти обратно: Перейти обратно: а б с ДиМаджио, Пол; Наг, Маниш; Блей, Дэвид (декабрь 2013 г.). «Использование сходства между тематическим моделированием и социологическим взглядом на культуру: применение к газетному освещению финансирования искусства правительством США». Поэтика . 41 (6): 570–606. дои : 10.1016/j.poetic.2013.08.004 .
- ^ Мишне, Гилад; Взгляд, Натали (2006). «Оставить ответ: анализ комментариев в блоге». Третья ежегодная конференция по экосистеме блогов .
- ^ Кинг, Джон Д. (2008). Анализ контента в поисковых системах (доктор философии). Квинслендский технологический университет.
- ↑ Перейти обратно: Перейти обратно: а б с д Гриммер, Джастин; Стюарт, Брэндон (2013). «Текст как данные: перспективы и подводные камни автоматических методов контент-анализа политических текстов» . Политический анализ . 21 (3): 267–297. дои : 10.1093/pan/mps028 .
- ^ Коллингвуд, Лорен и Джон Вилкерсон. (2011). Компромиссы в точности и эффективности контролируемых методов обучения , в Журнале информационных технологий и политики, статья 4.
- ^ Гербер, Элизабет; Льюис, Джефф (2004). «За пределами медианы: предпочтения избирателей, неоднородность округов и политическое представительство» (PDF) . Журнал политической экономии . 112 (6): 1364–83. CiteSeerX 10.1.1.320.8707 . дои : 10.1086/424737 . S2CID 16695697 . Архивировано из оригинала (PDF) 1 октября 2015 г.
- ^ Слапин, Джонатан и Свен-Оливер Прокш. 2008. Модель масштабирования для оценки партийных позиций временных рядов на основе текстов.Американский журнал политической науки 52 (3): 705–22.
- ^ Кинг, Гэри, Роберт О. Кеохейн и Сидни Верба. (1994). Разработка социального исследования: научный вывод в качественных исследованиях. Принстон: Издательство Принцского университета.
- ^ Херринг, Сьюзан К. (2009). «Анализ веб-контента: расширение парадигмы». В Хансингере, Джереми (ред.). Международный справочник по интернет-исследованиям . Спрингер Нидерланды. стр. 233–249. CiteSeerX 10.1.1.476.6090 . дои : 10.1007/978-1-4020-9789-8_14 . ISBN 978-1-4020-9788-1 .
- ^ Салдана Джонни. (2009). Руководство по кодированию качественных исследований. Лондон: SAGE Publication Ltd.
- ^ Чуанг, Джейсон, Джон Д. Вилкерсон, Ребекка Вайс, Дастин Тингли, Брэндон М. Стюарт, Маргарет Э. Робертс, Фороф Пурсабзи-Сангде, Джастин Гриммер, Лия Финдлейтер , Джордан Бойд-Грабер и Джеффри Хир. (2014). Компьютерный контент-анализ: тематические модели для изучения множественных субъективных интерпретаций . Доклад, представленный на конференции по нейронным системам обработки информации (NIPS). Семинар по машинному обучению, управляемому человеком. Монреаль, Канада.