Jump to content

Анализ онлайн-контента

Анализ онлайн-контента или онлайн-текстовый анализ относится к набору исследовательских методов, используемых для описания и формирования выводов о онлайн-материалах посредством систематического кодирования и интерпретации. Анализ онлайн-контента — это форма контент-анализа для анализа интернет-коммуникаций.

История и определение [ править ]

Контент-анализ как систематическое исследование и интерпретация коммуникации восходит как минимум к 17 веку. Однако только с появлением газет в начале 20 века массовое производство печатных материалов создало спрос на количественный анализ печатных слов. [1]

Определение Берельсона (1952) обеспечивает основу для текстового анализа как «метода исследования для объективного, систематического и количественного описания явного содержания коммуникации». [2] Контент-анализ состоит из категоризации единиц текста (т. е. предложений, квазипредложений, абзацев, документов, веб-страниц и т. д.) в соответствии с их содержательными характеристиками с целью создания набора данных, который позволяет аналитику интерпретировать тексты и делать выводы. Хотя контент-анализ часто носит количественный характер , исследователи концептуализируют этот метод как смешанный по своей сути метод , поскольку кодирование текста требует высокой степени качественной интерпретации. [3] Социологи использовали этот метод для исследования исследовательских вопросов, касающихся средств массовой информации . [1] медиа-эффекты [4] и определение повестки дня . [5]

С развитием онлайн-коммуникаций методы контент-анализа были адаптированы и применены к интернет-исследованиям . Как и в случае с появлением газет, распространение онлайн-контента открывает расширенные возможности для исследователей, интересующихся контент-анализом. Хотя использование онлайн-источников представляет новые исследовательские проблемы и возможности, основная процедура исследования онлайн-контент-анализа, изложенная Макмилланом (2000), практически неотличима от контент-анализа с использованием офлайн-источников:

  1. Сформулируйте исследовательский вопрос, уделив особое внимание выявлению проверяемых гипотез, которые могут привести к теоретическим достижениям.
  2. Определите основу выборки , из которой будет взята выборка, и создайте выборку (часто называемую «корпусом») контента для анализа.
  3. Разработайте и внедрите схему кодирования, которую можно использовать для категоризации контента, чтобы ответить на вопрос, заданный на шаге 1. Для этого необходимо указать период времени, единицу контекста, в которую встроен контент, и единицу кодирования, которая классифицирует контент.
  4. Обучите кодировщиков последовательно реализовывать схему кодирования и проверять надежность кодировщиков. Это ключевой шаг в обеспечении воспроизводимости анализа.
  5. Анализируйте и интерпретируйте данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании, представленном в наборе данных.

Контент-анализ в интернет-исследованиях [ править ]

С появлением онлайн-коммуникаций ученые обсуждали, как адаптировать методы текстового анализа для изучения веб-контента. Характер онлайн-источников требует особой осторожности на многих этапах контент-анализа по сравнению с офлайн-источниками.

Хотя офлайн-контент, такой как печатный текст, после создания остается неизменным, онлайн-контент может часто меняться. Динамичный характер онлайн-материалов в сочетании с большим и постоянно растущим объемом онлайн-контента может затруднить создание основы выборки, из которой можно будет составить случайную выборку. Содержание сайта также может различаться у разных пользователей, что требует тщательного определения основы выборки. Некоторые исследователи использовали поисковые системы для создания основ выборки. Этот метод имеет недостатки, поскольку результаты поисковых систем несистематичны и неслучайны, что делает их ненадежными для получения объективной выборки. Проблему с рамками выборки можно обойти, используя всю интересующую совокупность, например твиты отдельных пользователей Твиттера. [6] или онлайн-архивное содержание определенных газет в качестве основы выборки. [7] Изменения в онлайн-материалах могут усложнить категоризацию контента (шаг 3). Поскольку онлайн-контент может часто меняться, особенно важно учитывать период времени, в течение которого собиралась выборка. Полезным шагом является архивирование образца содержимого, чтобы предотвратить внесение изменений.

Онлайн-контент также нелинейен. Печатный текст имеет четко очерченные границы, по которым можно идентифицировать единицы контекста (например, газетная статья). Границы онлайн-контента, который будет использоваться в выборке, определить сложнее. Ранние аналитики онлайн-контента часто указывали «веб-сайт» как единицу контекста без четкого определения того, что они имели в виду. [2] Исследователи рекомендуют четко и последовательно определять, из чего состоит «веб-страница», или уменьшать размер контекстной единицы до функции на веб-сайте. [2] [3] Исследователи также использовали более дискретные единицы онлайн-коммуникации, такие как веб-комментарии. [8] или твиты. [6]

Кинг (2008) использовал онтологию терминов, полученную на основе многих тысяч предварительно классифицированных документов, для анализа тематики ряда поисковых систем. [9]

Автоматический анализ контента [ править ]

Рост онлайн-контента резко увеличил объем цифрового текста, который можно использовать в исследованиях. Количество доступного текста стимулировало методологические инновации, направленные на понимание наборов текстовых данных, которые слишком велики для практического кодирования вручную, как это было в традиционной методологической практике. [3] [7] Достижения в методологии вместе с увеличением мощности и снижением затрат на вычисления позволили исследователям использовать методы, которые ранее были недоступны для анализа больших наборов текстового контента.

Автоматический анализ контента представляет собой небольшое отклонение от процедуры онлайн-анализа контента Макмиллана, поскольку программисты-люди дополняются вычислительным методом, и некоторые из этих методов не требуют расширенного определения категорий. В моделях количественного анализа текста часто используются методы « мешка слов », которые устраняют порядок слов, удаляют слова, которые очень распространены и очень редки, а также упрощают слова посредством лемматизации или стемминга , что уменьшает размерность текста за счет сведения сложных слов к их корневому слову. [10] Хотя эти методы в своей основе интерпретируют текст редукционистскими, они могут быть очень полезными, если их правильно применять и проверять.

Гриммер и Стюарт (2013) выделяют две основные категории автоматического текстового анализа: контролируемые и неконтролируемые методы. Контролируемые методы включают создание схемы кодирования и ручное кодирование подвыборки документов, которые исследователь хочет проанализировать. В идеале подвыборка, называемая «обучающим набором», является репрезентативной для выборки в целом. Затем закодированный обучающий набор используется для «обучения» алгоритма тому, как слова в документах соответствуют каждой категории кодирования. Алгоритм может быть применен для автоматического анализа остатков документов в корпусе. [10]

  • Словарные методы: исследователь предварительно выбирает набор ключевых слов ( n-грамм ) для каждой категории. Затем машина использует эти ключевые слова для классификации каждого текстового блока в категорию.
  • Индивидуальные методы: исследователь предварительно маркирует выборку текстов и обучает алгоритм машинного обучения (т. е. алгоритм SVM ), используя эти метки. Машина маркирует оставшуюся часть наблюдений, экстраполируя информацию из обучающего набора.
  • Ансамблевые методы: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные несколько меток для маркировки остальных наблюдений (более подробную информацию см. в Collingwood and Wiklerson 2011). [11]
  • Контролируемое идеологическое масштабирование (т.е. количество слов) используется для размещения различных текстовых единиц в идеологическом континууме. Исследователь выбирает два набора текстов, представляющих каждую идеологическую крайность, которые алгоритм может использовать для идентификации слов, принадлежащих каждой крайности. Остальные тексты корпуса масштабируются в зависимости от того, сколько слов каждого крайнего упоминания они содержат. [12]

Неконтролируемые методы можно использовать, когда набор категорий для кодирования не может быть четко определен до анализа. В отличие от контролируемых методов, программистам не требуется обучать алгоритм. Одним из ключевых решений для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов, а не определение категорий заранее.

  • Модели с одним членством: эти модели автоматически группируют тексты в различные взаимоисключающие категории, а документы кодируются в одну и только одну категорию. Как отметили Гриммер и Стюарт (16), «каждый алгоритм состоит из трех компонентов: (1) определение сходства или расстояния документа; (2) целевая функция, которая реализует идеальную кластеризацию; и (3) алгоритм оптимизации». [10]
  • Модели смешанного членства. По мнению Гриммера и Стюарта (17), модели смешанного членства «улучшают эффективность моделей с одним членством за счет включения дополнительной структуры, ориентированной на конкретные проблемы». [10] Модели FAC со смешанным членством классифицируют отдельные слова в каждом документе по категориям, позволяя документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один из примеров FAC со смешанным членством, который можно использовать для анализа изменений в фокусе политических сил. [6] или газетные статьи. [7] Одним из наиболее часто используемых методов тематического моделирования является LDA .
  • Неконтролируемое идеологическое масштабирование (например, wordfish): алгоритмы, которые распределяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от контролируемых методов масштабирования, таких как wordcores, такие методы, как wordfish [13] не требовать от исследователя образцов экстремистских идеологических текстов.

Проверка [ править ]

Результаты контролируемых методов можно проверить путем составления отдельной подвыборки корпуса, называемой «набором проверки». Документы в наборе проверки можно закодировать вручную и сравнить с результатами автоматического кодирования, чтобы оценить, насколько хорошо алгоритм воспроизводит человеческое кодирование. Это сравнение может принимать форму оценок надежности между кодировщиками, подобных тем, которые используются для проверки согласованности кодеров-людей в традиционном текстовом анализе.

Валидация неконтролируемых методов может осуществляться несколькими способами.

  • Семантическая (или внутренняя ) достоверность показывает, насколько хорошо документы в каждом идентифицированном кластере представляют собой отдельную категориальную единицу. В тематической модели это будет степень, в которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить, создав набор проверки, который программисты используют для ручной проверки выбора темы или связи документов внутри кластера по сравнению с документами из разных кластеров.
  • Прогностическая (или внешняя ) достоверность — это степень, в которой сдвиги частоты каждого кластера можно объяснить внешними событиями. Если группы тем действительны, наиболее важные темы должны реагировать во времени предсказуемым образом в результате происходящих внешних событий.

онлайн- текстового анализа Проблемы

Несмотря на непрерывную эволюцию текстового анализа в социальных науках, все еще остаются некоторые нерешенные методологические проблемы. Это (неэксклюзивный) список, включающий некоторые из этих проблем:

  • Когда исследователям следует определить свои категории? Предварительно , туда-сюда или специально ? Некоторые социологи утверждают, что исследователи должны разработать свою теорию, ожидания и методы (в данном случае конкретные категории, которые они будут использовать для классификации различных текстовых единиц), прежде чем они начнут собирать и изучать данные. [14] тогда как некоторые другие поддерживают, что определение набора категорий — это двусторонний процесс. [15] [16]
  • Валидация. Хотя большинство исследователей сообщают о проверочных измерениях своих методов (т. е. межкодировочная надежность, оценки точности и полноты , матрицы путаницы и т. д.), некоторые другие этого не делают. В частности, большее количество ученых обеспокоено тем, что некоторые методы тематического моделирования вряд ли могут быть проверены. [17]
  • Случайные образцы. С одной стороны, чрезвычайно сложно узнать, сколько единиц одного типа текстов (например, постов в блогах) находится в Интернете за определенное время. Таким образом, поскольку большую часть времени Вселенная неизвестна, как исследователь может выбрать случайную выборку? Если в некоторых случаях получить случайную выборку практически невозможно, следует ли исследователям работать с выборками или им следует попытаться собрать все текстовые единицы, которые они наблюдают? С другой стороны, иногда исследователям приходится работать с образцами, которые им предоставляют некоторые поисковые системы (например, Google) и онлайн-компании (например, Twitter), но исследователи не имеют доступа к тому, как эти образцы были созданы и являются ли они случайны или нет. Должны ли исследования использовать такие образцы?

См. также [ править ]

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б Криппендорф, Клаус (2012). Контент-анализ: введение в его методологию . Таузенд-Оукс, Калифорния: Сейдж.
  2. Перейти обратно: Перейти обратно: а б с Макмиллан, Салли Дж. (март 2000 г.). «Микроскоп и движущаяся мишень: проблема применения контент-анализа во Всемирной паутине». Ежеквартальный журнал «Журналистика и массовые коммуникации» . 77 (1): 80–98. дои : 10.1177/107769900007700107 . S2CID   143760798 .
  3. Перейти обратно: Перейти обратно: а б с ван Сельм, Мартина; Янковский, Ник (2005). Контент-анализ интернет-документов . Неопубликованная рукопись.
  4. ^ Рифф, Дэниел; Лейси, Стивен; Фико, Фредерик (1998). Анализ сообщений СМИ: использование количественного контент-анализа в исследованиях . Махва, Нью-Джерси, Лондон: Лоуренс Эрлбаум.
  5. ^ Баумгартнер, Фрэнк; Джонс, Брайан (1993). Повестки дня и нестабильность в американской политике. Чикаго . Университет Чикао Пресс. ISBN  9780226039534 .
  6. Перейти обратно: Перейти обратно: а б с Барбера, Пабло; Бонно, Ричард; Иган, Патрик; Йост, Джон; Наглер, Джонатан; Такер, Джошуа (2014). «Лидеры или последователи? Измерение политической реакции в Конгрессе США с использованием данных социальных сетей». Подготовлено к представлению на ежегодном собрании Американской ассоциации политических наук .
  7. Перейти обратно: Перейти обратно: а б с ДиМаджио, Пол; Наг, Маниш; Блей, Дэвид (декабрь 2013 г.). «Использование сходства между тематическим моделированием и социологическим взглядом на культуру: применение к газетному освещению финансирования искусства правительством США». Поэтика . 41 (6): 570–606. дои : 10.1016/j.poetic.2013.08.004 .
  8. ^ Мишне, Гилад; Взгляд, Натали (2006). «Оставить ответ: анализ комментариев в блоге». Третья ежегодная конференция по экосистеме блогов .
  9. ^ Кинг, Джон Д. (2008). Анализ контента в поисковых системах (доктор философии). Квинслендский технологический университет.
  10. Перейти обратно: Перейти обратно: а б с д Гриммер, Джастин; Стюарт, Брэндон (2013). «Текст как данные: перспективы и подводные камни автоматических методов контент-анализа политических текстов» . Политический анализ . 21 (3): 267–297. дои : 10.1093/pan/mps028 .
  11. ^ Коллингвуд, Лорен и Джон Вилкерсон. (2011). Компромиссы в точности и эффективности контролируемых методов обучения , в Журнале информационных технологий и политики, статья 4.
  12. ^ Гербер, Элизабет; Льюис, Джефф (2004). «За пределами медианы: предпочтения избирателей, неоднородность округов и политическое представительство» (PDF) . Журнал политической экономии . 112 (6): 1364–83. CiteSeerX   10.1.1.320.8707 . дои : 10.1086/424737 . S2CID   16695697 . Архивировано из оригинала (PDF) 1 октября 2015 г.
  13. ^ Слапин, Джонатан и Свен-Оливер Прокш. 2008. Модель масштабирования для оценки партийных позиций временных рядов на основе текстов.Американский журнал политической науки 52 (3): 705–22.
  14. ^ Кинг, Гэри, Роберт О. Кеохейн и Сидни Верба. (1994). Разработка социального исследования: научный вывод в качественных исследованиях. Принстон: Издательство Принцского университета.
  15. ^ Херринг, Сьюзан К. (2009). «Анализ веб-контента: расширение парадигмы». В Хансингере, Джереми (ред.). Международный справочник по интернет-исследованиям . Спрингер Нидерланды. стр. 233–249. CiteSeerX   10.1.1.476.6090 . дои : 10.1007/978-1-4020-9789-8_14 . ISBN  978-1-4020-9788-1 .
  16. ^ Салдана Джонни. (2009). Руководство по кодированию качественных исследований. Лондон: SAGE Publication Ltd.
  17. ^ Чуанг, Джейсон, Джон Д. Вилкерсон, Ребекка Вайс, Дастин Тингли, Брэндон М. Стюарт, Маргарет Э. Робертс, Фороф Пурсабзи-Сангде, Джастин Гриммер, Лия Финдлейтер , Джордан Бойд-Грабер и Джеффри Хир. (2014). Компьютерный контент-анализ: тематические модели для изучения множественных субъективных интерпретаций . Доклад, представленный на конференции по нейронным системам обработки информации (NIPS). Семинар по машинному обучению, управляемому человеком. Монреаль, Канада.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d18ce7b649ac09e390400899dfb7b4cb__1716058560
URL1:https://arc.ask3.ru/arc/aa/d1/cb/d18ce7b649ac09e390400899dfb7b4cb.html
Заголовок, (Title) документа по адресу, URL1:
Online content analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)