Jump to content

Культуромика

Культуромика — это форма компьютерной лексикологии , которая изучает человеческое поведение и культурные тенденции посредством количественного анализа оцифрованных текстов. [1] [2] Исследователи собирают данные из больших цифровых архивов , чтобы исследовать культурные явления, отраженные в языке и использовании слов. [3] Этот термин представляет собой американский неологизм , впервые описанный в научной статье 2010 года под названием « Количественный анализ культуры с использованием миллионов оцифрованных книг» , написанной в соавторстве с исследователями из Гарварда Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом . [4]

Мишель и Эйден помогли создать Google Labs проект Google Ngram Viewer , который использует n-граммы для анализа цифровой библиотеки Google Книги на предмет культурных особенностей использования языка с течением времени.

Поскольку набор данных Google Ngram не является объективной выборкой, [5] и не включает метаданные, [6] Есть несколько подводных камней при использовании его для изучения языка или популярности терминов. [7] Медицинская литература занимает большую, но непостоянную долю корпуса. [8] который не учитывает, как часто литература печатается или читается.

Исследования [ править ]

Повествовательная сеть выборов в США 2012 г. [9]

В исследовании под названием «Культуромика 2.0 » Калев Х. Литару изучил архивы новостей, включая печатные и радиовещательные СМИ (расшифровки теле- и радиопередач), на предмет слов, которые передают тон или «настроение», а также географические данные. [10] [11] Исследование задним числом предсказало 2011 года Арабскую весну и успешно оценило окончательное местоположение Усамы бен Ладена с точностью до 124 миль (200 км). [10] [11]

В статье Александра М. Петерсена и соавторов 2012 года: [12] они обнаружили «резкий сдвиг в уровне рождаемости и смертности слов»: [13] Смертность увеличилась, а рождаемость замедлилась. Авторы также определили универсальный «переломный момент» в жизненном цикле новых слов примерно через 30–50 лет после их возникновения: они либо входят в долгосрочный лексикон , либо выходят из употребления. [13]

Культуромистические подходы при анализе газетного содержания использованы в ряде исследований И. Флаунаса и соавторов. Эти исследования показали макроскопические тенденции в различных новостных агентствах и странах. В 2012 году исследование 2,5 миллионов статей показало, что гендерная предвзятость в освещении новостей зависит от темы и как читаемость газетных статей связана с темой. [14] Отдельное исследование тех же исследователей, охватывающее 1,3 миллиона статей из 27 стран, [15] продемонстрировал макроскопические закономерности в выборе историй для освещения. В частности, страны делали аналогичный выбор, когда их связывали экономические, географические и культурные связи. Культурные связи проявились в схожести голосования на конкурсе песни «Евровидение» . Это исследование было проведено в широком масштабе с использованием методов статистического машинного перевода , категоризации текста и методов извлечения информации .

Возможность обнаружить изменения настроения у огромной популяции путем анализа контента Twitter была продемонстрирована в исследовании Т. Лансдалл-Велфер и соавторов. [16] В исследовании было рассмотрено 84 миллиона твитов, созданных более чем 9,8 миллионами пользователей из Соединенного Королевства за период 31 месяц, и показано, как изменились общественные настроения в Великобритании после объявления о сокращении расходов.

В исследовании 2013 года, проведенном С. Судхахаром и соавторами, автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных элементов. узлы. [17]

В исследовании 2014 года, проведенном T Lansdall-Welfare и соавторами, за 5 лет было собрано 5 миллионов новостных статей. [18] а затем проанализировали, чтобы предположить значительный сдвиг в настроениях относительно освещения ядерной энергетики, соответствующий катастрофе на Фукусиме . Исследование также выявило концепции, которые были связаны с ядерной энергетикой до и после катастрофы, объясняя изменение настроений изменением повествовательной структуры.

В 2015 году исследование выявило предвзятость набора данных о книгах Google, который «страдает от ряда ограничений, которые делают его неясной маской культурной популярности». [5] и ставит под сомнение значимость многих более ранних результатов.

Культуромические подходы также могут внести свой вклад в науку об охране природы благодаря лучшему пониманию взаимоотношений человека и природы, как показало первое исследование, опубликованное МакКаллумом и Бери в 2013 году. [19] Это исследование выявило резкое снижение общественного интереса к проблемам окружающей среды. В 2016 году вышла публикация Ричарда Лэдла и его коллег. [20] выделил пять ключевых областей, в которых культуромика может использоваться для продвижения практики и науки сохранения, включая признание групп, ориентированных на сохранение, и демонстрацию общественного интереса к природе, определение эмблем сохранения, предоставление новых показателей и инструментов для экологического мониторинга в режиме, близком к реальному времени , а также для поддерживать принятие решений по сохранению, оценивать культурное воздействие природоохранных мероприятий, формулировать вопросы сохранения и способствовать пониманию общественности.

В 2017 году исследование связало боль в суставах с поисковой активностью в Google и температурой. [21] Хотя в исследовании наблюдалась более высокая активность поиска боли в бедрах и коленях (но не артрита ) во время более высоких температур, оно не учитывало (и не может) контролировать другие важные факторы, такие как активность. СМИ неверно истолковали это как «развенчанный миф: дождь не усиливает боль в суставах». [22] [23] в то время как авторы предполагают, что наблюдаемая корреляция связана с «изменениями уровня физической активности». [24]

Критика [ править ]

Лингвисты и лексикографы выразили скептицизм относительно методов и результатов некоторых из этих исследований, в том числе исследования Петерсена и др. [25] Другие продемонстрировали предвзятость в наборе данных Ngram. Их результаты «ставят под сомнение подавляющее большинство существующих утверждений, взятых из корпуса Google Книги»: [5] «Вместо того, чтобы говорить об общих лингвистических или культурных изменениях, кажется предпочтительнее явно ограничить результаты лингвистическими или культурными изменениями, «как они представлены в данных Google Ngram»» [6] поскольку неясно, что вызвало наблюдаемое изменение в образце. Фичетола раскритиковал использование Google Trends, предположив, что интерес на самом деле растет. [26] Но в своем опровержении МакКаллум и Бери [27] при условии, что с точки зрения государственной политики пропорциональные данные важны, а абсолютные цифры не имеют значения, объясняя это тем, что политика определяется мнением наибольшей части населения, а не абсолютным числом, при этом решения принимаются в соответствии с влиянием большинства, а не просто количеством голоса.

См. также [ править ]

Ссылки [ править ]

  1. ^ Коэн, Патрисия (16 декабря 2010 г.). «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс .
  2. ^ Хейс, Брайан (май – июнь 2011 г.). «Бит Литт» . Американский учёный . 99 (3): 190. дои : 10.1511/2011.90.190 . Архивировано из оригинала 18 октября 2016 г. Проверено 9 сентября 2011 г.
  3. ^ Летчер, Дэвид В. (6 апреля 2011 г.). «Култоромика: новый способ увидеть временные изменения в распространенности слов и фраз» (PDF) . Материалы 6-й международной конференции Американского института высшего образования . 4 (1): 228. Архивировано из оригинала (PDF) 3 марта 2016 года . Проверено 9 сентября 2011 г.
  4. ^ Мишель, Жан-Батист; Либерман Эйден, Эрез (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–82. дои : 10.1126/science.1199644 . ПМК   3279742 . ПМИД   21163965 .
  5. Перейти обратно: Перейти обратно: а б с Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан (7 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ISSN   1932-6203 . ПМЦ   4596490 . ПМИД   26445406 .
  6. Перейти обратно: Перейти обратно: а б Коплениг, Александр (апрель 2017 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук . 32 (1): 169–188. дои : 10.1093/llc/fqv037 . ISSN   2055-7671 .
  7. ^ Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.
  8. ^ Сравнение примеров терминов
  9. ^ Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2015). «Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа» . Большие данные и общество . 2 . дои : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID   62188746 .
  10. Перейти обратно: Перейти обратно: а б Литару, Калев Х. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве» . Первый понедельник . 16 (9). дои : 10.5210/fm.v16i9.3663 .
  11. Перейти обратно: Перейти обратно: а б Квик, Даррен (7 сентября 2011 г.). «Исследования в области культуромики используют четвертьвековое освещение в СМИ для прогнозирования поведения человека» . Gizmag.com . Проверено 9 сентября 2011 г.
  12. ^ Петерсен, Александр М. (15 марта 2012 г.). «Статистические законы, управляющие колебаниями в употреблении слов от рождения слова до смерти слова» . Научные отчеты . 2 : 313. arXiv : 1107.3707 . Бибкод : 2012НатСР...2Э.313П . дои : 10.1038/srep00313 . ПМК   3304511 . ПМИД   22423321 .
  13. Перейти обратно: Перейти обратно: а б «Новая наука о рождении и смерти слов» , КРИСТОФЕР ШИ, Wall Street Journal , 16 марта 2012 г.
  14. ^ Флаунас, Илиас; Али, Омар; Лансдалл-Велфэр, Томас; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2013). «Методы исследования в эпоху цифровой журналистики» . Цифровая журналистика . 1 : 102–116. дои : 10.1080/21670811.2012.714928 . S2CID   61080552 .
  15. ^ Флаунас, Илиас; Турки, Марко; Али, Омар; Файсон, Ник; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2010). «Структура медиасферы ЕС» . ПЛОС ОДИН . 5 (12): e14243. Бибкод : 2010PLoSO...514243F . дои : 10.1371/journal.pone.0014243 . ПМЦ   2999531 . ПМИД   21170383 .
  16. ^ Лансдалл-Велфэр, Томас; Лампос, Василейос; Кристианини, Нелло (2012). «Влияние рецессии на общественные настроения в Великобритании». Материалы 21-й международной конференции-спутника по Всемирной паутине - WWW '12 Companion . п. 1221. дои : 10.1145/2187980.2188264 . ISBN  9781450312301 . S2CID   1825992 .
  17. ^ Судхахар, Саатвига; Де Фасио, Джанлука; Франзози, Роберто; Кристианини, Нелло (2015). «Сетевой анализ повествовательного контента в больших корпусах» . Инженерия естественного языка . 21 : 81–112. дои : 10.1017/S1351324913000247 . hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID   3385681 .
  18. ^ Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2014). «Об освещении науки в СМИ: исследование больших данных о последствиях катастрофы на Фукусиме». 2014 Международная конференция IEEE по большим данным (Big Data) . стр. 60–66. дои : 10.1109/BigData.2014.7004454 . hdl : 2381/31439 . ISBN  978-1-4799-5666-1 . S2CID   7686818 .
  19. ^ МакКаллум, Малкольм Л.; Бери, Гвендолинн В. (2016). «Сохранение культуромики» . Биоразнообразие и сохранение . 22 (6–7): 1355–1367. Бибкод : 2016FrEE...14..269L . дои : 10.1002/плата.1260 . S2CID   199392763 .
  20. ^ Ладл, Ричард Дж.; Коррейя, Рикардо А.; Делай, Юно; Джу, Геа-Дже; Мальхадо, Ана СМ; Пру, Рафаэль; Роберж, Жан-Мишель; Джепсон, Пол (2016). «Сохранение культуромики» . Границы в экологии и окружающей среде . 14 (5): 269–275. Бибкод : 2016FrEE...14..269L . дои : 10.1002/плата.1260 . S2CID   199392763 .
  21. ^ Телфер, Скотт; Обрадович, Ник (9 августа 2017 г.). «Местная погода связана с частотой онлайн-поиска симптомов скелетно-мышечной боли» . ПЛОС ОДИН . 12 (8): e0181266. Бибкод : 2017PLoSO..1281266T . дои : 10.1371/journal.pone.0181266 . ISSN   1932-6203 . ПМЦ   5549896 . ПМИД   28792953 .
  22. ^ «Связаны ли боли в суставах с дождем? Google предполагает обратное» . Новости Эн-Би-Си . Проверено 10 августа 2017 г.
  23. ^ «Этот миф о боли в суставах — полная чушь» . Мужское здоровье . 10 августа 2017 г. Проверено 10 августа 2017 г.
  24. ^ «Дождь усиливает боль в суставах? Google предполагает обратное: уровень активности людей, повышающийся по мере повышения температуры до определенной точки, с большей вероятностью, чем сама погода, вызывает боль, которая мотивирует поиск в Интернете, говорят исследователи» . ScienceDaily . Проверено 10 августа 2017 г.
  25. ^ «Когда физики занимаются лингвистикой» , БЕН ЦИММЕР, Boston Globe , 10 февраля 2013 г.
  26. ^ Фичетола, Г.Ф. (2014). «Действительно ли снижается интерес к окружающей среде? Сложность анализа тенденций с использованием данных поиска в Интернете» . Биоразнообразие и сохранение . 23 (12): 2983–2988. дои : 10.1007/s10531-013-0552-y . S2CID   17003129 .
  27. ^ МакКаллум, Малкольм Л. (2014). «Общественный интерес к окружающей среде падает: ответ Фичетоле (2013)» . Биоразнообразие и сохранение . 23 (2): 1057–1062. Бибкод : 2014BiCon..23.1057M . дои : 10.1007/s10531-014-0640-7 . S2CID   7056654 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

  • Culturomics.org , веб-сайт Культурной обсерватории Гарварда под руководством Эреза Либермана Эйдена и Жана-Батиста Мишеля.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: dc7ffb269648f2534746e9b4110eaa63__1714966560
URL1:https://arc.ask3.ru/arc/aa/dc/63/dc7ffb269648f2534746e9b4110eaa63.html
Заголовок, (Title) документа по адресу, URL1:
Culturomics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)