Культуромика
Культуромика — это форма компьютерной лексикологии , которая изучает человеческое поведение и культурные тенденции посредством количественного анализа оцифрованных текстов. [1] [2] Исследователи собирают данные из больших цифровых архивов , чтобы исследовать культурные явления, отраженные в языке и использовании слов. [3] Этот термин представляет собой американский неологизм , впервые описанный в научной статье 2010 года под названием « Количественный анализ культуры с использованием миллионов оцифрованных книг» , написанной в соавторстве с исследователями из Гарварда Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом . [4]
Мишель и Эйден помогли создать Google Labs проект Google Ngram Viewer , который использует n-граммы для анализа цифровой библиотеки Google Книги на предмет культурных особенностей использования языка с течением времени.
Поскольку набор данных Google Ngram не является объективной выборкой, [5] и не включает метаданные, [6] Есть несколько подводных камней при использовании его для изучения языка или популярности терминов. [7] Медицинская литература занимает большую, но непостоянную долю корпуса. [8] который не учитывает, как часто литература печатается или читается.
Исследования [ править ]

В исследовании под названием «Культуромика 2.0 » Калев Х. Литару изучил архивы новостей, включая печатные и радиовещательные СМИ (расшифровки теле- и радиопередач), на предмет слов, которые передают тон или «настроение», а также географические данные. [10] [11] Исследование задним числом предсказало 2011 года Арабскую весну и успешно оценило окончательное местоположение Усамы бен Ладена с точностью до 124 миль (200 км). [10] [11]
В статье Александра М. Петерсена и соавторов 2012 года: [12] они обнаружили «резкий сдвиг в уровне рождаемости и смертности слов»: [13] Смертность увеличилась, а рождаемость замедлилась. Авторы также определили универсальный «переломный момент» в жизненном цикле новых слов примерно через 30–50 лет после их возникновения: они либо входят в долгосрочный лексикон , либо выходят из употребления. [13]
Культуромистические подходы при анализе газетного содержания использованы в ряде исследований И. Флаунаса и соавторов. Эти исследования показали макроскопические тенденции в различных новостных агентствах и странах. В 2012 году исследование 2,5 миллионов статей показало, что гендерная предвзятость в освещении новостей зависит от темы и как читаемость газетных статей связана с темой. [14] Отдельное исследование тех же исследователей, охватывающее 1,3 миллиона статей из 27 стран, [15] продемонстрировал макроскопические закономерности в выборе историй для освещения. В частности, страны делали аналогичный выбор, когда их связывали экономические, географические и культурные связи. Культурные связи проявились в схожести голосования на конкурсе песни «Евровидение» . Это исследование было проведено в широком масштабе с использованием методов статистического машинного перевода , категоризации текста и методов извлечения информации .
Возможность обнаружить изменения настроения у огромной популяции путем анализа контента Twitter была продемонстрирована в исследовании Т. Лансдалл-Велфер и соавторов. [16] В исследовании было рассмотрено 84 миллиона твитов, созданных более чем 9,8 миллионами пользователей из Соединенного Королевства за период 31 месяц, и показано, как изменились общественные настроения в Великобритании после объявления о сокращении расходов.
В исследовании 2013 года, проведенном С. Судхахаром и соавторами, автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных элементов. узлы. [17]
В исследовании 2014 года, проведенном T Lansdall-Welfare и соавторами, за 5 лет было собрано 5 миллионов новостных статей. [18] а затем проанализировали, чтобы предположить значительный сдвиг в настроениях относительно освещения ядерной энергетики, соответствующий катастрофе на Фукусиме . Исследование также выявило концепции, которые были связаны с ядерной энергетикой до и после катастрофы, объясняя изменение настроений изменением повествовательной структуры.
В 2015 году исследование выявило предвзятость набора данных о книгах Google, который «страдает от ряда ограничений, которые делают его неясной маской культурной популярности». [5] и ставит под сомнение значимость многих более ранних результатов.
Культуромические подходы также могут внести свой вклад в науку об охране природы благодаря лучшему пониманию взаимоотношений человека и природы, как показало первое исследование, опубликованное МакКаллумом и Бери в 2013 году. [19] Это исследование выявило резкое снижение общественного интереса к проблемам окружающей среды. В 2016 году вышла публикация Ричарда Лэдла и его коллег. [20] выделил пять ключевых областей, в которых культуромика может использоваться для продвижения практики и науки сохранения, включая признание групп, ориентированных на сохранение, и демонстрацию общественного интереса к природе, определение эмблем сохранения, предоставление новых показателей и инструментов для экологического мониторинга в режиме, близком к реальному времени , а также для поддерживать принятие решений по сохранению, оценивать культурное воздействие природоохранных мероприятий, формулировать вопросы сохранения и способствовать пониманию общественности.
В 2017 году исследование связало боль в суставах с поисковой активностью в Google и температурой. [21] Хотя в исследовании наблюдалась более высокая активность поиска боли в бедрах и коленях (но не артрита ) во время более высоких температур, оно не учитывало (и не может) контролировать другие важные факторы, такие как активность. СМИ неверно истолковали это как «развенчанный миф: дождь не усиливает боль в суставах». [22] [23] в то время как авторы предполагают, что наблюдаемая корреляция связана с «изменениями уровня физической активности». [24]
Критика [ править ]
Лингвисты и лексикографы выразили скептицизм относительно методов и результатов некоторых из этих исследований, в том числе исследования Петерсена и др. [25] Другие продемонстрировали предвзятость в наборе данных Ngram. Их результаты «ставят под сомнение подавляющее большинство существующих утверждений, взятых из корпуса Google Книги»: [5] «Вместо того, чтобы говорить об общих лингвистических или культурных изменениях, кажется предпочтительнее явно ограничить результаты лингвистическими или культурными изменениями, «как они представлены в данных Google Ngram»» [6] поскольку неясно, что вызвало наблюдаемое изменение в образце. Фичетола раскритиковал использование Google Trends, предположив, что интерес на самом деле растет. [26] Но в своем опровержении МакКаллум и Бери [27] при условии, что с точки зрения государственной политики пропорциональные данные важны, а абсолютные цифры не имеют значения, объясняя это тем, что политика определяется мнением наибольшей части населения, а не абсолютным числом, при этом решения принимаются в соответствии с влиянием большинства, а не просто количеством голоса.
См. также [ править ]
Ссылки [ править ]
- ^ Коэн, Патрисия (16 декабря 2010 г.). «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс .
- ^ Хейс, Брайан (май – июнь 2011 г.). «Бит Литт» . Американский учёный . 99 (3): 190. дои : 10.1511/2011.90.190 . Архивировано из оригинала 18 октября 2016 г. Проверено 9 сентября 2011 г.
- ^ Летчер, Дэвид В. (6 апреля 2011 г.). «Култоромика: новый способ увидеть временные изменения в распространенности слов и фраз» (PDF) . Материалы 6-й международной конференции Американского института высшего образования . 4 (1): 228. Архивировано из оригинала (PDF) 3 марта 2016 года . Проверено 9 сентября 2011 г.
- ^ Мишель, Жан-Батист; Либерман Эйден, Эрез (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–82. дои : 10.1126/science.1199644 . ПМК 3279742 . ПМИД 21163965 .
- ↑ Перейти обратно: Перейти обратно: а б с Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан (7 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ISSN 1932-6203 . ПМЦ 4596490 . ПМИД 26445406 .
- ↑ Перейти обратно: Перейти обратно: а б Коплениг, Александр (апрель 2017 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук . 32 (1): 169–188. дои : 10.1093/llc/fqv037 . ISSN 2055-7671 .
- ^ Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.
- ^ Сравнение примеров терминов
- ^ Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2015). «Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа» . Большие данные и общество . 2 . дои : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID 62188746 .
- ↑ Перейти обратно: Перейти обратно: а б Литару, Калев Х. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве» . Первый понедельник . 16 (9). дои : 10.5210/fm.v16i9.3663 .
- ↑ Перейти обратно: Перейти обратно: а б Квик, Даррен (7 сентября 2011 г.). «Исследования в области культуромики используют четвертьвековое освещение в СМИ для прогнозирования поведения человека» . Gizmag.com . Проверено 9 сентября 2011 г.
- ^ Петерсен, Александр М. (15 марта 2012 г.). «Статистические законы, управляющие колебаниями в употреблении слов от рождения слова до смерти слова» . Научные отчеты . 2 : 313. arXiv : 1107.3707 . Бибкод : 2012НатСР...2Э.313П . дои : 10.1038/srep00313 . ПМК 3304511 . ПМИД 22423321 .
- ↑ Перейти обратно: Перейти обратно: а б «Новая наука о рождении и смерти слов» , КРИСТОФЕР ШИ, Wall Street Journal , 16 марта 2012 г.
- ^ Флаунас, Илиас; Али, Омар; Лансдалл-Велфэр, Томас; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2013). «Методы исследования в эпоху цифровой журналистики» . Цифровая журналистика . 1 : 102–116. дои : 10.1080/21670811.2012.714928 . S2CID 61080552 .
- ^ Флаунас, Илиас; Турки, Марко; Али, Омар; Файсон, Ник; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2010). «Структура медиасферы ЕС» . ПЛОС ОДИН . 5 (12): e14243. Бибкод : 2010PLoSO...514243F . дои : 10.1371/journal.pone.0014243 . ПМЦ 2999531 . ПМИД 21170383 .
- ^ Лансдалл-Велфэр, Томас; Лампос, Василейос; Кристианини, Нелло (2012). «Влияние рецессии на общественные настроения в Великобритании». Материалы 21-й международной конференции-спутника по Всемирной паутине - WWW '12 Companion . п. 1221. дои : 10.1145/2187980.2188264 . ISBN 9781450312301 . S2CID 1825992 .
- ^ Судхахар, Саатвига; Де Фасио, Джанлука; Франзози, Роберто; Кристианини, Нелло (2015). «Сетевой анализ повествовательного контента в больших корпусах» . Инженерия естественного языка . 21 : 81–112. дои : 10.1017/S1351324913000247 . hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID 3385681 .
- ^ Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2014). «Об освещении науки в СМИ: исследование больших данных о последствиях катастрофы на Фукусиме». 2014 Международная конференция IEEE по большим данным (Big Data) . стр. 60–66. дои : 10.1109/BigData.2014.7004454 . hdl : 2381/31439 . ISBN 978-1-4799-5666-1 . S2CID 7686818 .
- ^ МакКаллум, Малкольм Л.; Бери, Гвендолинн В. (2016). «Сохранение культуромики» . Биоразнообразие и сохранение . 22 (6–7): 1355–1367. Бибкод : 2016FrEE...14..269L . дои : 10.1002/плата.1260 . S2CID 199392763 .
- ^ Ладл, Ричард Дж.; Коррейя, Рикардо А.; Делай, Юно; Джу, Геа-Дже; Мальхадо, Ана СМ; Пру, Рафаэль; Роберж, Жан-Мишель; Джепсон, Пол (2016). «Сохранение культуромики» . Границы в экологии и окружающей среде . 14 (5): 269–275. Бибкод : 2016FrEE...14..269L . дои : 10.1002/плата.1260 . S2CID 199392763 .
- ^ Телфер, Скотт; Обрадович, Ник (9 августа 2017 г.). «Местная погода связана с частотой онлайн-поиска симптомов скелетно-мышечной боли» . ПЛОС ОДИН . 12 (8): e0181266. Бибкод : 2017PLoSO..1281266T . дои : 10.1371/journal.pone.0181266 . ISSN 1932-6203 . ПМЦ 5549896 . ПМИД 28792953 .
- ^ «Связаны ли боли в суставах с дождем? Google предполагает обратное» . Новости Эн-Би-Си . Проверено 10 августа 2017 г.
- ^ «Этот миф о боли в суставах — полная чушь» . Мужское здоровье . 10 августа 2017 г. Проверено 10 августа 2017 г.
- ^ «Дождь усиливает боль в суставах? Google предполагает обратное: уровень активности людей, повышающийся по мере повышения температуры до определенной точки, с большей вероятностью, чем сама погода, вызывает боль, которая мотивирует поиск в Интернете, говорят исследователи» . ScienceDaily . Проверено 10 августа 2017 г.
- ^ «Когда физики занимаются лингвистикой» , БЕН ЦИММЕР, Boston Globe , 10 февраля 2013 г.
- ^ Фичетола, Г.Ф. (2014). «Действительно ли снижается интерес к окружающей среде? Сложность анализа тенденций с использованием данных поиска в Интернете» . Биоразнообразие и сохранение . 23 (12): 2983–2988. дои : 10.1007/s10531-013-0552-y . S2CID 17003129 .
- ^ МакКаллум, Малкольм Л. (2014). «Общественный интерес к окружающей среде падает: ответ Фичетоле (2013)» . Биоразнообразие и сохранение . 23 (2): 1057–1062. Бибкод : 2014BiCon..23.1057M . дои : 10.1007/s10531-014-0640-7 . S2CID 7056654 .
Дальнейшее чтение [ править ]
- Мишель, Жан-Батист; Либерман Эйден, Эрез ; Эйден, AP; Верес, А.; Грей, МК; Пикетт, JP; Хойберг, Д.; Клэнси, Д.; Норвиг, П.; Орван, Джон; Новак, Мартин ; Пинкер, Стивен (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–82. дои : 10.1126/science.1199644 . ПМК 3279742 . ПМИД 21163965 .
- Литару, Калев Х. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве» . Первый понедельник . 16 (9). дои : 10.5210/fm.v16i9.3663 .
- Боханнон, Джон (14 января 2011 г.). «Google Книги, Arc.Ask3.Ru и будущее культуромики» . Наука . 331 (6014): 135. Бибкод : 2011Sci...331..135B . дои : 10.1126/science.331.6014.135 . ПМИД 21233356 .
- Шварц, Тим (1 апреля 2011 г.). «Культуромика: периодические издания измеряют пульс культуры». Наука . 332 (6025): 35–36. Бибкод : 2011Sci...332...35S . дои : 10.1126/science.332.6025.35-c . ПМИД 21454770 .
- Морс-Ганье, Элиза Э. (1 апреля 2011 г.). «Культуромика: статистические ловушки искажают данные». Наука . 332 (6025): 35, ответ автора 36–7. Бибкод : 2011Наука...332...35М . дои : 10.1126/science.332.6025.35-b . ПМИД 21454771 .
- Ши, Кристофер (16 марта 2012 г.). «Новая наука о рождении и смерти слов» . Уолл Стрит Джорнал . Проверено 15 января 2013 г.
- Ачерби, Альберто; Лампос, Василейос; Гарнетт, Филип; Бентли, Александр (20 марта 2013 г.). «Выражение эмоций в книгах ХХ века» . ПЛОС ОДИН . 8 (3): e59030. Бибкод : 2013PLoSO...859030A . дои : 10.1371/journal.pone.0059030 . ПМК 3604170 . ПМИД 23527080 .
- Бентли, Александр; Ачерби, Альберто; Ормерод, Пол; Лампос, Василейос (8 января 2014 г.). «Книги в среднем за предыдущее десятилетие экономических страданий» . ПЛОС ОДИН . 9 (1): e83147. Бибкод : 2014PLoSO...983147B . дои : 10.1371/journal.pone.0083147 . ПМЦ 3885402 . ПМИД 24416159 .
- Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Кристианини, Нелло (2017). «Контент-анализ британских периодических изданий за 150 лет» . Труды Национальной академии наук Соединенных Штатов Америки . 114 (4): Е457–Е465. Бибкод : 2017PNAS..114E.457L . дои : 10.1073/pnas.1606380114 . ПМЦ 5278459 . ПМИД 28069962 .
Внешние ссылки [ править ]
- Culturomics.org , веб-сайт Культурной обсерватории Гарварда под руководством Эреза Либермана Эйдена и Жана-Батиста Мишеля.