Средство просмотра Ngram Google Книг
Google Books Ngram Viewer — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2022 год. [1] [2] [3] [4] в Google . текстовых корпусах на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках [1] [2] [5] Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. [6]
Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. [5] - граммы N сопоставляются с текстом в выбранном корпусе и, если они встречаются в 40 или более книгах, отображаются в виде графика . [6] Средство просмотра Ngram Google Books поддерживает поиск по частям речи и подстановочным знакам . [6] Его регулярно используют в исследованиях. [7] [8]
История
[ редактировать ]В процессе разработки Google объединилась с двумя гарвардскими исследователями, Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом , и незаметно выпустила программу 16 декабря 2010 года. [2] [9] До релиза было сложно количественно оценить скорость лингвистических изменений из-за отсутствия базы данных, предназначенной для этой цели, — рассказал Стивен Пинкер , [10] один из соавторов статьи Science , опубликованной в тот же день. [1] Таким образом, Google Books Ngram Viewer был разработан в надежде открыть новое окно для количественных исследований в области гуманитарных наук, а база данных содержала 500 миллиардов слов из 5,2 миллиона книг, с самого начала общедоступных. [2] [3] [9]
Предполагаемая аудитория была научной, но Google Books Ngram Viewer фактически позволял любому, у кого есть компьютер, легко увидеть график, который представляет диахронические изменения в использовании слов и фраз. Либерман заявил в ответ на New York Times , что разработчики стремились предоставить даже детям возможность просматривать культурные тенденции на протяжении всей истории. [9] В статье Science Либерман и его коллеги назвали метод анализа больших объемов данных в оцифрованных текстах « культуромикой ». [1] [9]
Использование
[ редактировать ]Запятые разделяют введенные пользователем условия поиска, при этом каждый термин, разделенный запятыми, ищется в базе данных как n -грамма (например, «детский сад» — это 2-грамма или биграмма). [6] Затем Ngram Viewer возвращает построенную линейную диаграмму . Обратите внимание, что из-за ограничений размера базы данных Ngram индексируются только совпадения, найденные как минимум в 40 книгах. [6]
Ограничения
[ редактировать ]Наборы данных Ngram Viewer подвергались критике за их зависимость от неточного оптического распознавания символов и за включение большого количества неправильно датированных и классифицированных текстов. [11] [12] Из-за этих ошибок и потому, что они не контролируются на предмет предвзятости. [13] (например, увеличение количества научной литературы, из-за чего популярность других терминов снижается), рискованно использовать корпуса для изучения языка или проверки теорий. [14] Более того, наборы данных могут не отражать общие лингвистические или культурные изменения и могут лишь намекать на такой эффект, поскольку они не включают в себя какие-либо метаданные, такие как дата публикации, автор, объем или жанр, чтобы избежать любых потенциальных нарушений авторских прав . [15]
Были предложены рекомендации по проведению исследований с данными Google Ngram, которые пытаются решить некоторые из проблем, обсуждавшихся выше. [16]
проблемы с распознаванием символов
[ редактировать ]Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. [14] Хотя команда Google Книги утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для распространенных языков. терминах, а данные за несколько лет содержат более 50% шума. [17] [18]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д Майкл, Жан-Батист; Шен, Юань К.; Эйден, Авива П.; Верес, Адриан; Грей, Мэтью К.; команда Google Книги; Пикетт, Джозеф П.; Хойберг, Дейл; Клэнси, Дэн; Норвиг, Питер; Орвант, Джон; Пинкер, Стивен; Новак, Мартин А.; Эйден, Эрез Л. (2010). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–182.
- ^ Jump up to: а б с д Боскер, Бьянка (17 декабря 2010 г.). «База данных Google Ngram отслеживает популярность 500 миллиардов слов» . Хаффингтон Пост . Проверено 31 мая 2012 г.
- ^ Jump up to: а б Лэнс Уитни (17 декабря 2010 г.). «Google Ngram Viewer: машина времени для игры слов» . Cnet.com. Архивировано из оригинала 23 января 2014 г. Проверено 31 мая 2012 г.
- ^ @searchliaison (13 июля 2020 г.). «В программу Google Books Ngram Viewer добавлены свежие данные за 2019 год» ( твит ) . Проверено 11 августа 2020 г. - через Twitter .
- ^ Jump up to: а б «Программа просмотра Ngram Google Books — библиотеки Университета Буффало» . Lib.Buffalo.edu. 22 августа 2011 г. Архивировано из оригинала 2 июля 2013 г. Проверено 31 мая 2012 г.
- ^ Jump up to: а б с д и «Программа просмотра Ngram Google Books — информация» . Проверено 1 июня 2024 г.
- ^ Гринфилд, Патрисия М. (2013). «Изменяющаяся психология культуры с 1800 по 2000 годы» . Психологическая наука . 24 (9): 1722–1731. дои : 10.1177/0956797613479387 . ISSN 0956-7976 . ПМИД 23925305 . S2CID 6123553 .
- ^ Юнес, Надя; Рейпс, Ульф-Дитрих (2018). «Изменяющаяся психология культуры в немецкоязычных странах: исследование Google Ngram: МЕНЯЮЩАЯСЯ ПСИХОЛОГИЯ КУЛЬТУРЫ» . Международный журнал психологии . 53 : 53–62. дои : 10.1002/ijop.12428 . ПМИД 28474338 . S2CID 7440938 .
- ^ Jump up to: а б с д «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс. 16 декабря 2010 г. Проверено 1 июня 2024 г.
- ^ ЮАР (04 февраля 2010 г.). «Стивен Пинкер – Материал мысли: язык как окно в человеческую природу» . Проверено 2 июня 2024 г. - через YouTube.
- ^ «Google Ngrams: OCR и метаданные» . РесурсШельф . 19 декабря 2010 г. Архивировано из оригинала 27 апреля 2016 г. Проверено 19 апреля 2015 г.
- ^ Нанберг, Джефф (16 декабря 2010 г.). «Гуманитарные исследования с использованием корпуса Google Books» . Архивировано из оригинала 10 марта 2016 г. Проверено 19 апреля 2015 г.
- ^ Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан; Барра, Ален (07 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ПМЦ 4596490 . ПМИД 26445406 .
- ^ Jump up to: а б Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.
- ^ Коплениг, Александр (2 сентября 2015 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия в области гуманитарных наук . 32 (1) (опубликовано 01 апреля 2017 г.): 169–188. дои : 10.1093/llc/fqv037 . ISSN 2055-7671 .
- ^ Юнес, Надя; Рейпс, Ульф-Дитрих (22 марта 2019 г.). «Руководство по повышению надежности исследований Google Ngram: данные с точки зрения религии» . ПЛОС Один . 14 (3): e0213554. Бибкод : 2019PLoSO..1413554Y . дои : 10.1371/journal.pone.0213554 . ISSN 1932-6203 . ПМК 6430395 . ПМИД 30901329 .
- ^ «Google н -граммы и досовременный китайский язык» . digitalsinology.org . Проверено 19 апреля 2015 г.
- ^ «Когда n -граммы портятся» . digitalsinology.org . Проверено 19 апреля 2015 г.
Библиография
[ редактировать ]- Лин, Юрий; и др. (июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книги» (PDF) . Материалы 50-го ежегодного собрания . Демонстрационные статьи. 2 . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 169–174. 2390499.
Технический документ, представляющий издание Google Books Ngram Corpus 2012 г.