Средство просмотра Ngram Google Книг

Google Books Ngram Viewer — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2022 год. ^[1]^[2]^[3]^[4]в Google . текстовых корпусах на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках ^[1]^[2]^[5]Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. ^[6]

Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. ^[5] - граммы N сопоставляются с текстом в выбранном корпусе и, если они встречаются в 40 или более книгах, отображаются в виде графика . ^[6] Средство просмотра Ngram Google Books поддерживает поиск по частям речи и подстановочным знакам . ^[6] Его регулярно используют в исследованиях. ^[7]^[8]

История

В процессе разработки Google объединилась с двумя гарвардскими исследователями, Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом , и незаметно выпустила программу 16 декабря 2010 года. ^[2]^[9]До релиза было сложно количественно оценить скорость лингвистических изменений из-за отсутствия базы данных, предназначенной для этой цели, — рассказал Стивен Пинкер , ^[10]один из соавторов статьи Science , опубликованной в тот же день. ^[1] Таким образом, Google Books Ngram Viewer был разработан в надежде открыть новое окно для количественных исследований в области гуманитарных наук, а база данных содержала 500 миллиардов слов из 5,2 миллиона книг, с самого начала общедоступных. ^[2]^[3]^[9]

Предполагаемая аудитория была научной, но Google Books Ngram Viewer фактически позволял любому, у кого есть компьютер, легко увидеть график, который представляет диахронические изменения в использовании слов и фраз. Либерман заявил в ответ на New York Times , что разработчики стремились предоставить даже детям возможность просматривать культурные тенденции на протяжении всей истории. ^[9] В статье Science Либерман и его коллеги назвали метод анализа больших объемов данных в оцифрованных текстах « культуромикой ». ^[1]^[9]

Использование

Запятые разделяют введенные пользователем условия поиска, при этом каждый термин, разделенный запятыми, ищется в базе данных как n -грамма (например, «детский сад» — это 2-грамма или биграмма). ^[6] Затем Ngram Viewer возвращает построенную линейную диаграмму . Обратите внимание, что из-за ограничений размера базы данных Ngram индексируются только совпадения, найденные как минимум в 40 книгах. ^[6]

Ограничения

Наборы данных Ngram Viewer подвергались критике за их зависимость от неточного оптического распознавания символов и за включение большого количества неправильно датированных и классифицированных текстов. ^[11]^[12]Из-за этих ошибок и потому, что они не контролируются на предмет предвзятости. ^[13](например, увеличение количества научной литературы, из-за чего популярность других терминов снижается), рискованно использовать корпуса для изучения языка или проверки теорий. ^[14]Более того, наборы данных могут не отражать общие лингвистические или культурные изменения и могут лишь намекать на такой эффект, поскольку они не включают в себя какие-либо метаданные, такие как дата публикации, автор, объем или жанр, чтобы избежать любых потенциальных нарушений авторских прав . ^[15]

Были предложены рекомендации по проведению исследований с данными Google Ngram, которые пытаются решить некоторые из проблем, обсуждавшихся выше. ^[16]

проблемы с распознаванием символов

Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. ^[14] Хотя команда Google Книги утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для распространенных языков. терминах, а данные за несколько лет содержат более 50% шума. ^[17]^[18]

См. также

Ссылки

^ Jump up to: ^а ^б ^с ^д Майкл, Жан-Батист; Шен, Юань К.; Эйден, Авива П.; Верес, Адриан; Грей, Мэтью К.; команда Google Книги; Пикетт, Джозеф П.; Хойберг, Дейл; Клэнси, Дэн; Норвиг, Питер; Орвант, Джон; Пинкер, Стивен; Новак, Мартин А.; Эйден, Эрез Л. (2010). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–182.
^ Jump up to: ^а ^б ^с ^д Боскер, Бьянка (17 декабря 2010 г.). «База данных Google Ngram отслеживает популярность 500 миллиардов слов» . Хаффингтон Пост . Проверено 31 мая 2012 г.
^ Jump up to: ^а ^б Лэнс Уитни (17 декабря 2010 г.). «Google Ngram Viewer: машина времени для игры слов» . Cnet.com. Архивировано из оригинала 23 января 2014 г. Проверено 31 мая 2012 г.
^ @searchliaison (13 июля 2020 г.). «В программу Google Books Ngram Viewer добавлены свежие данные за 2019 год» ( твит ) . Проверено 11 августа 2020 г. - через Twitter .
^ Jump up to: ^а ^б «Программа просмотра Ngram Google Books — библиотеки Университета Буффало» . Lib.Buffalo.edu. 22 августа 2011 г. Архивировано из оригинала 2 июля 2013 г. Проверено 31 мая 2012 г.
^ Jump up to: ^а ^б ^с ^д ^и «Программа просмотра Ngram Google Books — информация» . Проверено 1 июня 2024 г.
^ Гринфилд, Патрисия М. (2013). «Изменяющаяся психология культуры с 1800 по 2000 годы» . Психологическая наука . 24 (9): 1722–1731. дои : 10.1177/0956797613479387 . ISSN 0956-7976 . ПМИД 23925305 . S2CID 6123553 .
^ Юнес, Надя; Рейпс, Ульф-Дитрих (2018). «Изменяющаяся психология культуры в немецкоязычных странах: исследование Google Ngram: МЕНЯЮЩАЯСЯ ПСИХОЛОГИЯ КУЛЬТУРЫ» . Международный журнал психологии . 53 : 53–62. дои : 10.1002/ijop.12428 . ПМИД 28474338 . S2CID 7440938 .
^ Jump up to: ^а ^б ^с ^д «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс. 16 декабря 2010 г. Проверено 1 июня 2024 г.
^ ЮАР (04 февраля 2010 г.). «Стивен Пинкер – Материал мысли: язык как окно в человеческую природу» . Проверено 2 июня 2024 г. - через YouTube.
^ «Google Ngrams: OCR и метаданные» . РесурсШельф . 19 декабря 2010 г. Архивировано из оригинала 27 апреля 2016 г. Проверено 19 апреля 2015 г.
^ Нанберг, Джефф (16 декабря 2010 г.). «Гуманитарные исследования с использованием корпуса Google Books» . Архивировано из оригинала 10 марта 2016 г. Проверено 19 апреля 2015 г.
^ Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан; Барра, Ален (07 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ПМЦ 4596490 . ПМИД 26445406 .
^ Jump up to: ^а ^б Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.
^ Коплениг, Александр (2 сентября 2015 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия в области гуманитарных наук . 32 (1) (опубликовано 01 апреля 2017 г.): 169–188. дои : 10.1093/llc/fqv037 . ISSN 2055-7671 .
^ Юнес, Надя; Рейпс, Ульф-Дитрих (22 марта 2019 г.). «Руководство по повышению надежности исследований Google Ngram: данные с точки зрения религии» . ПЛОС Один . 14 (3): e0213554. Бибкод : 2019PLoSO..1413554Y . дои : 10.1371/journal.pone.0213554 . ISSN 1932-6203 . ПМК 6430395 . ПМИД 30901329 .
^ «Google н -граммы и досовременный китайский язык» . digitalsinology.org . Проверено 19 апреля 2015 г.
^ «Когда n -граммы портятся» . digitalsinology.org . Проверено 19 апреля 2015 г.

Библиография

Лин, Юрий; и др. (июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книги» (PDF) . Материалы 50-го ежегодного собрания . Демонстрационные статьи. 2 . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 169–174. 2390499. Технический документ, представляющий издание Google Books Ngram Corpus 2012 г.

Внешние ссылки

Официальный сайт

[Culturomics-1] Jump up to: ^а ^б ^с ^д Майкл, Жан-Батист; Шен, Юань К.; Эйден, Авива П.; Верес, Адриан; Грей, Мэтью К.; команда Google Книги; Пикетт, Джозеф П.; Хойберг, Дейл; Клэнси, Дэн; Норвиг, Питер; Орвант, Джон; Пинкер, Стивен; Новак, Мартин А.; Эйден, Эрез Л. (2010). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–182.

[Huf-2] Jump up to: ^а ^б ^с ^д Боскер, Бьянка (17 декабря 2010 г.). «База данных Google Ngram отслеживает популярность 500 миллиардов слов» . Хаффингтон Пост . Проверено 31 мая 2012 г.

[Cnet-3] Jump up to: ^а ^б Лэнс Уитни (17 декабря 2010 г.). «Google Ngram Viewer: машина времени для игры слов» . Cnet.com. Архивировано из оригинала 23 января 2014 г. Проверено 31 мая 2012 г.

[4] @searchliaison (13 июля 2020 г.). «В программу Google Books Ngram Viewer добавлены свежие данные за 2019 год» ( твит ) . Проверено 11 августа 2020 г. - через Twitter .

[BufLib-5] Jump up to: ^а ^б «Программа просмотра Ngram Google Books — библиотеки Университета Буффало» . Lib.Buffalo.edu. 22 августа 2011 г. Архивировано из оригинала 2 июля 2013 г. Проверено 31 мая 2012 г.

[GInfo-6] Jump up to: ^а ^б ^с ^д ^и «Программа просмотра Ngram Google Books — информация» . Проверено 1 июня 2024 г.

[7] Гринфилд, Патрисия М. (2013). «Изменяющаяся психология культуры с 1800 по 2000 годы» . Психологическая наука . 24 (9): 1722–1731. дои : 10.1177/0956797613479387 . ISSN 0956-7976 . ПМИД 23925305 . S2CID 6123553 .

[8] Юнес, Надя; Рейпс, Ульф-Дитрих (2018). «Изменяющаяся психология культуры в немецкоязычных странах: исследование Google Ngram: МЕНЯЮЩАЯСЯ ПСИХОЛОГИЯ КУЛЬТУРЫ» . Международный журнал психологии . 53 : 53–62. дои : 10.1002/ijop.12428 . ПМИД 28474338 . S2CID 7440938 .

[NYT-9] Jump up to: ^а ^б ^с ^д «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс. 16 декабря 2010 г. Проверено 1 июня 2024 г.

[10] ЮАР (04 февраля 2010 г.). «Стивен Пинкер – Материал мысли: язык как окно в человеческую природу» . Проверено 2 июня 2024 г. - через YouTube.

[11] «Google Ngrams: OCR и метаданные» . РесурсШельф . 19 декабря 2010 г. Архивировано из оригинала 27 апреля 2016 г. Проверено 19 апреля 2015 г.

[12] Нанберг, Джефф (16 декабря 2010 г.). «Гуманитарные исследования с использованием корпуса Google Books» . Архивировано из оригинала 10 марта 2016 г. Проверено 19 апреля 2015 г.

[13] Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан; Барра, Ален (07 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ПМЦ 4596490 . ПМИД 26445406 .

[WIRED-14] Jump up to: ^а ^б Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.

[15] Коплениг, Александр (2 сентября 2015 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия в области гуманитарных наук . 32 (1) (опубликовано 01 апреля 2017 г.): 169–188. дои : 10.1093/llc/fqv037 . ISSN 2055-7671 .

[16] Юнес, Надя; Рейпс, Ульф-Дитрих (22 марта 2019 г.). «Руководство по повышению надежности исследований Google Ngram: данные с точки зрения религии» . ПЛОС Один . 14 (3): e0213554. Бибкод : 2019PLoSO..1413554Y . дои : 10.1371/journal.pone.0213554 . ISSN 1932-6203 . ПМК 6430395 . ПМИД 30901329 .

[17] «Google н -граммы и досовременный китайский язык» . digitalsinology.org . Проверено 19 апреля 2015 г.

[18] «Когда n -граммы портятся» . digitalsinology.org . Проверено 19 апреля 2015 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]