Jump to content

Средство просмотра Ngram Google Книг

(Перенаправлено с Google Ngram )
Пример запроса Ngram

Google Books Ngram Viewer  — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2022 год. [1] [2] [3] [4] в Google . текстовых корпусах на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках [1] [2] [5] Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. [6]

Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. [5] - граммы N сопоставляются с текстом в выбранном корпусе и, если они встречаются в 40 или более книгах, отображаются в виде графика . [6] Средство просмотра Ngram Google Books поддерживает поиск по частям речи и подстановочным знакам . [6] Его регулярно используют в исследованиях. [7] [8]

В процессе разработки Google объединилась с двумя гарвардскими исследователями, Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом , и незаметно выпустила программу 16 декабря 2010 года. [2] [9] До релиза было сложно количественно оценить скорость лингвистических изменений из-за отсутствия базы данных, предназначенной для этой цели, — рассказал Стивен Пинкер , [10] один из соавторов статьи Science , опубликованной в тот же день. [1] Таким образом, Google Books Ngram Viewer был разработан в надежде открыть новое окно для количественных исследований в области гуманитарных наук, а база данных содержала 500 миллиардов слов из 5,2 миллиона книг, с самого начала общедоступных. [2] [3] [9]

Предполагаемая аудитория была научной, но Google Books Ngram Viewer фактически позволял любому, у кого есть компьютер, легко увидеть график, который представляет диахронические изменения в использовании слов и фраз. Либерман заявил в ответ на New York Times , что разработчики стремились предоставить даже детям возможность просматривать культурные тенденции на протяжении всей истории. [9] В статье Science Либерман и его коллеги назвали метод анализа больших объемов данных в оцифрованных текстах « культуромикой ». [1] [9]

Использование

[ редактировать ]

Запятые разделяют введенные пользователем условия поиска, при этом каждый термин, разделенный запятыми, ищется в базе данных как n -грамма (например, «детский сад» — это 2-грамма или биграмма). [6] Затем Ngram Viewer возвращает построенную линейную диаграмму . Обратите внимание, что из-за ограничений размера базы данных Ngram индексируются только совпадения, найденные как минимум в 40 книгах. [6]

Ограничения

[ редактировать ]

Наборы данных Ngram Viewer подвергались критике за их зависимость от неточного оптического распознавания символов и за включение большого количества неправильно датированных и классифицированных текстов. [11] [12] Из-за этих ошибок и потому, что они не контролируются на предмет предвзятости. [13] (например, увеличение количества научной литературы, из-за чего популярность других терминов снижается), рискованно использовать корпуса для изучения языка или проверки теорий. [14] Более того, наборы данных могут не отражать общие лингвистические или культурные изменения и могут лишь намекать на такой эффект, поскольку они не включают в себя какие-либо метаданные, такие как дата публикации, автор, объем или жанр, чтобы избежать любых потенциальных нарушений авторских прав . [15]

Были предложены рекомендации по проведению исследований с данными Google Ngram, которые пытаются решить некоторые из проблем, обсуждавшихся выше. [16]

проблемы с распознаванием символов

[ редактировать ]

Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. [14] Хотя команда Google Книги утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для распространенных языков. терминах, а данные за несколько лет содержат более 50% шума. [17] [18]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д Майкл, Жан-Батист; Шен, Юань К.; Эйден, Авива П.; Верес, Адриан; Грей, Мэтью К.; команда Google Книги; Пикетт, Джозеф П.; Хойберг, Дейл; Клэнси, Дэн; Норвиг, Питер; Орвант, Джон; Пинкер, Стивен; Новак, Мартин А.; Эйден, Эрез Л. (2010). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–182.
  2. ^ Jump up to: а б с д Боскер, Бьянка (17 декабря 2010 г.). «База данных Google Ngram отслеживает популярность 500 миллиардов слов» . Хаффингтон Пост . Проверено 31 мая 2012 г.
  3. ^ Jump up to: а б Лэнс Уитни (17 декабря 2010 г.). «Google Ngram Viewer: машина времени для игры слов» . Cnet.com. Архивировано из оригинала 23 января 2014 г. Проверено 31 мая 2012 г.
  4. ^ @searchliaison (13 июля 2020 г.). «В программу Google Books Ngram Viewer добавлены свежие данные за 2019 год» ( твит ) . Проверено 11 августа 2020 г. - через Twitter .
  5. ^ Jump up to: а б «Программа просмотра Ngram Google Books — библиотеки Университета Буффало» . Lib.Buffalo.edu. 22 августа 2011 г. Архивировано из оригинала 2 июля 2013 г. Проверено 31 мая 2012 г.
  6. ^ Jump up to: а б с д и «Программа просмотра Ngram Google Books — информация» . Проверено 1 июня 2024 г.
  7. ^ Гринфилд, Патрисия М. (2013). «Изменяющаяся психология культуры с 1800 по 2000 годы» . Психологическая наука . 24 (9): 1722–1731. дои : 10.1177/0956797613479387 . ISSN   0956-7976 . ПМИД   23925305 . S2CID   6123553 .
  8. ^ Юнес, Надя; Рейпс, Ульф-Дитрих (2018). «Изменяющаяся психология культуры в немецкоязычных странах: исследование Google Ngram: МЕНЯЮЩАЯСЯ ПСИХОЛОГИЯ КУЛЬТУРЫ» . Международный журнал психологии . 53 : 53–62. дои : 10.1002/ijop.12428 . ПМИД   28474338 . S2CID   7440938 .
  9. ^ Jump up to: а б с д «В 500 миллиардах слов: новое окно в культуру» . Нью-Йорк Таймс. 16 декабря 2010 г. Проверено 1 июня 2024 г.
  10. ^ ЮАР (04 февраля 2010 г.). «Стивен Пинкер – Материал мысли: язык как окно в человеческую природу» . Проверено 2 июня 2024 г. - через YouTube.
  11. ^ «Google Ngrams: OCR и метаданные» . РесурсШельф . 19 декабря 2010 г. Архивировано из оригинала 27 апреля 2016 г. Проверено 19 апреля 2015 г.
  12. ^ Нанберг, Джефф (16 декабря 2010 г.). «Гуманитарные исследования с использованием корпуса Google Books» . Архивировано из оригинала 10 марта 2016 г. Проверено 19 апреля 2015 г.
  13. ^ Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан; Барра, Ален (07 октября 2015 г.). «Характеристика корпуса Google Книг: сильные ограничения на выводы социокультурной и лингвистической эволюции» . ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P . дои : 10.1371/journal.pone.0137041 . ПМЦ   4596490 . ПМИД   26445406 .
  14. ^ Jump up to: а б Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 г.
  15. ^ Коплениг, Александр (2 сентября 2015 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия в области гуманитарных наук . 32 (1) (опубликовано 01 апреля 2017 г.): 169–188. дои : 10.1093/llc/fqv037 . ISSN   2055-7671 .
  16. ^ Юнес, Надя; Рейпс, Ульф-Дитрих (22 марта 2019 г.). «Руководство по повышению надежности исследований Google Ngram: данные с точки зрения религии» . ПЛОС Один . 14 (3): e0213554. Бибкод : 2019PLoSO..1413554Y . дои : 10.1371/journal.pone.0213554 . ISSN   1932-6203 . ПМК   6430395 . ПМИД   30901329 .
  17. ^ «Google н -граммы и досовременный китайский язык» . digitalsinology.org . Проверено 19 апреля 2015 г.
  18. ^ «Когда n -граммы портятся» . digitalsinology.org . Проверено 19 апреля 2015 г.

Библиография

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4f2b3158b82a936ae9a1a360de6888df__1722660120
URL1:https://arc.ask3.ru/arc/aa/4f/df/4f2b3158b82a936ae9a1a360de6888df.html
Заголовок, (Title) документа по адресу, URL1:
Google Books Ngram Viewer - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)