Jump to content

н -грамм

(Перенаправлено с Unigram )

Шесть н -граммов, часто встречающихся в заголовках публикаций о коронавирусном заболевании 2019 г. (COVID-19), по состоянию на 7 мая 2020 г.

n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы, извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские числовые префиксы используются , то н- грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, n -граммы также можно называть черепицей . [ 1 ]

В контексте обработки естественного языка (НЛП) использование n -грамм позволяет моделям «мешка слов» захватывать такую ​​информацию, как порядок слов, что было бы невозможно в традиционных настройках «мешка слов».

(Шеннон, 1951) [ 2 ] обсуждались n- граммные модели английского языка. Например:

  • 3-граммовая модель персонажа (случайный розыгрыш на основе вероятностей каждой триграммы): in no ist lat Whey Cratict Froure Birs grocid pondenome демонстраций ретагина - regiactiona of Cre
  • 2-граммовая модель слова (случайный выбор слов с учетом вероятностей их перехода): голова и лобовая атака на английского писателя, что характер этой точки, следовательно, является еще одним методом для букв, который когда-либо говорил о проблеме. для неожиданного
Рисунок 1. Примеры n -грамм из различных дисциплин.
Поле Единица Пример последовательности 1-граммовая последовательность 2-граммовая последовательность 3-граммовая последовательность
Народное имя униграмма биграмма триграмма
Порядок полученной марковской модели 0 1 2
Секвенирование белков аминокислота ... Цис-Гли-Лей-Сер-Трп... ..., Цис, Глай, Леу, Сер, Трп, ... ..., Цис-Гли, Гли-Лей, Леу-Сер, Сер-Трп, ... ..., Цис-Гли-Лей, Гли-Лей-Сер, Леу-Сер-Трп, ...
секвенирование ДНК базовая пара ...AGCTTCGA... ..., А, Г, С, Т, Т, С, Г, А, ... ..., AG, GC, CT, TT, TC, CG, GA, ... ..., АРУ, ГКТ, СТТ, ТТС, TCG, CGA, ...
Языковая модель характер ...быть_или_не_быть... ..., т, о, _, б, е, _, о, р, _, н, о, т, _, т, о, _, б, е, ... ..., к, о_, _б, быть, е_, _о, или, р_, _н, нет, от, т_, _т, к, о_, _б, быть, ... ..., то_, о_б, _бе, бе_, е_о, _или, или_, р_н, _но, не, от_, т_т, _то, то_, о_б, _бе, ...
Словесно - граммовая языковая модель слово ...быть или не быть... ..., быть или не быть, ... ..., быть, быть или, или не быть, не быть, ... ..., быть или, быть или не быть, или не быть, не быть, ...

На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.

Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. [ 3 ]

3 грамма

  • предметы коллекционирования керамики предметы коллекционирования (55)
  • коллекционная керамика (130)
  • керамика собрана (52)
  • керамика коллекционная керамика (50)
  • керамика, коллекционная кулинария (45)

4 грамма

  • служить входящим (92)
  • служить инкубатором (99)
  • служить независимым (794)
  • служить индексом (223)
  • служить индикатором (72)
  • служить индикатором (120)
  1. ^ Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7 . S2CID   9022773 .
  2. ^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
  3. ^ Франц, Алекс; Брантс, Торстен (2006). «Все наши N -граммы принадлежат вам» . Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.

Дальнейшее чтение

[ редактировать ]

См. также

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c527b505b60151b3589de91f6f6c53e__1718620560
URL1:https://arc.ask3.ru/arc/aa/6c/3e/6c527b505b60151b3589de91f6f6c53e.html
Заголовок, (Title) документа по адресу, URL1:
n-gram - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)