Jump to content

n -gram

(Перенаправлено из модели N-грамма )

Шесть n -граммов, часто встречающихся в названиях публикаций о болезнях коронавируса 2019 (Covid -19), по состоянию на 7 мая 2020 года.

N N -грама -это последовательность прилегающих символов в определенном порядке. Символы могут быть n соседними буквами (включая знаки препинания и пробелы), слоги или редко целые слова , найденные в языковом наборе данных; или прилегающие фонемы, извлеченные из набора данных речевой записи, или прилегающих пары оснований, извлеченных из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские численные префиксы используются , то n -грама размера 1 называется «Unigram», размер 2 A « Биграм » (или, реже, «диграм») и т. Д. Если вместо латинских Кардинальные числа используются в дальнейшем, тогда они называются «четырех грамм», «пять граммов» и т. Д. Аналогично, используя греческие численные префиксы, такие как «мономер», «димер», «тример», «тетрамер», «Пентамер «и т. д., или английские кардинальные числа,« одномерные »,« двухмерные »,« Трехмерные »и т. Д. Используются в вычислительной биологии, для полимеров или олигомеров известного размера, называемых k -мерами . Когда предметы являются словами, n -граммы также могут быть названы черепицей . [ 1 ]

В контексте обработки естественного языка (NLP) использование n -граммов позволяет моделям пакетов слов собирать информацию, такую ​​как порядок слов, что не было бы возможно в традиционном пакете слов.

(Shannon 1951) [ 2 ] обсуждались n -грамма модели английского языка. Например:

  • 3-граммовая модель символа (случайное рисование на основе вероятностей каждой триграммы): в NO IT LAT
  • 2-граммовая модель слов (случайная вытяжка слов с учетом их вероятностей перехода): голова и фронтальная атака на английского писателя, что характер этого момента является еще одним методом для букв, которые время когда-либо говорили проблему для неожиданного
Рисунок 1 N -Грама Примеры из различных дисциплин
Поле Единица Пример последовательности 1-граммовая последовательность 2-граммовая последовательность 3-граммовая последовательность
Народное имя разоблачение Биграм Триграмм
Порядок полученной модели Маркова 0 1 2
Секвенирование белка аминокислота ... cys-gly-leu-ser-trp ... ..., Cys, Gly, Leu, Ser, Trp, ... ..., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, ... ..., Cys-Gly-Leu, Gly-Leu-Being, Read-Being-Trp, ...
Секвенирование ДНК базовая пара ... agcttcga ... ..., A, G, C, T, T, C, G, A, ... ..., Ag, GC, CT, TT, TC, CG, GA, ... ..., agc, gct, ctt, ttc, tcg, cga, ...
Языковая модель характер ... to_be_or_not_to_be ... ..., T, O, _, B, E, _, O, R, _, N, O, T, _, T, O, _, B, E, ... ..., to, o_, _b, be, e_, _o, или, r_, _n, no, ot, t_, _t, to, o_, _b, be, ... ..., to_, ​​o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, ​​o_b, _be, ...
Word n ​​-Gram Language Model слово ... быть или не быть ... ..., чтобы, быть, или, не, чтобы быть, ... ..., быть, быть или, или нет, не для того, чтобы быть ... ..., быть или, быть или нет, или нет, не быть, ...

На рисунке 1 показано несколько примеров последовательностей и соответствующих 1-граммовых, 2-граммовых и 3-граммовых последовательностей.

Вот дальнейшие примеры; Это 3 грамма на уровне слов и 4 грамма (и количество случаев, когда они появлялись) из корпуса Google N -Gram. [ 3 ]

3 грамма

  • Коллекционированные предметы коллекционирования керамики (55)
  • Керамика коллекционируется прекрасно (130)
  • керамика, собранная (52)
  • Керамика коллекционная керамика (50)
  • Керамика коллекционирования кулинарии (45)

4 грамма

  • служить входящим (92)
  • служить инкубатором (99)
  • служить независимым (794)
  • служить индексом (223)
  • служить индикацией (72)
  • служить индикатором (120)
  1. ^ Broder, Andrei Z.; Глассман, Стивен С.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Синтаксическая кластеризация Интернета». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. doi : 10.1016/s0169-7552 (97) 00031-7 . S2CID   9022773 .
  2. ^ Шеннон, Клод Э. «Избыточность английского». Кибернетика; Труды 7 -й конференции, Нью -Йорк: Джозия Мэйси -младший . 1951.
  3. ^ Франц, Алекс; Брант, Торстен (2006). «Все наши n -грама принадлежат вам» . Google Research Blog . Архивировано из оригинала 17 октября 2006 года . Получено 16 декабря 2011 года .

Дальнейшее чтение

[ редактировать ]

Смотрите также

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 56c5e84b9079ca188ee1c3f4205819e0__1718620560
URL1:https://arc.ask3.ru/arc/aa/56/e0/56c5e84b9079ca188ee1c3f4205819e0.html
Заголовок, (Title) документа по адресу, URL1:
n-gram - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)