n -gram

N N -грама -это последовательность прилегающих символов в определенном порядке. Символы могут быть n соседними буквами (включая знаки препинания и пробелы), слоги или редко целые слова , найденные в языковом наборе данных; или прилегающие фонемы, извлеченные из набора данных речевой записи, или прилегающих пары оснований, извлеченных из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские численные префиксы используются , то n -грама размера 1 называется «Unigram», размер 2 A « Биграм » (или, реже, «диграм») и т. Д. Если вместо латинских Кардинальные числа используются в дальнейшем, тогда они называются «четырех грамм», «пять граммов» и т. Д. Аналогично, используя греческие численные префиксы, такие как «мономер», «димер», «тример», «тетрамер», «Пентамер «и т. д., или английские кардинальные числа,« одномерные »,« двухмерные »,« Трехмерные »и т. Д. Используются в вычислительной биологии, для полимеров или олигомеров известного размера, называемых k -мерами . Когда предметы являются словами, $n$ -граммы также могут быть названы черепицей . ^{[ 1 ]}

В контексте обработки естественного языка (NLP) использование n -граммов позволяет моделям пакетов слов собирать информацию, такую как порядок слов, что не было бы возможно в традиционном пакете слов.

Примеры

(Shannon 1951) ^{[ 2 ]} обсуждались n -грамма модели английского языка. Например:

3-граммовая модель символа (случайное рисование на основе вероятностей каждой триграммы): в NO IT LAT
2-граммовая модель слов (случайная вытяжка слов с учетом их вероятностей перехода): голова и фронтальная атака на английского писателя, что характер этого момента является еще одним методом для букв, которые время когда-либо говорили проблему для неожиданного

Рисунок 1 N -Грама Примеры из различных дисциплин
Поле	Единица	Пример последовательности	1-граммовая последовательность	2-граммовая последовательность	3-граммовая последовательность
Народное имя			разоблачение	Биграм	Триграмм
Порядок полученной модели Маркова			0	1	2
Секвенирование белка	аминокислота	... cys-gly-leu-ser-trp ...	..., Cys, Gly, Leu, Ser, Trp, ...	..., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, ...	..., Cys-Gly-Leu, Gly-Leu-Being, Read-Being-Trp, ...
Секвенирование ДНК	базовая пара	... agcttcga ...	..., A, G, C, T, T, C, G, A, ...	..., Ag, GC, CT, TT, TC, CG, GA, ...	..., agc, gct, ctt, ttc, tcg, cga, ...
Языковая модель	характер	... to_be_or_not_to_be ...	..., T, O, _, B, E, _, O, R, _, N, O, T, _, T, O, _, B, E, ...	..., to, o_, _b, be, e_, _o, или, r_, _n, no, ot, t_, _t, to, o_, _b, be, ...	..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, ...
Word n -Gram Language Model	слово	... быть или не быть ...	..., чтобы, быть, или, не, чтобы быть, ...	..., быть, быть или, или нет, не для того, чтобы быть ...	..., быть или, быть или нет, или нет, не быть, ...

На рисунке 1 показано несколько примеров последовательностей и соответствующих 1-граммовых, 2-граммовых и 3-граммовых последовательностей.

Вот дальнейшие примеры; Это 3 грамма на уровне слов и 4 грамма (и количество случаев, когда они появлялись) из корпуса Google N -Gram. ^{[ 3 ]}

3 грамма

Коллекционированные предметы коллекционирования керамики (55)
Керамика коллекционируется прекрасно (130)
керамика, собранная (52)
Керамика коллекционная керамика (50)
Керамика коллекционирования кулинарии (45)

4 грамма

служить входящим (92)
служить инкубатором (99)
служить независимым (794)
служить индексом (223)
служить индикацией (72)
служить индикатором (120)

Ссылки

^ Broder, Andrei Z.; Глассман, Стивен С.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Синтаксическая кластеризация Интернета». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. doi : 10.1016/s0169-7552 (97) 00031-7 . S2CID 9022773 .
^ Шеннон, Клод Э. «Избыточность английского». Кибернетика; Труды 7 -й конференции, Нью -Йорк: Джозия Мэйси -младший . 1951.
^ Франц, Алекс; Брант, Торстен (2006). «Все наши n -грама принадлежат вам» . Google Research Blog . Архивировано из оригинала 17 октября 2006 года . Получено 16 декабря 2011 года .

Дальнейшее чтение

Мэннинг, Кристофер Д.; Шютце, Хинрих; Основы статистической обработки естественного языка , MIT Press: 1999, ISBN 0-262-13360-1
Белый, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Fields, Chris (1993). «Алгоритм контроля качества для проектов секвенирования ДНК» . Исследование нуклеиновых кислот . 21 (16): 3829–3838. doi : 10.1093/nar/21.16.3829 . PMC 309901 . PMID 8367301 .
Damerau, Frederick J.; Модели Маркова и лингвистическая теория , Мутон, Гаага, 1971
Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстуальные языковые модели для ранжирования ответов на вопросы по определению естественного языка» . Вычислительный интеллект . 28 (4): 528–548. doi : 10.1111/j.1467-8640.2012.00426.x . S2CID 27378409 .
Брокардо, Марсело Луис; Траоре, Исса; Саад, Шериф; Woungang, Isaac (2013). Проверка авторства для коротких сообщений с использованием стилометрии . Международная конференция IEEE по компьютерным, информационным и телекоммуникационным системам (CITS).

Смотрите также

Google Books Ngram Viewer

Внешние ссылки

[1] Broder, Andrei Z.; Глассман, Стивен С.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Синтаксическая кластеризация Интернета». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. doi : 10.1016/s0169-7552 (97) 00031-7 . S2CID 9022773 .

[2] Шеннон, Клод Э. «Избыточность английского». Кибернетика; Труды 7 -й конференции, Нью -Йорк: Джозия Мэйси -младший . 1951.

[3] Франц, Алекс; Брант, Торстен (2006). «Все наши n -грама принадлежат вам» . Google Research Blog . Архивировано из оригинала 17 октября 2006 года . Получено 16 декабря 2011 года .

[ 1 ]

[ 2 ]

[ 3 ]