н -грамм

n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы, извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские числовые префиксы используются , то н- грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, $n$ -граммы также можно называть черепицей . ^[1]

В контексте обработки естественного языка (НЛП) использование n -грамм позволяет моделям «мешка слов» захватывать такую информацию, как порядок слов, что было бы невозможно в традиционных настройках «мешка слов».

Примеры

(Шеннон, 1951) ^[2] обсуждались n- граммные модели английского языка. Например:

3-граммовая модель персонажа (случайный розыгрыш на основе вероятностей каждой триграммы): in no ist lat Whey Cratict Froure Birs grocid pondenome демонстраций ретагина - regiactiona of Cre
2-граммовая модель слова (случайный выбор слов с учетом вероятностей их перехода): голова и лобовая атака на английского писателя, что характер этой точки, следовательно, является еще одним методом для букв, который когда-либо говорил о проблеме. для неожиданного

Рисунок 1. *Примеры n* -грамм из различных дисциплин.
Поле	Единица	Пример последовательности	1-граммовая последовательность	2-граммовая последовательность	3-граммовая последовательность
Народное имя			униграмма	биграмма	триграмма
Порядок полученной марковской модели			0	1	2
Секвенирование белков	аминокислота	... Цис-Гли-Лей-Сер-Трп...	..., Цис, Глай, Леу, Сер, Трп, ...	..., Цис-Гли, Гли-Лей, Леу-Сер, Сер-Трп, ...	..., Цис-Гли-Лей, Гли-Лей-Сер, Леу-Сер-Трп, ...
секвенирование ДНК	базовая пара	...AGCTTCGA...	..., А, Г, С, Т, Т, С, Г, А, ...	..., AG, GC, CT, TT, TC, CG, GA, ...	..., АРУ, ГКТ, СТТ, ТТС, TCG, CGA, ...
Языковая модель	характер	...быть_или_не_быть...	..., т, о, _, б, е, _, о, р, _, н, о, т, _, т, о, _, б, е, ...	..., к, о_, _б, быть, е_, _о, или, р_, _н, нет, от, т_, _т, к, о_, _б, быть, ...	..., то_, о_б, _бе, бе_, е_о, _или, или_, р_н, _но, не, от_, т_т, _то, то_, о_б, _бе, ...
Словесно - граммовая языковая модель	слово	...быть или не быть...	..., быть или не быть, ...	..., быть, быть или, или не быть, не быть, ...	..., быть или, быть или не быть, или не быть, не быть, ...

На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.

Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. ^[3]

3 грамма

предметы коллекционирования керамики предметы коллекционирования (55)
коллекционная керамика (130)
керамика собрана (52)
керамика коллекционная керамика (50)
керамика, коллекционная кулинария (45)

4 грамма

служить входящим (92)
служить инкубатором (99)
служить независимым (794)
служить индексом (223)
служить индикатором (72)
служить индикатором (120)

Ссылки

^ Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7 . S2CID 9022773 .
^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
^ Франц, Алекс; Брантс, Торстен (2006). «Все наши N -граммы принадлежат вам» . Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.

Дальнейшее чтение

Мэннинг, Кристофер Д.; Шютце, Хинрих; Основы статистической обработки естественного языка , MIT Press: 1999, ISBN 0-262-13360-1
Уайт, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Филдс, Крис (1993). «Алгоритм контроля качества проектов секвенирования ДНК» . Исследования нуклеиновых кислот . 21 (16): 3829–3838. дои : 10.1093/нар/21.16.3829 . ПМК 309901 . ПМИД 8367301 .
Дамерау, Фредерик Дж.; Марковские модели и лингвистическая теория , Мутон, Гаага, 1971 г.
Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстные языковые модели для ранжирования ответов на вопросы определения естественного языка» . Вычислительный интеллект . 28 (4): 528–548. дои : 10.1111/j.1467-8640.2012.00426.x . S2CID 27378409 .
Брокардо, Марсело Луис; Траоре, Исса; Саад, Шериф; Вунганг, Исаак (2013). Проверка авторства коротких сообщений с помощью стилометрии . Международная конференция IEEE по компьютерным, информационным и телекоммуникационным системам (CITS).

См. также

Средство просмотра Ngram Google Книг

Внешние ссылки

[1] Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7 . S2CID 9022773 .

[2] Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.

[3] Франц, Алекс; Брантс, Торстен (2006). «Все наши N -граммы принадлежат вам» . Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.

[1]

[2]

[3]