n -gram

N N -грама -это последовательность прилегающих символов в определенном порядке. Символы могут быть n соседними буквами (включая знаки препинания и пробелы), слоги или редко целые слова , найденные в языковом наборе данных; или прилегающие фонемы, извлеченные из набора данных речевой записи, или прилегающих пары оснований, извлеченных из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские численные префиксы используются , то n -грама размера 1 называется «Unigram», размер 2 A « Биграм » (или, реже, «диграм») и т. Д. Если вместо латинских Кардинальные числа используются в дальнейшем, тогда они называются «четырех грамм», «пять граммов» и т. Д. Аналогично, используя греческие численные префиксы, такие как «мономер», «димер», «тример», «тетрамер», «Пентамер «и т. д., или английские кардинальные числа,« одномерные »,« двухмерные »,« Трехмерные »и т. Д. Используются в вычислительной биологии, для полимеров или олигомеров известного размера, называемых k -мерами . Когда предметы являются словами, n -граммы также могут быть названы черепицей . [ 1 ]
В контексте обработки естественного языка (NLP) использование n -граммов позволяет моделям пакетов слов собирать информацию, такую как порядок слов, что не было бы возможно в традиционном пакете слов.
Примеры
[ редактировать ](Shannon 1951) [ 2 ] обсуждались n -грамма модели английского языка. Например:
- 3-граммовая модель символа (случайное рисование на основе вероятностей каждой триграммы): в NO IT LAT
- 2-граммовая модель слов (случайная вытяжка слов с учетом их вероятностей перехода): голова и фронтальная атака на английского писателя, что характер этого момента является еще одним методом для букв, которые время когда-либо говорили проблему для неожиданного
Поле | Единица | Пример последовательности | 1-граммовая последовательность | 2-граммовая последовательность | 3-граммовая последовательность |
---|---|---|---|---|---|
Народное имя | разоблачение | Биграм | Триграмм | ||
Порядок полученной модели Маркова | 0 | 1 | 2 | ||
Секвенирование белка | аминокислота | ... cys-gly-leu-ser-trp ... | ..., Cys, Gly, Leu, Ser, Trp, ... | ..., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, ... | ..., Cys-Gly-Leu, Gly-Leu-Being, Read-Being-Trp, ... |
Секвенирование ДНК | базовая пара | ... agcttcga ... | ..., A, G, C, T, T, C, G, A, ... | ..., Ag, GC, CT, TT, TC, CG, GA, ... | ..., agc, gct, ctt, ttc, tcg, cga, ... |
Языковая модель | характер | ... to_be_or_not_to_be ... | ..., T, O, _, B, E, _, O, R, _, N, O, T, _, T, O, _, B, E, ... | ..., to, o_, _b, be, e_, _o, или, r_, _n, no, ot, t_, _t, to, o_, _b, be, ... | ..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, ... |
Word n -Gram Language Model | слово | ... быть или не быть ... | ..., чтобы, быть, или, не, чтобы быть, ... | ..., быть, быть или, или нет, не для того, чтобы быть ... | ..., быть или, быть или нет, или нет, не быть, ... |
На рисунке 1 показано несколько примеров последовательностей и соответствующих 1-граммовых, 2-граммовых и 3-граммовых последовательностей.
Вот дальнейшие примеры; Это 3 грамма на уровне слов и 4 грамма (и количество случаев, когда они появлялись) из корпуса Google N -Gram. [ 3 ]
3 грамма
- Коллекционированные предметы коллекционирования керамики (55)
- Керамика коллекционируется прекрасно (130)
- керамика, собранная (52)
- Керамика коллекционная керамика (50)
- Керамика коллекционирования кулинарии (45)
4 грамма
- служить входящим (92)
- служить инкубатором (99)
- служить независимым (794)
- служить индексом (223)
- служить индикацией (72)
- служить индикатором (120)
Ссылки
[ редактировать ]- ^ Broder, Andrei Z.; Глассман, Стивен С.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Синтаксическая кластеризация Интернета». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. doi : 10.1016/s0169-7552 (97) 00031-7 . S2CID 9022773 .
- ^ Шеннон, Клод Э. «Избыточность английского». Кибернетика; Труды 7 -й конференции, Нью -Йорк: Джозия Мэйси -младший . 1951.
- ^ Франц, Алекс; Брант, Торстен (2006). «Все наши n -грама принадлежат вам» . Google Research Blog . Архивировано из оригинала 17 октября 2006 года . Получено 16 декабря 2011 года .
Дальнейшее чтение
[ редактировать ]- Мэннинг, Кристофер Д.; Шютце, Хинрих; Основы статистической обработки естественного языка , MIT Press: 1999, ISBN 0-262-13360-1
- Белый, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Fields, Chris (1993). «Алгоритм контроля качества для проектов секвенирования ДНК» . Исследование нуклеиновых кислот . 21 (16): 3829–3838. doi : 10.1093/nar/21.16.3829 . PMC 309901 . PMID 8367301 .
- Damerau, Frederick J.; Модели Маркова и лингвистическая теория , Мутон, Гаага, 1971
- Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстуальные языковые модели для ранжирования ответов на вопросы по определению естественного языка» . Вычислительный интеллект . 28 (4): 528–548. doi : 10.1111/j.1467-8640.2012.00426.x . S2CID 27378409 .
- Брокардо, Марсело Луис; Траоре, Исса; Саад, Шериф; Woungang, Isaac (2013). Проверка авторства для коротких сообщений с использованием стилометрии . Международная конференция IEEE по компьютерным, информационным и телекоммуникационным системам (CITS).
Смотрите также
[ редактировать ]Внешние ссылки
[ редактировать ]- Экстрактор NGRAM: дает вес N -Gram на основе их частоты.
- Google Google Books N -Gram Viewer and Batabase Web N -Grams (сентябрь 2006 г.)
- Statoperator N -Grams Project Vheested N -Gram Viewer для каждого домена в Alexa Top 1M
- 1 000 000 наиболее частых 2,3,4,5 грамм из 425 миллионов слов корпус современного американского английского
- Музыка Peachnote Music Ngram Viewer
- Спецификация моделей стохастических языков ( n -Gram) (W3C)
- Заметки Майкла Коллинза о n -граммы языковых моделях
- OpenRefine: кластеризация глубиной