н -грамм
n - грамма — это последовательность n соседних символов в определенном порядке. Символами могут быть n соседних букв (включая знаки препинания и пробелы), слоги или, реже, целые слова, встречающиеся в наборе языковых данных; или соседние фонемы, извлеченные из набора данных записи речи, или соседние пары оснований, извлеченные из генома. Они собираются из текстового корпуса или речевого корпуса . Если латинские числовые префиксы используются , то н- грамма размера 1 называется «униграммой», размера 2 — « биграммой » (или, реже, «диграммой») и т. д. Если вместо латинских используются английские далее используются количественные числа , тогда их называют «четырёхграммовыми», «пятиграммовыми» и т. д. Аналогично с использованием греческих числовых префиксов , таких как «мономер», «димер», «тример», «тетрамер», «пентамер». «и т. д., или английские кардинальные числа, «one-mer», «two-mer», «three-mer» и т. д. используются в вычислительной биологии для полимеров или олигомеров известного размера, называемых k -мерами . Если элементами являются слова, n -граммы также можно называть черепицей . [1]
В контексте обработки естественного языка (НЛП) использование n -грамм позволяет моделям «мешка слов» захватывать такую информацию, как порядок слов, что было бы невозможно в традиционных настройках «мешка слов».
Примеры
[ редактировать ](Шеннон, 1951) [2] обсуждались n- граммные модели английского языка. Например:
- 3-граммовая модель персонажа (случайный розыгрыш на основе вероятностей каждой триграммы): in no ist lat Whey Cratict Froure Birs grocid pondenome демонстраций ретагина - regiactiona of Cre
- 2-граммовая модель слова (случайный выбор слов с учетом вероятностей их перехода): голова и лобовая атака на английского писателя, что характер этой точки, следовательно, является еще одним методом для букв, который когда-либо говорил о проблеме. для неожиданного
Поле | Единица | Пример последовательности | 1-граммовая последовательность | 2-граммовая последовательность | 3-граммовая последовательность |
---|---|---|---|---|---|
Народное имя | униграмма | биграмма | триграмма | ||
Порядок полученной марковской модели | 0 | 1 | 2 | ||
Секвенирование белков | аминокислота | ... Цис-Гли-Лей-Сер-Трп... | ..., Цис, Глай, Леу, Сер, Трп, ... | ..., Цис-Гли, Гли-Лей, Леу-Сер, Сер-Трп, ... | ..., Цис-Гли-Лей, Гли-Лей-Сер, Леу-Сер-Трп, ... |
секвенирование ДНК | базовая пара | ...AGCTTCGA... | ..., А, Г, С, Т, Т, С, Г, А, ... | ..., AG, GC, CT, TT, TC, CG, GA, ... | ..., АРУ, ГКТ, СТТ, ТТС, TCG, CGA, ... |
Языковая модель | характер | ...быть_или_не_быть... | ..., т, о, _, б, е, _, о, р, _, н, о, т, _, т, о, _, б, е, ... | ..., к, о_, _б, быть, е_, _о, или, р_, _н, нет, от, т_, _т, к, о_, _б, быть, ... | ..., то_, о_б, _бе, бе_, е_о, _или, или_, р_н, _но, не, от_, т_т, _то, то_, о_б, _бе, ... |
Словесно - граммовая языковая модель | слово | ...быть или не быть... | ..., быть или не быть, ... | ..., быть, быть или, или не быть, не быть, ... | ..., быть или, быть или не быть, или не быть, не быть, ... |
На рисунке 1 показано несколько примеров последовательностей и соответствующие последовательности из 1 грамма, 2 грамма и 3 грамма.
Вот еще примеры; это 3-граммы и 4-граммы на уровне слов (и количество раз, когда они появлялись) из корпуса n -грамм Google. [3]
3 грамма
- предметы коллекционирования керамики предметы коллекционирования (55)
- коллекционная керамика (130)
- керамика собрана (52)
- керамика коллекционная керамика (50)
- керамика, коллекционная кулинария (45)
4 грамма
- служить входящим (92)
- служить инкубатором (99)
- служить независимым (794)
- служить индексом (223)
- служить индикатором (72)
- служить индикатором (120)
Ссылки
[ редактировать ]- ^ Бродер, Андрей З.; Глассман, Стивен С.; Манасс, Марк С.; Цвейг, Джеффри (1997). «Синтаксическая кластеризация сети». Компьютерные сети и системы ISDN . 29 (8): 1157–1166. дои : 10.1016/s0169-7552(97)00031-7 . S2CID 9022773 .
- ^ Шеннон, Клод Э. «Избыточность английского языка». Кибернетика; Труды 7-й конференции, Нью-Йорк: Фонд Джозайи Мэйси-младшего . 1951.
- ^ Франц, Алекс; Брантс, Торстен (2006). «Все наши N -граммы принадлежат вам» . Блог исследований Google . Архивировано из оригинала 17 октября 2006 года . Проверено 16 декабря 2011 г.
Дальнейшее чтение
[ редактировать ]- Мэннинг, Кристофер Д.; Шютце, Хинрих; Основы статистической обработки естественного языка , MIT Press: 1999, ISBN 0-262-13360-1
- Уайт, Оуэн; Даннинг, Тед; Саттон, Грейнджер; Адамс, Марк; Вентер, Дж. Крейг; Филдс, Крис (1993). «Алгоритм контроля качества проектов секвенирования ДНК» . Исследования нуклеиновых кислот . 21 (16): 3829–3838. дои : 10.1093/нар/21.16.3829 . ПМК 309901 . ПМИД 8367301 .
- Дамерау, Фредерик Дж.; Марковские модели и лингвистическая теория , Мутон, Гаага, 1971 г.
- Фигероа, Алехандро; Аткинсон, Джон (2012). «Контекстные языковые модели для ранжирования ответов на вопросы определения естественного языка» . Вычислительный интеллект . 28 (4): 528–548. дои : 10.1111/j.1467-8640.2012.00426.x . S2CID 27378409 .
- Брокардо, Марсело Луис; Траоре, Исса; Саад, Шериф; Вунганг, Исаак (2013). Проверка авторства коротких сообщений с помощью стилометрии . Международная конференция IEEE по компьютерным, информационным и телекоммуникационным системам (CITS).
См. также
[ редактировать ]Внешние ссылки
[ редактировать ]- Ngram Extractor: дает вес n -грамм в зависимости от их частоты.
- Google Books Средство просмотра n- грамм и в Интернете база данных n- грамм (сентябрь 2006 г.)
- STATOPERATOR N-grams Project Взвешенная программа просмотра n -грамм для каждого домена в Alexa Top 1M
- 1 000 000 наиболее частых 2,3,4,5-грамм из 425 миллионов слов корпуса современного американского английского языка
- Программа просмотра музыкальных файлов Peachnote
- стохастических языковых моделей ( n Спецификация -Gram) (W3C)
- Заметки Майкла Коллинза о n -граммовых языковых моделях
- OpenRefine: глубокая кластеризация