Биграм
Биграмма — или биграмма это последовательность двух соседних элементов из строки токенов , которые обычно представляют собой буквы, слоги или слова. Биграмма — это n -грамма для n =2.
Частотное распределение каждого биграмма в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .
Гэппи-биграммы или пропускаемые биграммы — это пары слов, которые допускают пробелы (возможно, избегая соединения слов или позволяя моделировать зависимости, как в грамматике зависимостей ).
Приложения
[ редактировать ]Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей распознавания речи . [1]
Биграммные частотные атаки могут использоваться в криптографии для решения криптограмм . См. частотный анализ .
Частота биграмм – это один из подходов к статистической идентификации языка .
Некоторые виды деятельности в области логологии или развлекательной лингвистики связаны с биграммами. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, [2] или слова, содержащие строку повторяющихся биграмм, например logogogue . [3]
Частота биграмм в английском языке
[ редактировать ]Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: [4]
th 3.56% of 1.17% io 0.83% he 3.07% ed 1.17% le 0.83% in 2.43% is 1.13% ve 0.83% er 2.05% it 1.12% co 0.79% an 1.99% al 1.09% me 0.79% re 1.85% ar 1.07% de 0.76% on 1.76% st 1.05% hi 0.76% at 1.49% to 1.05% ri 0.73% en 1.45% nt 1.04% ro 0.73% nd 1.35% ng 0.95% ic 0.70% ti 1.34% se 0.93% ne 0.69% es 1.34% ha 0.93% ea 0.69% or 1.28% as 0.87% ra 0.69% te 1.20% ou 0.87% ce 0.65%
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Коллинз, Майкл Джон (24 июня 1996 г.). «Новый статистический парсер, основанный на биграммных лексических зависимостях» . Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики . Ассоциация компьютерной лингвистики. стр. 184–191. arXiv : cmp-lg/9605012 . дои : 10.3115/981863.981888 . S2CID 12615602 . Проверено 9 октября 2018 г.
- ^ Коэн, Филип М. (1975). «Начальные биграммы» . Словесные пути . 8 (2) . Проверено 11 сентября 2016 г.
- ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Словесные пути . 22 (3) . Проверено 11 сентября 2016 г.
- ^ «Подсчет частоты английских букв: возвращение к Майзнеру или ETAOIN SRLLDCU» . norvig.com . Проверено 28 октября 2019 г.