Jump to content

Биграм

(Перенаправлено с частоты Биграммы )

Биграмма или биграмма это последовательность двух соседних элементов из строки токенов , которые обычно представляют собой буквы, слоги или слова. Биграмма — это n -грамма для n =2.

Частотное распределение каждого биграмма в строке обычно используется для простого статистического анализа текста во многих приложениях, в том числе в компьютерной лингвистике , криптографии и распознавании речи .

Гэппи-биграммы или пропускаемые биграммы — это пары слов, которые допускают пробелы (возможно, избегая соединения слов или позволяя моделировать зависимости, как в грамматике зависимостей ).

Приложения

[ редактировать ]

Биграммы, наряду с другими n-граммами, используются в большинстве успешных языковых моделей распознавания речи . [1]

Биграммные частотные атаки могут использоваться в криптографии для решения криптограмм . См. частотный анализ .

Частота биграмм – это один из подходов к статистической идентификации языка .

Некоторые виды деятельности в области логологии или развлекательной лингвистики связаны с биграммами. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, [2] или слова, содержащие строку повторяющихся биграмм, например logogogue . [3]

Частота биграмм в английском языке

[ редактировать ]

Частота наиболее распространенных буквенных биграмм в большом корпусе английского языка составляет: [4]

th 3.56%       of 1.17%       io 0.83%
he 3.07%       ed 1.17%       le 0.83%
in 2.43%       is 1.13%       ve 0.83%
er 2.05%       it 1.12%       co 0.79%
an 1.99%       al 1.09%       me 0.79%
re 1.85%       ar 1.07%       de 0.76%
on 1.76%       st 1.05%       hi 0.76%
at 1.49%       to 1.05%       ri 0.73%
en 1.45%       nt 1.04%       ro 0.73%
nd 1.35%       ng 0.95%       ic 0.70%
ti 1.34%       se 0.93%       ne 0.69%
es 1.34%       ha 0.93%       ea 0.69%
or 1.28%       as 0.87%       ra 0.69%
te 1.20%       ou 0.87%       ce 0.65%

См. также

[ редактировать ]
  1. ^ Коллинз, Майкл Джон (24 июня 1996 г.). «Новый статистический парсер, основанный на биграммных лексических зависимостях» . Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики . Ассоциация компьютерной лингвистики. стр. 184–191. arXiv : cmp-lg/9605012 . дои : 10.3115/981863.981888 . S2CID   12615602 . Проверено 9 октября 2018 г.
  2. ^ Коэн, Филип М. (1975). «Начальные биграммы» . Словесные пути . 8 (2) . Проверено 11 сентября 2016 г.
  3. ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Словесные пути . 22 (3) . Проверено 11 сентября 2016 г.
  4. ^ «Подсчет частоты английских букв: возвращение к Майзнеру или ETAOIN SRLLDCU» . norvig.com . Проверено 28 октября 2019 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d0ddb9b471d32a2d61ff2e40057030cf__1704523500
URL1:https://arc.ask3.ru/arc/aa/d0/cf/d0ddb9b471d32a2d61ff2e40057030cf.html
Заголовок, (Title) документа по адресу, URL1:
Bigram - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)