Jump to content

Частота арабских букв


Частота букв в тексте часто изучалась для использования в криптоанализе и, в частности, частотном анализе .

Ни в одном языке нет точного распределения частот букв, поскольку все писатели пишут немного по-разному. Как правило, тексты на разных языках, использующие арабскую графику (например, арабский , османский турецкий , персидский и урду ), будут иметь разную частоту букв, что наиболее очевидно в случае букв, которые используются только в некоторых языках (например, персидские буквы پ, چ). , ژ, گ, которые не принято писать по-арабски).

Методы кодирования наиболее частых букв с помощью самых коротких символов были впервые применены в телеграфных кодах и используются в современных методах сжатия данных, таких как кодирование Хаффмана .

арабские буквы

[ редактировать ]

Арабский алфавит состоит из 28 основных букв, это буквы с 1 по 28 в Таблице 1. Восемь модифицированных букв, перечисленных в позициях с 29 по 36 в той же таблице, используются точно так же. [ нужны разъяснения ] . Если эти 8 модифицированных форм объединить в основной список на основе формы или фонетического сходства, результат будет таким, как показано в Таблице 2. Для точного частотного анализа частота каждой из 36 букв Таблицы 1 подсчитывается независимо.

Порядок алфавита, показанный в таблицах, более логичен. [ нужна ссылка ] чем используется стандартом Unicode .

Рис. 1. Арабские символы, которые можно ввести с помощью клавиатуры для арабских букв Intellark .
Таблица 1: Арабский алфавит. Буквы с 1 по 28 являются основными буквами. Буквы с 29 по 36 являются модифицированными буквами.
Таблица 2: Арабский алфавит с измененными буквами, объединенными в их основные формы.
Распределение частот букв для подсчитанных букв: данные гистограммы отсортированы по частоте.

Хотя полный набор арабских символов включает около десяти диакритических знаков, как показано на рисунке 1, частотный анализ арабских символов касается только вычисления частоты букв алфавита, показанных в таблице 2.

Частота арабских букв с использованием общих источников

[ редактировать ]

Следующие арабские источники используются для получения приемлемого объема данных, на основе которых ведется статистика частоты.

  • Первые семь томов серии Начало « и конец» . [1] Ибн Касира , объемом 2855 страниц, содержащих 1096047 слов и 4326031 букв.
  • Книга нектар Запечатанный « » [2] Альмубаракфури, 284 страницы, содержащие 134 662 слова и 553 740 букв.
  • Книга Шедевр невесты [3] Аль-Шури, состоящая из 239 страниц, содержащих 66 550 слов и 242 361 букву.

В совокупности эти источники составляют 3378 страниц, содержащих 1 297 259 слов и 5 122 132 буквы.

На следующем графике показано распределение частот подсчитанных букв.

Письмо Относительная частота в арабском языке
А 0.31% 0.31
 
был 0.09% 0.09
 
Э 0.28% 0.28
 
А 12.50% 12.5
 
ну давай же 0.15% 0.15
 
А 2.89% 2.89
 
Э 1.00% 1
 
для 4.67% 4.67
 
Ой 1.42% 1.42
 
Т 2.61% 2.61
 
че 0.87% 0.87
 
С 1.23% 1.23
 
ЧАС 1.86% 1.86
 
Х 0.79% 0.79
 
принадлежащий 2.67% 2.67
 
З 0.96% 0.96
 
Р 4.20% 4.2
 
З 0.52% 0.52
 
вопрос 2.47% 2.47
 
Ш 0.73% 0.73
 
п 1.04% 1.04
 
З 0.44% 0.44
 
я 0.50% 0.5
 
З 0.18% 0.18
 
А 4.01% 4.01
 
г 0.33% 0.33
 
Ф 2.84% 2.84
 
вопрос 2.69% 2.69
 
твой 2.04% 2.04
 
к 12.07% 12.07
 
М 6.52% 6.52
 
Н 6.61% 6.61
 
е 5.08% 5.08
 
и 5.80% 5.8
 
ى 1.29% 1.29
 
Да 6.36% 6.36
 
  1. ^ Ибн Касир, Исмаил (ок. 1300 г.). Начало и конец (на арабском языке) . Проверено 23 января 2011 г.
  2. ^ Альмубаракфури, Сафиюррахман (2002). Запечатанный нектар (на арабском языке). Публикации Даруссалама. ISBN  978-1591440710 . Проверено 24 января 2011 г.
  3. ^ Аш-шури, Мажди (ок. 1900). Шедевр невесты (на арабском языке) . Проверено 24 января 2011 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8ac709fc643861edab33bb58ef75035d__1717985520
URL1:https://arc.ask3.ru/arc/aa/8a/5d/8ac709fc643861edab33bb58ef75035d.html
Заголовок, (Title) документа по адресу, URL1:
Arabic letter frequency - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)