Частота арабских букв
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2018 г. ) |
Эта статья , возможно, содержит оригинальные исследования . ( Август 2023 г. ) |
Частота букв в тексте часто изучалась для использования в криптоанализе и, в частности, частотном анализе .
Ни в одном языке нет точного распределения частот букв, поскольку все писатели пишут немного по-разному. Как правило, тексты на разных языках, использующие арабскую графику (например, арабский , османский турецкий , персидский и урду ), будут иметь разную частоту букв, что наиболее очевидно в случае букв, которые используются только в некоторых языках (например, персидские буквы پ, چ). , ژ, گ, которые не принято писать по-арабски).
Методы кодирования наиболее частых букв с помощью самых коротких символов были впервые применены в телеграфных кодах и используются в современных методах сжатия данных, таких как кодирование Хаффмана .
арабские буквы
[ редактировать ]Арабский алфавит состоит из 28 основных букв, это буквы с 1 по 28 в Таблице 1. Восемь модифицированных букв, перечисленных в позициях с 29 по 36 в той же таблице, используются точно так же. [ нужны разъяснения ] . Если эти 8 модифицированных форм объединить в основной список на основе формы или фонетического сходства, результат будет таким, как показано в Таблице 2. Для точного частотного анализа частота каждой из 36 букв Таблицы 1 подсчитывается независимо.
Порядок алфавита, показанный в таблицах, более логичен. [ нужна ссылка ] чем используется стандартом Unicode .
Хотя полный набор арабских символов включает около десяти диакритических знаков, как показано на рисунке 1, частотный анализ арабских символов касается только вычисления частоты букв алфавита, показанных в таблице 2.
Частота арабских букв с использованием общих источников
[ редактировать ]Следующие арабские источники используются для получения приемлемого объема данных, на основе которых ведется статистика частоты.
- Первые семь томов серии Начало « и конец» . [1] Ибн Касира , объемом 2855 страниц, содержащих 1096047 слов и 4326031 букв.
- Книга нектар Запечатанный « » [2] Альмубаракфури, 284 страницы, содержащие 134 662 слова и 553 740 букв.
- Книга Шедевр невесты [3] Аль-Шури, состоящая из 239 страниц, содержащих 66 550 слов и 242 361 букву.
В совокупности эти источники составляют 3378 страниц, содержащих 1 297 259 слов и 5 122 132 буквы.
На следующем графике показано распределение частот подсчитанных букв.
Письмо | Относительная частота в арабском языке | |
---|---|---|
А | 0.31% | |
был | 0.09% | |
Э | 0.28% | |
А | 12.50% | |
ну давай же | 0.15% | |
А | 2.89% | |
Э | 1.00% | |
для | 4.67% | |
Ой | 1.42% | |
Т | 2.61% | |
че | 0.87% | |
С | 1.23% | |
ЧАС | 1.86% | |
Х | 0.79% | |
принадлежащий | 2.67% | |
З | 0.96% | |
Р | 4.20% | |
З | 0.52% | |
вопрос | 2.47% | |
Ш | 0.73% | |
п | 1.04% | |
З | 0.44% | |
я | 0.50% | |
З | 0.18% | |
А | 4.01% | |
г | 0.33% | |
Ф | 2.84% | |
вопрос | 2.69% | |
твой | 2.04% | |
к | 12.07% | |
М | 6.52% | |
Н | 6.61% | |
е | 5.08% | |
и | 5.80% | |
ى | 1.29% | |
Да | 6.36% |
Ссылки
[ редактировать ]- ^ Ибн Касир, Исмаил (ок. 1300 г.). Начало и конец (на арабском языке) . Проверено 23 января 2011 г.
- ^ Альмубаракфури, Сафиюррахман (2002). Запечатанный нектар (на арабском языке). Публикации Даруссалама. ISBN 978-1591440710 . Проверено 24 января 2011 г.
- ^ Аш-шури, Мажди (ок. 1900). Шедевр невесты (на арабском языке) . Проверено 24 января 2011 г.