Алгоритм сопоставления Unicode
Алгоритм сопоставления Unicode ( UCA ) — это алгоритм, определенный в Техническом отчете Unicode № 10, который представляет собой настраиваемый метод создания двоичных ключей из строк, представляющих текст в любой системе письма и языке , которые могут быть представлены с помощью Unicode . Затем эти ключи можно эффективно сравнивать побайтно, чтобы сопоставить или отсортировать их в соответствии с правилами языка с возможностью игнорирования регистра, диакритических знаков и т. д. [1]
Технический отчет Unicode № 10 также определяет таблицу элементов сопоставления Unicode по умолчанию (DUCET). Этот файл данных определяет порядок сопоставления по умолчанию, DUCET настраивается для разных языков. [1] [2] Некоторые такие настройки можно найти в репозитории данных Unicode Common Locale (CLDR). [3]
Реализация UCA с открытым исходным кодом включена в состав международных компонентов Unicode , ICU. [4] [5] ICU поддерживает адаптацию, а настройки сортировки из CLDR включены в ICU. [6] [2]
См. также [ править ]
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Уистлер, Кен; Шерер, Маркус; Дэвис, Марк (26 августа 2022 г.). «UTS № 10: Алгоритм сопоставления Unicode» . Юникод . Проверено 16 августа 2023 г.
- ^ Jump up to: Перейти обратно: а б Хоскен, Мартин (23 сентября 2021 г.). Настройка сортировки в Юникоде: Учебное пособие (PDF) (изд. 1.3). Технология систем письма SIL . стр. 2–3 . Проверено 16 августа 2023 г.
- ^ «Выпуски/Загрузки CLDR» . Юникод CLDR . Проверено 16 августа 2023 г.
- ^ «ICU — Международные компоненты для Юникода» . Юникод . Проверено 16 августа 2023 г.
- ^ «Сопоставления» . Сибукс онлайн . Проверено 16 августа 2023 г.
- ^ «Кастомизация» . Документация ОИТ . Проверено 16 августа 2023 г.
Внешние ссылки [ править ]
- Алгоритм сопоставления Unicode : Технический стандарт Unicode № 10
- Таблицы сопоставления Unicode Mimer SQL
Инструменты [ править ]
- ICU Locale Explorer. Онлайн-демонстрация алгоритма сопоставления Unicode с использованием международных компонентов для Unicode , по состоянию на 16 августа 2023 г. он не работает.
- Демо-версия сортировки ICU , по состоянию на 16 августа 2023 г. она не работает.
- msort Программа сортировки, обеспечивающая необычайный уровень гибкости при определении параметров сортировки и извлечении ключей.