Информационная дистанция
Информационное расстояние — это расстояние между двумя конечными объектами (представленными в виде компьютерных файлов), выраженное как количество битов в кратчайшей программе, преобразующей один объект в другой или наоборот. универсальный компьютер . Это расширение колмогоровской сложности . [ 1 ] Колмогоровская сложность одного конечного объекта — это информация в этом объекте; информационное расстояние между парой конечных объектов — это минимальная информация, необходимая для перехода от одного объекта к другому или наоборот. Информационная дистанция была впервые определена и исследована в [ 2 ] основанные на термодинамических принципах, см. также. [ 3 ] Впоследствии оно приобрело окончательный вид в. [ 4 ] Он применяется к нормализованному расстоянию сжатия и нормализованному расстоянию Google .
Характеристики
[ редактировать ]Формально информационная дистанция между и определяется
с конечная двоичная программа для стационарного универсального компьютера с конечными двоичными строками на входе . В [ 4 ] доказано, что с
где – колмогоровская сложность, определяемая формулой [ 1 ] типа префикса. [ 5 ] Этот это важная величина.
Универсальность
[ редактировать ]Позволять — класс верхних полувычислимых расстояний удовлетворяющие плотности условию
Это исключает нерелевантные расстояния, такие как для ; он заботится о том, чтобы с ростом расстояния увеличивалось и количество объектов на этом расстоянии от данного объекта. Если затем с точностью до постоянного аддитивного члена. [ 4 ] Вероятностные выражения расстояния - это первый когомологический класс информационных симметричных когомологий. [ 6 ] которое можно рассматривать как свойство универсальности.
Метричность
[ редактировать ]Расстояние является метрикой с точностью до добавки член в метрических (в)равенствах. [ 4 ] Вероятностная версия метрики действительно уникальна, как показал Хан в 1981 году. [ 7 ]
Максимальное перекрытие
[ редактировать ]Если , тогда есть программа длины который преобразует к и программа длины такое, что программа преобразует к . (Программы имеют саморазграничивающийся формат, что означает, что можно решить, где заканчивается одна программа и начинается другая, путем объединения программ.) То есть кратчайшие программы для преобразования между двумя объектами можно сделать максимально перекрывающимися: его можно разделить на программу, преобразующую объект возражать и еще одна программа, которая объединилась с первыми конвертерами к в то время как объединение этих двух программ является самой короткой программой для преобразования между этими объектами. [ 4 ]
Минимальное перекрытие
[ редактировать ]Программы для преобразования между объектами и также можно сделать минимальное перекрытие. Существует программа длины до аддитивного члена это отображает к и имеет небольшую сложность, когда известно( ). Поменяв местами два объекта, мы получили другую программу. [ 8 ] Имея в виду параллелизм между теорией информации Шеннона и теорией сложности Колмогорова , можно сказать, что этот результат параллелен теоремам Слепиана-Вольфа и Кернера-Имре Чисара-Мартона .
Приложения
[ редактировать ]Теоретический
[ редактировать ]Результат Ан.А. Мучник о минимальном перекрытии выше является важным теоретическим приложением, показывающим что существуют определенные коды: для перехода к конечному целевому объекту из любого объекта существует программа, которая почти только зависит от целевого объекта! Этот результат достаточно точен, и член ошибки не может быть значительно улучшен. [ 9 ] Информационная дистанция была материальной в учебнике, [ 10 ] это встречается в Энциклопедии расстояний. [ 11 ]
Практичный
[ редактировать ]Чтобы определить сходство таких объектов, как геномы, языки, музыка, интернет-атаки и черви, программы и т. д., информационное расстояние нормализуется, а члены колмогоровской сложности аппроксимируются реальными компрессорами (колмогоровская сложность — это нижняя граница длина в битах сжатой версии объекта). Результатом является нормализованное расстояние сжатия (NCD) между объектами. Это относится к объектам, представленным в виде компьютерных файлов, например геному мыши или тексту книги. Если объектам просто даны имена, такие как «Эйнштейн» или «стол», название книги или имя «мышь», сжатие не имеет смысла. Нам нужна внешняя информация о том, что означает это имя. Эту информацию можно получить с помощью базы данных (например, Интернета) и средств поиска в базе данных (например, поисковой системы, такой как Google). Любая поисковая система в базе данных, предоставляющая совокупное количество страниц, может использоваться с нормализованным расстоянием Google (NGD). Доступен пакет Python для вычисления всех информационных расстояний и объемов, многомерной взаимной информации, условной взаимной информации, совместной энтропии, полных корреляций в наборе данных из n переменных. [ 12 ]
Ссылки
[ редактировать ]- ^ Jump up to: а б А. Н. Колмогоров, Три подхода к количественному определению информации, Проблемы информ. Передача, 1:1 (1965), 1–7
- ^ М. Ли, ПМБ Витани, Теория термодинамики вычислений, Proc. Семинар IEEE по физике вычислений, Даллас, Техас, США, 1992, 42–46.
- ^ М. Ли, ПМБ Витани, Обратимость и адиабатические вычисления: обмен времени и пространства на энергию, Proc. Р. Сок. Лонд. А от 9 апреля 1996 г., том. 452 нет. 1947 769–789
- ^ Jump up to: а б с д и Ч. Беннетт, П. Гакс, М. Ли, П. М. Витаньи, В. Зурек, Информационная дистанция, Транзакции IEEE по теории информации, 44:4 (1998), 1407–1423.
- ^ Л. А. Левин, Законы сохранения информации (нероста) и аспекты основания теории вероятностей, Проблемы информ. Трансмиссия, 10:3 (1974), 30–35.
- ^ П. Бодо, Машина Пуанкаре-Шеннона: статистическая физика и аспекты машинного обучения информационных когомологий, Энтропия, 21:9 - 881 (2019)
- ^ Те Сунь Хан, Уникальность информационной дистанции Шеннона и связанные с ней проблемы неотрицательности, Журнал комбинаторики. 6:4 с.320-331 (1981), 30–35
- ^ Мучник, Андрей А. (2002). «Условная сложность и коды» . Теоретическая информатика . 271 (1–2): 97–109. дои : 10.1016/S0304-3975(01)00033-0 .
- ^ Н. К. Верещагин, М. В. Вьюгин, Независимые программы минимальной длины для перевода между заданными строками, Учеб. 15-я Энн. Конф. Вычислительная сложность, 2000, 138–144.
- ^ М.Хаттер, Универсальный искусственный интеллект: последовательные решения, основанные на алгоритмической вероятности, Springer, 1998.
- ^ М. М. Деза, Э. Деза , Энциклопедия расстояний, Springer, 2009, дои : 10.1007/978-3-642-00234-2
- ^ «InfoTopo: Анализ данных топологической информации. Глубокое статистическое обучение без и с учителем — Обмен файлами — Github» . github.com/pierrebaudot/infotopopy/ . Проверено 26 сентября 2020 г.
Сопутствующая литература
[ редактировать ]- Архангельский А.В.; Понтрягин, Л.С. (1990), Общая топология I: основные понятия и конструкции Теория размерности , Энциклопедия математических наук, Springer , ISBN 3-540-18178-4