Внутреннее измерение
Внутреннее измерение набора данных можно рассматривать как количество переменных, необходимых для минимального представления данных. Аналогично, при обработке многомерных сигналов внутренняя размерность сигнала описывает, сколько переменных необходимо для создания хорошей аппроксимации сигнала.
Однако при оценке внутренней размерности часто используется несколько более широкое определение, основанное на размерности многообразия, где представление во внутренней размерности должно существовать только локально. Таким образом, такие методы оценки внутренних размеров могут обрабатывать наборы данных с разными внутренними размерностями в разных частях набора данных. Это часто называют локальной внутренней размерностью .
Внутреннее измерение можно использовать как нижнюю границу того, в какое измерение можно сжать набор данных посредством уменьшения размерности, но его также можно использовать как меру сложности набора данных или сигнала. Для набора данных или сигнала N переменных его внутренняя размерность M удовлетворяет 0 ≤ M ≤ N , хотя средства оценки могут давать более высокие значения.
Пример
[ редактировать ]Позволять быть функцией двух переменных (или сигналом ), которая имеет форму для некоторой функции одной переменной g , которая не является постоянной . Это означает, что f меняется в соответствии с g по первой переменной или по первой координате . С другой стороны, f постоянна по отношению ко второй переменной или по второй координате. Для определения значения f необходимо знать только значение одной, а именно первой переменной . Следовательно, это функция двух переменных, но ее внутренняя размерность равна единице.
Немного более сложный пример: . f по-прежнему является одномерным, в чем можно убедиться, выполнив преобразование переменных и что дает .Поскольку изменение f может быть описано единственной переменной y 1, ее внутренняя размерность равна единице.
В случае, когда f является постоянным, его внутренняя размерность равна нулю, поскольку для описания вариации не требуется никакой переменной. В общем случае, когда внутренняя размерность функции двух переменных f не равна ни нулю, ни единице, она равна двум.
В литературе функции, имеющие внутреннюю размерность ноль, единицу или два, иногда называют i0D , i1D или i2D соответственно.
Формальное определение сигналов
[ редактировать ]Для с N функции f -переменными набор переменных можно представить как N -мерный вектор x : .
Если для некоторой с M функции g -переменной и размера M × N, матрицы A то верно ли, что
- для всех х ;
- M указанное выше соотношение между f и g , — наименьшее число, для которого можно найти
тогда внутренняя размерность f равна M .
Внутреннее измерение — это характеристика f , но не однозначная характеристика ни g ни A. , То есть, если вышеуказанное соотношение удовлетворяется для некоторых f , g и A , оно также должно удовлетворяться для тех же f , g' и A', заданных формулами и где B — неособая матрица размера M × M , поскольку .
Преобразование Фурье сигналов малой внутренней размерности
[ редактировать ]Функция переменной N , имеющая внутреннюю размерность M < N, имеет характеристическое преобразование Фурье . Интуитивно понятно, что, поскольку этот тип функции является постоянным в одном или нескольких измерениях, ее преобразование Фурье должно выглядеть как импульс ( преобразование Фурье константы) в том же измерении в частотной области .
Простой пример
[ редактировать ]Пусть f — функция двух переменных, равная i1D. Это означает, что существует нормированный вектор и функция одной переменной g такая, что для всех . Если F является преобразованием Фурье f (обе функции двух переменных), то это должно быть так, что .
Здесь G — преобразование Фурье g (обе функции с одной переменной), δ — импульсная функция Дирака , а m — нормированный вектор в перпендикулярно н . Это означает, что F исчезает везде, кроме линии, которая проходит через начало частотной области и параллельна m . линии F меняется в зависимости от G. Вдоль этой
Общий случай
[ редактировать ]Пусть f — функция с N -переменной, имеющая внутреннюю размерность M , то есть существует с M функция g -переменной и размера M × N матрица A такая, что .
Тогда его преобразование Фурье F можно описать следующим образом:
- F исчезает везде, кроме подпространства размерности M
- Подпространство M натянуто строками матрицы A
- В подпространстве F меняется в зависимости от g Фурье преобразования
Обобщения
[ редактировать ]Описанный выше тип внутренней размерности предполагает, что применяется линейное преобразование к координатам с N -переменной функции f для создания M переменных, которые необходимы для представления каждого значения f . Это означает, что постоянна вдоль линий, плоскостей или гиперплоскостей, в зависимости от N и M. f
В общем случае f имеет внутреннюю размерность M, если существуют M функций a 1 , a 2 , ..., a M и с M функция g -переменной такие, что
- для всех х
- M — наименьшее количество функций, допускающее указанное выше преобразование.
Простой пример — преобразование функции с двумя переменными f в полярные координаты:
- , f равно i1D и является постоянным вдоль любой окружности с центром в начале координат.
- , f есть i1D и постоянна вдоль всех лучей из начала координат
В общем случае простое описание либо множеств точек, для которых f является постоянным, либо его преобразования Фурье обычно невозможно.
Локальная внутренняя размерность
[ редактировать ]Локальная внутренняя размерность (LID) относится к наблюдению, что часто данные распределяются по многообразию меньшей размерности, когда рассматривается только близлежащее подмножество данных. Например, функция можно считать одномерным, когда y близко к 0 (с одной переменной x ), двумерным, когда y близко к 1, и снова одномерным, когда y положительное и намного больше 1 (с переменной x+y ). .
Локальная внутренняя размерность часто используется по отношению к данным. Затем он обычно оценивается на основе k ближайших соседей точки данных: [1] часто основано на концепции, связанной с удвоением измерения в математике. Поскольку объем d -сферы растет экспоненциально по d , скорость, с которой обнаруживаются новые соседи по мере увеличения радиуса поиска, может использоваться для оценки локальной внутренней размерности (например, оценка GED [2] ). Однако были предложены альтернативные подходы к оценке, например, оценка на основе угла. [3]
Оценка внутреннего размера
[ редактировать ]Внутреннюю размерность многообразия данных можно оценить многими методами, в зависимости от предположений о многообразии данных. Обзор 2016 года. [4]
Метод двух ближайших соседей (TwoNN) — это метод оценки внутренней размерности погруженного риманова многообразия . Алгоритм следующий: [5]
Разбросайте несколько точек на многообразии.
Мера для многих точек, где — расстояния до двух ближайших соседей точки.
Соответствуйте CDF эмпирическому к .
Возвращаться .
История
[ редактировать ]были разработаны так называемые методы «масштабирования» В 1950-х годах в социальных науках для исследования и обобщения многомерных наборов данных. [6] После того, как Шепард в 1962 году представил неметрическое многомерное масштабирование. [7] Одной из основных областей исследований в рамках многомерного масштабирования (MDS) была оценка внутренней размерности. [8] Эта тема также изучалась в теории информации , впервые предложенной Беннетом в 1965 году, который ввел термин «внутреннее измерение» и написал компьютерную программу для его оценки. [9] [10] [11]
В 1970-е годы были построены методы оценки внутренней размерности, которые не зависели от уменьшения размерности, такие как MDS: на основе локальных собственных значений. [12] на основе распределения расстояний, [13] и на основе других геометрических свойств, зависящих от размера. [14]
Оценка внутренней размерности множеств и вероятностных мер также широко изучается примерно с 1980 года в области динамических систем, где предметом интереса были размерности (странных) аттракторов. [15] [16] [17] [18] Для странных аттракторов не существует предположения о многообразии, а измеряемая размерность представляет собой некоторую версию фрактальной размерности, которая также может быть нецелой. Однако определения фрактальной размерности дают размерность многообразия для многообразий.
В 2000-х годах «проклятие размерности» использовалось для оценки внутренней размерности. [19] [20]
Приложения
[ редактировать ]Случай сигнала с двумя переменными, который представляет собой i1D, часто встречается в компьютерном зрении и обработке изображений и отражает идею локальных областей изображения, которые содержат линии или края. Анализ таких регионов имеет долгую историю, но только когда началось более формальное и теоретическое рассмотрение таких операций, была установлена концепция внутреннего измерения, хотя название и менялось.
Например, концепция, которая здесь называется окрестностью изображения внутренней размерности 1 или окрестностью i1D, называет одномерной . Кнутссон (1982) [21] линейная симметричная работа Бигюн и Гранлунд (1987) [22] и простой район в Granlund & Knutsson (1995). [23]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Амсалег, Лоран; Челли, Усама; Фурон, Тедди; Жирар, Стефан; Хоул, Майкл Э.; Каварабаяси, Кен-ичи; Нетт, Майкл (10 августа 2015 г.). «Оценка локальной внутренней размерности» . Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . КДД '15. Сидней, Новый Южный Уэльс, Австралия: Ассоциация вычислительной техники. стр. 29–38. дои : 10.1145/2783258.2783405 . ISBN 978-1-4503-3664-2 . S2CID 16058196 .
- ^ Хоул, Мэн; Касима, Х.; Нетт, М. (2012). «Обобщенное измерение расширения» . Семинары 12-й Международной конференции IEEE по интеллектуальному анализу данных , 2012 г. стр. 587–594. дои : 10.1109/ICDMW.2012.94 . ISBN 978-1-4673-5164-5 . S2CID 8336466 .
- ^ Тордсен, Эрик; Шуберт, Эрих (2020). Сато, Синъити; Вадикамо, Люсия; Зимек, Артур; Каррара, Фабио; Бартолини, Илария; Аумюллер, Мартин; Йонссон, Бьорн Тор; Паг, Расмус (ред.). «ABID: внутренняя размерность на основе угла» . Поиск по сходству и его применение . Конспекты лекций по информатике. 12440 . Чам: Springer International Publishing: 218–232. arXiv : 2006.12880 . дои : 10.1007/978-3-030-60936-8_17 . ISBN 978-3-030-60936-8 . S2CID 219980390 .
- ^ Камастра, Франческо; Стаяно, Антонино (20 января 2016 г.). «Оценка внутренней размерности: достижения и открытые проблемы» . Информационные науки . 328 : 26–41. дои : 10.1016/j.ins.2015.08.029 . ISSN 0020-0255 .
- ^ Факко, Елена; д'Эррико, Мария; Родригес, Алекс; Лайо, Алессандро (22 сентября 2017 г.). «Оценка внутренней размерности наборов данных по минимальной информации о окрестности» . Научные отчеты . 7 (1). arXiv : 1803.06992 . дои : 10.1038/s41598-017-11873-y . ISSN 2045-2322 .
- ^ Торгерсон, Уоррен С. (1978) [1958]. Теория и методы масштабирования . Уайли. ISBN 0471879452 . ОСЛК 256008416 .
- ^ Шепард, Роджер Н. (1962). «Анализ близостей: многомерное масштабирование с неизвестной функцией расстояния. I.». Психометрика . 27 (2): 125–140. дои : 10.1007/BF02289630 . S2CID 186222646 .
- ^ Шепард, Роджер Н. (1974). «Представление структуры в данных о сходстве: проблемы и перспективы». Психометрика . 39 (4): 373–421. дои : 10.1007/BF02291665 . S2CID 121704645 .
- ^ Беннет, Роберт С. (июнь 1965 г.). «Представление и анализ сигналов. Часть XXI: Внутренняя размерность коллекций сигналов» . Реп. 163 . Балтимор, Мэриленд: Университет Джонса Хопкинса.
- ^ Роберт С. Беннетт (1965). Представление и анализ сигналов Часть XXI. Внутренняя размерность коллекций сигналов (PDF) (доктор философии). Анн-Арбор, Мичиган: Университет Джонса Хопкинса. Архивировано из оригинала (PDF) 27 декабря 2019 года.
- ^ Беннетт, Роберт С. (сентябрь 1969 г.). «Внутренняя размерность коллекций сигналов». Транзакции IEEE по теории информации . 15 (5): 517–525. дои : 10.1109/TIT.1969.1054365 .
- ^ Фукунага, К.; Олсен, доктор медицинских наук (1971). «Алгоритм определения внутренней размерности данных». Транзакции IEEE на компьютерах . 20 (2): 176–183. дои : 10.1109/TC.1971.223208 . S2CID 30206700 .
- ^ Петтис, КВ; Бейли, Томас А.; Джайн, Анил К.; Дьюбс, Ричард К. (1979). «Внутренняя оценка размерности на основе информации о ближнем соседе». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 1 (1): 25–37. дои : 10.1109/TPAMI.1979.4766873 . ПМИД 21868828 . S2CID 2196461 .
- ^ Ствол, Г.В. (1976). «Статистическая оценка внутренней размерности набора зашумленных сигналов». Транзакции IEEE на компьютерах . 100 (2): 165–171. дои : 10.1109/TC.1976.5009231 . S2CID 1181023 .
- ^ Грассбергер, П.; Прокачча, И. (1983). «Измерение странности странных аттракторов». Физика D: Нелинейные явления . 9 (1–2): 189–208. Бибкод : 1983PhyD....9..189G . дои : 10.1016/0167-2789(83)90298-1 .
- ^ Такенс, Ф. (1984). «О численном определении размерности аттрактора». В Тонге, Хауэлл (ред.). Динамические системы и бифуркации, материалы семинара, состоявшегося в Гронингене, Нидерланды, 16-20 апреля 1984 г. Конспект лекций по математике. Том. 1125. Шпрингер-Верлаг. стр. 99–106. дои : 10.1007/BFb0075637 . ISBN 3540394117 .
- ^ Катлер, компакт-диск (1993). «Обзор теории и оценки фрактальной размерности» . Оценка размеров и модели . Нелинейные временные ряды и хаос. Том. 1. Мировая научная. стр. 1–107. ISBN 9810213530 .
- ^ Харт, Д. (2001). Мультифракталы — теория и приложения . Чепмен и Холл/CRC. ISBN 9781584881544 .
- ^ Чавес, Э. (2001). «Поиск в метрических пространствах». Обзоры вычислительной техники ACM . 33 (3): 273–321. дои : 10.1145/502807.502808 . hdl : 10533/172863 . S2CID 3201604 .
- ^ Пестов, В. (2008). «Аксиоматический подход к внутренней размерности набора данных». Нейронные сети . 21 (2–3): 204–213. arXiv : 0712.2063 . дои : 10.1016/j.neunet.2007.12.030 . ПМИД 18234471 . S2CID 2309396 .
- ^ Кнутссон, Ганс (1982). Фильтрация и реконструкция при обработке изображений (PDF) . Линчёпингские исследования в области науки и технологий. Том. 88. Университет Линчепинга. ISBN 91-7372-595-1 . oai:DiVA.org:liu-54890.
- ^ Бигюн, Йозеф; Гранлунд, Гёста Х. (1987). «Оптимальное обнаружение ориентации линейной симметрии» (PDF) . Материалы международной конференции по компьютерному зрению . стр. 433–438.
- ^ Гранлунд, Гёста Х.; Кнутссон, Ганс (1995). Обработка сигналов в компьютерном зрении . Клювер Академик. ISBN 978-1-4757-2377-9 .
- Майкл Фельсберг; Синан Калкан; Норберт Крюгер (2009). «Характеристика непрерывной размерности структур изображений» . Вычисление изображений и зрительных образов . 27 (6): 628–636. дои : 10.1016/j.imavis.2008.06.018 . hdl : 11511/36631 .