Оптимизация естественных перерывов Дженкса
Метод оптимизации Дженкса , также называемый методом классификации естественных разрывов Дженкса , представляет собой метод кластеризации данных , предназначенный для определения наилучшего распределения значений по различным классам. Это делается путем стремления свести к минимуму среднее отклонение каждого класса от среднего значения класса, одновременно максимизируя отклонение каждого класса от средних значений других классов. Другими словами, метод стремится уменьшить дисперсию внутри классов и максимизировать дисперсию между классами. [1] [2]
Метод оптимизации Дженкса напрямую связан с методом Оцу и дискриминантным анализом Фишера .
История
[ редактировать ]Джордж Фредерик Дженкс
[ редактировать ]XX века Джордж Фредерик Дженкс — американский картограф . Получив степень доктора философии. Получив степень бакалавра сельскохозяйственной географии в Сиракузском университете в 1947 году, Дженкс начал свою карьеру под руководством Ричарда Харрисона , картографа журнала Time and Fortune . [3] Он поступил на факультет Канзасского университета в 1949 году и начал разрабатывать программу картографии. За время своего 37-летнего пребывания в KU Дженкс превратил программу «Картография» в одну из трех программ, известных своим последипломным образованием в этой области; остальные — Университет Висконсина и Вашингтонский университет . Большую часть своего времени он потратил на разработку и продвижение улучшенных методов и программ картографического обучения. Он также потратил много времени на изучение трехмерных карт, исследование движения глаз, тематическое картографическое взаимодействие и геостатистику . [2] [3] [4]
Предыстория и развитие
[ редактировать ]Дженкс по профессии был картографом. Его работа со статистикой возникла из-за желания сделать картограммы более визуально точными для зрителя. В своей статье «Концепция модели данных в статистическом картографировании » он утверждает, что, визуализируя данные в трехмерной модели, картографы могут разработать «систематический и рациональный метод подготовки хороплетических карт». [1] Дженкс использовал аналогию с «одеялом ошибок», чтобы описать необходимость использования элементов, отличных от среднего, для обобщения данных. Трехмерные модели были созданы, чтобы помочь Дженксу визуализировать разницу между классами данных. Его цель состояла в том, чтобы обобщить данные, используя как можно меньше плоскостей, и поддерживать постоянный «одеяло ошибок».
Описание метода
[ редактировать ]Этот метод требует итеративного процесса. То есть вычисления необходимо повторить с использованием разных разрывов в наборе данных, чтобы определить, какой набор разрывов имеет наименьшую внутриклассовую дисперсию . Процесс начинается с разделения упорядоченных данных на классы каким-либо образом, который может быть произвольным. Есть два шага, которые необходимо повторить:
- Рассчитайте сумму квадратов отклонений от среднего класса (SDCM).
- Выберите новый способ разделения данных на классы, например, переместив одну или несколько точек данных из одного класса в другой.
Затем вычисляются новые отклонения класса, и процесс повторяется до тех пор, пока сумма отклонений внутри класса не достигнет минимального значения. [1] [5]
Альтернативно, можно проверить все комбинации разрывов, рассчитать SDCM для каждой комбинации и выбрать комбинацию с наименьшим SDCM. Поскольку проверяются все комбинации разрывов, это гарантирует, что будет найдена комбинация с наименьшим SDCM.
Наконец, можно рассчитать сумму квадратов отклонений от среднего значения полного набора данных (SDAM) и степень соответствия дисперсии (GVF). GVF определяется как (SDAM – SDCM)/SDAM. GVF варьируется от 0 (наихудшее соответствие) до 1 (идеальное соответствие).
Использование в картографии
[ редактировать ]Целью Дженкса при разработке этого метода было создание карты, которая была бы абсолютно точной с точки зрения представления пространственных атрибутов данных. Следуя этому процессу, утверждает Дженкс, «одеяло ошибок» можно равномерно распределить по картографированной поверхности. Он разработал это с намерением использовать относительно небольшое количество классов данных, менее семи, потому что это был предел при использовании монохроматического затенения на хороплетной карте. [1]
Метод классификации Дженкса обычно используется в тематических картах, особенно в картограммах, как один из нескольких доступных методов классификации. При создании картограмм метод классификации Дженкса может оказаться полезным, поскольку, если в значениях данных есть кластеры, он их идентифицирует. Фактически, в текущих версиях программного обеспечения ArcGIS от Esri Дженкс является методом классификации по умолчанию. Однако классификация Дженкса не рекомендуется для данных с низкой дисперсией. Естественные разрывы данных Дженкса используются для обеспечения более значимой визуализации картографических данных на основе «естественных разрывов» данных, выявленных в ходе итеративного процесса.
Альтернативные методы
[ редактировать ]Другие методы классификации данных включают разрывы головы/хвоста , естественные разрывы (без оптимизации Дженкса), равный интервал, квантиль и стандартное отклонение.
Дальнейшее чтение
[ редактировать ]- Дж. А. Хартиган: Алгоритмы кластеризации, John Wiley & Sons, Inc., 1975 г.
См. также
[ редактировать ]- Кластеризация k-средних , обобщение для многомерных данных (оптимизация естественных разрывов Дженкса кажется одномерной k-средними [6] ).
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Дженкс, Джордж Ф. 1967. «Концепция модели данных в статистическом картировании», Международный ежегодник картографии 7: 186–190.
- ^ Jump up to: а б Макмастер, Роберт, «Памяти: Джорджа Ф. Дженкса (1916–1996)». Картография и географическая информатика. 24(1) с.56-59.
- ^ Jump up to: а б Макмастер, Роберт и Макмастер, Сюзанна. 2002. «История американской академической картографии двадцатого века», Картография и географическая информатика. 29(3) с.312-315.
- ^ Специализированная группа по картографии CSUN, информационный бюллетень зимой 1997 г., архивировано 7 июня 2010 г. в Wayback Machine.
- ^ Часто задаваемые вопросы ESRI, Что такое метод оптимизации Дженкса . Архивировано 16 ноября 2007 г. на Wayback Machine .
- ^ «Глава 9» . Архивировано из оригинала 21 августа 2004 г.
Внешние ссылки
[ редактировать ]- Добровольная географическая информация, Дэниел Льюис, Дженкс Алгоритм естественного разрыва с реализацией на Python
- CMU lib.stat исходный код FORTRAN
- Вики Object Vision, Классификация естественных разрывов Фишера, алгоритм O(k*n*log(n))
- Что такое натуральные перерывы Дженкса?
- Грамотный Дженкс: Естественные перерывы и как теряется идея кода