Jump to content

Оптимизация естественных перерывов Дженкса

Метод оптимизации Дженкса , также называемый методом классификации естественных разрывов Дженкса , представляет собой метод кластеризации данных , предназначенный для определения наилучшего распределения значений по различным классам. Это делается путем стремления свести к минимуму среднее отклонение каждого класса от среднего значения класса, одновременно максимизируя отклонение каждого класса от средних значений других классов. Другими словами, метод стремится уменьшить дисперсию внутри классов и максимизировать дисперсию между классами. [1] [2]

Метод оптимизации Дженкса напрямую связан с методом Оцу и дискриминантным анализом Фишера .

Джордж Фредерик Дженкс

[ редактировать ]

XX века Джордж Фредерик Дженкс — американский картограф . Получив степень доктора философии. Получив степень бакалавра сельскохозяйственной географии в Сиракузском университете в 1947 году, Дженкс начал свою карьеру под руководством Ричарда Харрисона , картографа журнала Time and Fortune . [3] Он поступил на факультет Канзасского университета в 1949 году и начал разрабатывать программу картографии. За время своего 37-летнего пребывания в KU Дженкс превратил программу «Картография» в одну из трех программ, известных своим последипломным образованием в этой области; остальные — Университет Висконсина и Вашингтонский университет . Большую часть своего времени он потратил на разработку и продвижение улучшенных методов и программ картографического обучения. Он также потратил много времени на изучение трехмерных карт, исследование движения глаз, тематическое картографическое взаимодействие и геостатистику . [2] [3] [4]

Предыстория и развитие

[ редактировать ]

Дженкс по профессии был картографом. Его работа со статистикой возникла из-за желания сделать картограммы более визуально точными для зрителя. В своей статье «Концепция модели данных в статистическом картографировании » он утверждает, что, визуализируя данные в трехмерной модели, картографы могут разработать «систематический и рациональный метод подготовки хороплетических карт». [1] Дженкс использовал аналогию с «одеялом ошибок», чтобы описать необходимость использования элементов, отличных от среднего, для обобщения данных. Трехмерные модели были созданы, чтобы помочь Дженксу визуализировать разницу между классами данных. Его цель состояла в том, чтобы обобщить данные, используя как можно меньше плоскостей, и поддерживать постоянный «одеяло ошибок».

Описание метода

[ редактировать ]

Этот метод требует итеративного процесса. То есть вычисления необходимо повторить с использованием разных разрывов в наборе данных, чтобы определить, какой набор разрывов имеет наименьшую внутриклассовую дисперсию . Процесс начинается с разделения упорядоченных данных на классы каким-либо образом, который может быть произвольным. Есть два шага, которые необходимо повторить:

  1. Рассчитайте сумму квадратов отклонений от среднего класса (SDCM).
  2. Выберите новый способ разделения данных на классы, например, переместив одну или несколько точек данных из одного класса в другой.

Затем вычисляются новые отклонения класса, и процесс повторяется до тех пор, пока сумма отклонений внутри класса не достигнет минимального значения. [1] [5]

Альтернативно, можно проверить все комбинации разрывов, рассчитать SDCM для каждой комбинации и выбрать комбинацию с наименьшим SDCM. Поскольку проверяются все комбинации разрывов, это гарантирует, что будет найдена комбинация с наименьшим SDCM.

Наконец, можно рассчитать сумму квадратов отклонений от среднего значения полного набора данных (SDAM) и степень соответствия дисперсии (GVF). GVF определяется как (SDAM – SDCM)/SDAM. GVF варьируется от 0 (наихудшее соответствие) до 1 (идеальное соответствие).

Использование в картографии

[ редактировать ]
Картографическая карта, показывающая приблизительный процент населения, живущего за чертой бедности ниже 150%, в континентальных Соединенных Штатах по округам, 2020 год, с использованием классификации естественных разрывов Дженкса.

Целью Дженкса при разработке этого метода было создание карты, которая была бы абсолютно точной с точки зрения представления пространственных атрибутов данных. Следуя этому процессу, утверждает Дженкс, «одеяло ошибок» можно равномерно распределить по картографированной поверхности. Он разработал это с намерением использовать относительно небольшое количество классов данных, менее семи, потому что это был предел при использовании монохроматического затенения на хороплетной карте. [1]

Метод классификации Дженкса обычно используется в тематических картах, особенно в картограммах, как один из нескольких доступных методов классификации. При создании картограмм метод классификации Дженкса может оказаться полезным, поскольку, если в значениях данных есть кластеры, он их идентифицирует. Фактически, в текущих версиях программного обеспечения ArcGIS от Esri Дженкс является методом классификации по умолчанию. Однако классификация Дженкса не рекомендуется для данных с низкой дисперсией. Естественные разрывы данных Дженкса используются для обеспечения более значимой визуализации картографических данных на основе «естественных разрывов» данных, выявленных в ходе итеративного процесса.

Альтернативные методы

[ редактировать ]

Другие методы классификации данных включают разрывы головы/хвоста , естественные разрывы (без оптимизации Дженкса), равный интервал, квантиль и стандартное отклонение.

Дальнейшее чтение

[ редактировать ]
  • Дж. А. Хартиган: Алгоритмы кластеризации, John Wiley & Sons, Inc., 1975 г.

См. также

[ редактировать ]
  • Кластеризация k-средних , обобщение для многомерных данных (оптимизация естественных разрывов Дженкса кажется одномерной k-средними [6] ).
  1. ^ Jump up to: а б с д Дженкс, Джордж Ф. 1967. «Концепция модели данных в статистическом картировании», Международный ежегодник картографии 7: 186–190.
  2. ^ Jump up to: а б Макмастер, Роберт, «Памяти: Джорджа Ф. Дженкса (1916–1996)». Картография и географическая информатика. 24(1) с.56-59.
  3. ^ Jump up to: а б Макмастер, Роберт и Макмастер, Сюзанна. 2002. «История американской академической картографии двадцатого века», Картография и географическая информатика. 29(3) с.312-315.
  4. ^ Специализированная группа по картографии CSUN, информационный бюллетень зимой 1997 г., архивировано 7 июня 2010 г. в Wayback Machine.
  5. ^ Часто задаваемые вопросы ESRI, Что такое метод оптимизации Дженкса . Архивировано 16 ноября 2007 г. на Wayback Machine .
  6. ^ «Глава 9» . Архивировано из оригинала 21 августа 2004 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b08ee30753dcb8b8b2e37eab2ddd807f__1722552000
URL1:https://arc.ask3.ru/arc/aa/b0/7f/b08ee30753dcb8b8b2e37eab2ddd807f.html
Заголовок, (Title) документа по адресу, URL1:
Jenks natural breaks optimization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)