Jump to content

Масштабирование функций

Масштабирование признаков — это метод, используемый для нормализации диапазона независимых переменных или характеристик данных. В обработке данных это также известно как нормализация данных и обычно выполняется на этапе предварительной обработки данных .

Мотивация [ править ]

Поскольку диапазон значений необработанных данных сильно различается, в некоторых машинного обучения алгоритмах целевые функции не будут работать должным образом без нормализации . Например, многие классификаторы вычисляют расстояние между двумя точками по евклидову расстоянию . Если один из признаков имеет широкий диапазон значений, расстояние будет определяться этим конкретным признаком. Следовательно, диапазон всех функций должен быть нормализован таким образом, чтобы вклад каждого объекта в окончательное расстояние был примерно пропорционален.

Другая причина, по которой применяется масштабирование признаков, заключается в том, что градиентный спуск сходится гораздо быстрее при масштабировании признаков, чем без него. [1]

Также важно применять масштабирование признаков, если регуляризация используется как часть функции потерь (чтобы коэффициенты были соответствующим образом наказаны).

Методы [ править ]

Изменение масштаба (нормализация мин-макс) [ править ]

Изменение масштаба, также известное как мин-макс-масштабирование или мин-макс-нормализация, является самым простым методом и заключается в изменении масштаба диапазона признаков для масштабирования диапазона в [0, 1] или [-1, 1]. Выбор целевого диапазона зависит от характера данных. Общая формула для min-max [0, 1] задается как: [2]

где это исходное значение, является нормализованным значением. Например, предположим, что у нас есть данные о весе учащихся, а их вес варьируется [160 фунтов, 200 фунтов]. Чтобы изменить масштаб этих данных, мы сначала вычитаем 160 из веса каждого ученика и делим результат на 40 (разница между максимальным и минимальным весом).

Чтобы изменить масштаб диапазона между произвольным набором значений [a, b], формула принимает вид:

где это мин-макс значения.

Средняя нормализация

где это исходное значение, нормализованное значение, является средним значением этого вектора признаков. Существует еще одна форма нормализации среднего значения, которая делится на стандартное отклонение, которое также называется стандартизацией.

Z- Стандартизация ( нормализация показателя )

В машинном обучении мы можем обрабатывать различные типы данных, например аудиосигналы и значения пикселей для данных изображения, и эти данные могут включать в себя несколько измерений . Стандартизация признаков приводит к тому, что значения каждого признака в данных имеют нулевое среднее (при вычитании среднего значения в числителе) и единичную дисперсию. Этот метод широко используется для нормализации во многих алгоритмах машинного обучения (например, машинах опорных векторов , логистической регрессии и искусственных нейронных сетях ). [3] [4] Общий метод расчета заключается в определении среднего значения распределения и стандартного отклонения для каждого признака. Затем мы вычитаем среднее значение из каждого признака. Затем мы делим значения (среднее значение уже вычтено) каждого признака на его стандартное отклонение.

Где исходный вектор признаков, является средним значением этого вектора признаков, а это его стандартное отклонение.

Масштабирование до единицы длины [ править ]

Другой вариант, широко используемый в машинном обучении, — масштабировать компоненты вектора признаков так, чтобы длина полного вектора составляла единицу. Обычно это означает деление каждого компонента на евклидову длину вектора:

В некоторых приложениях (например, функции гистограммы) может быть более практично использовать норму L 1 (т. е. геометрию такси ) вектора признаков. Это особенно важно, если на следующих этапах обучения в качестве меры расстояния используется скалярная метрика. [ почему? ] Обратите внимание, что это работает только для .

Приложение [ править ]

При стохастическом градиентном спуске масштабирование признаков иногда может улучшить скорость сходимости алгоритма. В машинах опорных векторов [5] это может сократить время поиска векторов поддержки.

См. также [ править ]

Ссылки [ править ]

  1. ^ Иоффе, Сергей; Кристиан Сегеди (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].
  2. ^ «Нормализация Мин Макс» . ml-concepts.com . Архивировано из оригинала 5 апреля 2023 г. Проверено 14 декабря 2022 г.
  3. ^ Грус, Джоэл (2015). Наука о данных с нуля . Севастополь, Калифорния: О'Рейли. стр. 99, 100. ISBN.  978-1-491-90142-7 .
  4. ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN  978-0-387-84884-6 .
  5. ^ Ющак, П.; налог DMJ; РПВ Дуй (2002). «Масштабирование признаков в описаниях опорных векторных данных». Учеб. 8-й год. Конф. Адв. Школьный компьютер. Визуализация : 25–30. CiteSeerX   10.1.1.100.2524 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7df43a587b7dfd07b5ded9e1867cbea6__1718062800
URL1:https://arc.ask3.ru/arc/aa/7d/a6/7df43a587b7dfd07b5ded9e1867cbea6.html
Заголовок, (Title) документа по адресу, URL1:
Feature scaling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)