Масштабирование функций

Масштабирование признаков — это метод, используемый для нормализации диапазона независимых переменных или характеристик данных. В обработке данных это также известно как нормализация данных и обычно выполняется на этапе предварительной обработки данных .

Мотивация [ править ]

Поскольку диапазон значений необработанных данных сильно различается, в некоторых машинного обучения алгоритмах целевые функции не будут работать должным образом без нормализации . Например, многие классификаторы вычисляют расстояние между двумя точками по евклидову расстоянию . Если один из признаков имеет широкий диапазон значений, расстояние будет определяться этим конкретным признаком. Следовательно, диапазон всех функций должен быть нормализован таким образом, чтобы вклад каждого объекта в окончательное расстояние был примерно пропорционален.

Другая причина, по которой применяется масштабирование признаков, заключается в том, что градиентный спуск сходится гораздо быстрее при масштабировании признаков, чем без него. ^[1]

Также важно применять масштабирование признаков, если регуляризация используется как часть функции потерь (чтобы коэффициенты были соответствующим образом наказаны).

Методы [ править ]

Изменение масштаба (нормализация мин-макс) [ править ]

Изменение масштаба, также известное как мин-макс-масштабирование или мин-макс-нормализация, является самым простым методом и заключается в изменении масштаба диапазона признаков для масштабирования диапазона в [0, 1] или [-1, 1]. Выбор целевого диапазона зависит от характера данных. Общая формула для min-max [0, 1] задается как: ^[2]

x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}

где $x$ это исходное значение, $x'$ является нормализованным значением. Например, предположим, что у нас есть данные о весе учащихся, а их вес варьируется [160 фунтов, 200 фунтов]. Чтобы изменить масштаб этих данных, мы сначала вычитаем 160 из веса каждого ученика и делим результат на 40 (разница между максимальным и минимальным весом).

Чтобы изменить масштаб диапазона между произвольным набором значений [a, b], формула принимает вид:

x'=a+{\frac {(x-{\text{min}}(x))(b-a)}{{\text{max}}(x)-{\text{min}}(x)}}

где $a,b$ это мин-макс значения.

Средняя нормализация

x'={\frac {x-{\bar {x}}}{{\text{max}}(x)-{\text{min}}(x)}}

где $x$ это исходное значение, $x'$ нормализованное значение, ${\bar {x}}={\text{average}}(x)$ является средним значением этого вектора признаков. Существует еще одна форма нормализации среднего значения, которая делится на стандартное отклонение, которое также называется стандартизацией.

Z- Стандартизация ( нормализация показателя )

В машинном обучении мы можем обрабатывать различные типы данных, например аудиосигналы и значения пикселей для данных изображения, и эти данные могут включать в себя несколько измерений . Стандартизация признаков приводит к тому, что значения каждого признака в данных имеют нулевое среднее (при вычитании среднего значения в числителе) и единичную дисперсию. Этот метод широко используется для нормализации во многих алгоритмах машинного обучения (например, машинах опорных векторов , логистической регрессии и искусственных нейронных сетях ). ^[3]^[4] Общий метод расчета заключается в определении среднего значения распределения и стандартного отклонения для каждого признака. Затем мы вычитаем среднее значение из каждого признака. Затем мы делим значения (среднее значение уже вычтено) каждого признака на его стандартное отклонение.

x'={\frac {x-{\bar {x}}}{\sigma }}

Где $x$ исходный вектор признаков, ${\bar {x}}={\text{average}}(x)$ является средним значением этого вектора признаков, а $\sigma$ это его стандартное отклонение.

Масштабирование до единицы длины [ править ]

Другой вариант, широко используемый в машинном обучении, — масштабировать компоненты вектора признаков так, чтобы длина полного вектора составляла единицу. Обычно это означает деление каждого компонента на евклидову длину вектора:

x'={\frac {x}{\left\|{x}\right\|}}

В некоторых приложениях (например, функции гистограммы) может быть более практично использовать норму L ₁ (т. е. геометрию такси ) вектора признаков. Это особенно важно, если на следующих этапах обучения в качестве меры расстояния используется скалярная метрика. ^{[ почему? ]}Обратите внимание, что это работает только для $x\neq \mathbf {0}$ .

Приложение [ править ]

При стохастическом градиентном спуске масштабирование признаков иногда может улучшить скорость сходимости алгоритма. В машинах опорных векторов ^[5] это может сократить время поиска векторов поддержки.

См. также [ править ]

Нормализация (статистика)
Стандартная оценка
fMLLR , Пространство признаков Линейная регрессия максимального правдоподобия

Ссылки [ править ]

^ Иоффе, Сергей; Кристиан Сегеди (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].
^ «Нормализация Мин Макс» . ml-concepts.com . Архивировано из оригинала 5 апреля 2023 г. Проверено 14 декабря 2022 г.
^ Грус, Джоэл (2015). Наука о данных с нуля . Севастополь, Калифорния: О'Рейли. стр. 99, 100. ISBN. 978-1-491-90142-7 .
^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .
^ Ющак, П.; налог DMJ; РПВ Дуй (2002). «Масштабирование признаков в описаниях опорных векторных данных». Учеб. 8-й год. Конф. Адв. Школьный компьютер. Визуализация : 25–30. CiteSeerX 10.1.1.100.2524 .

Дальнейшее чтение [ править ]

Хан, Цзявэй; Камбер, Мишлин; Пей, Цзянь (2011). «Преобразование данных и дискретизация данных» . Интеллектуальный анализ данных: концепции и методы . Эльзевир. стр. 111–118. ISBN 9780123814807 .

Внешние ссылки [ править ]

Лекция Эндрю Нга о масштабировании функций

[1] Иоффе, Сергей; Кристиан Сегеди (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].

[2] «Нормализация Мин Макс» . ml-concepts.com . Архивировано из оригинала 5 апреля 2023 г. Проверено 14 декабря 2022 г.

[:0-3] Грус, Джоэл (2015). Наука о данных с нуля . Севастополь, Калифорния: О'Рейли. стр. 99, 100. ISBN. 978-1-491-90142-7 .

[4] Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .

[5] Ющак, П.; налог DMJ; РПВ Дуй (2002). «Масштабирование признаков в описаниях опорных векторных данных». Учеб. 8-й год. Конф. Адв. Школьный компьютер. Визуализация : 25–30. CiteSeerX 10.1.1.100.2524 .

[1]

[2]

[3]

[4]

[5]