Объединение данных
Объединение данных , также называемое дискретным объединением данных или группированием данных , представляет собой метод предварительной обработки данных, используемый для уменьшения влияния незначительных ошибок наблюдения . Исходные значения данных, которые попадают в заданный небольшой интервал, интервал , заменяются значением, представляющим этот интервал, часто центральным значением ( средним или медианным ). [ нужна ссылка ] Это связано с квантованием : объединение данных осуществляется по оси абсцисс , а квантование — по оси ординат . Биннинг — это обобщение округления .
Статистическое объединение данных — это способ группировки чисел более или менее непрерывных значений в меньшее количество «ячейок». Например, если у вас есть данные о группе людей, вы можете распределить их возраст по меньшему числу возрастных интервалов (например, группируя каждые пять лет). Его также можно использовать в многомерной статистике , группируя одновременно по нескольким измерениям.
В цифровой обработке изображений «биннинг» имеет совсем другое значение. Объединение пикселей — это процесс объединения блоков соседних пикселей по всему изображению путем суммирования или усреднения их значений во время или после считывания. Это уменьшает объем данных; также относительный уровень шума в результате ниже.
Пример использования
[ редактировать ]Гистограммы являются примером объединения данных, используемого для наблюдения за основным распределением частот . Обычно они происходят в одномерном пространстве и через равные промежутки времени для удобства визуализации.
Объединение данных может использоваться, когда небольшие инструментальные сдвиги в спектральном измерении в результате экспериментов по масс-спектрометрии (МС) или ядерному магнитному резонансу (ЯМР) будут ошибочно интерпретированы как представляющие разные компоненты, когда набор профилей данных подвергается анализу распознавания образов . Простой способ справиться с этой проблемой — использовать методы биннинга, при которых разрешение спектра снижается до достаточной степени, чтобы гарантировать, что данный пик остается в своем интервале, несмотря на небольшие спектральные сдвиги между анализами. Например, в ЯМР ось химического сдвига может быть дискретизирована и грубо распределена, а в МС спектральные точности могут быть округлены до целых значений единиц атомной массы . Кроме того, некоторые системы цифровых камер включают функцию автоматического объединения пикселей для улучшения контрастности изображения. [1]
Биннинг также используется в машинном обучении для ускорения [2] дерева решений метод повышения для контролируемой классификации и регрессии в таких алгоритмах, как Microsoft от LightGBM и scikit-learn от дерево классификации повышения градиента на основе гистограмм .
См. также
[ редактировать ]- Биннинг (значения)
- Цензура (статистика)
- Дискретизация непрерывных функций
- Сгруппированные данные
- Гистограмма
- Уровень измерения
- Квантование (обработка сигналов)
- Округление
Ссылки
[ редактировать ]- ^ «Использование биннинга в фотографии» . Никон, бывший СССР . Проверено 18 января 2011 г.
- ^ «LightGBM: высокоэффективное дерево решений по повышению градиента» . Нейронные системы обработки информации (НИПС) . Проверено 18 декабря 2019 г.