Выбор функции минимального резервирования
Выбор признаков с минимальной избыточностью - это алгоритм, часто используемый в методе точной идентификации характеристик генов и фенотипов и сужения их релевантности, который обычно описывается в сочетании с выбором соответствующих признаков как минимальная избыточность и максимальная релевантность (mRMR). Этот метод был впервые предложен в 2003 году Ханьчуанем Пэном и Крисом Дином. [1] за которым следует теоретическая формулировка, основанная на взаимной информации, а также первое определение многомерной взаимной информации, опубликованное в IEEE Trans. Анализ шаблонов и машинный интеллект в 2005 году. [2]
Выбор признаков , одна из основных задач в распознавании образов и машинном обучении , определяет подмножества данных, которые соответствуют используемым параметрам, и обычно называется максимальной релевантностью . Эти подмножества часто содержат релевантный, но избыточный материал, и mRMR пытается решить эту проблему, удаляя эти избыточные подмножества. mRMR имеет множество применений во многих областях, таких как диагностика рака и распознавание речи .
Характеристики можно выбирать разными способами. Одна из схем заключается в выборе признаков, которые наиболее сильно коррелируют с классификационной переменной. Это называется отбором с максимальной релевантностью. Можно использовать множество эвристических алгоритмов , таких как последовательный прямой, обратный или плавающий выбор.
С другой стороны, признаки могут быть выбраны так, чтобы они находились далеко друг от друга, но при этом имели «высокую» корреляцию с классификационной переменной. эта схема, называемая выбором минимальной избыточности и максимальной релевантности Было обнаружено, что (mRMR), является более эффективной, чем выбор максимальной релевантности.
В частном случае «корреляцию» можно заменить статистической зависимостью между переменными. Взаимная информация может использоваться для количественной оценки зависимости. В этом случае показано, что mRMR является приближением к максимизации зависимости между совместным распределением выбранных признаков и классификационной переменной.
В исследованиях были опробованы различные меры для измерения избыточности и релевантности. Недавнее исследование сравнило несколько показателей в контексте биомедицинских изображений. [3]
Ссылки
[ редактировать ]- ^ Крис Дин и Ханьчуань Пэн, « Выбор признаков минимальной избыточности на основе данных экспрессии генов микроматрицы ». 2-я конференция IEEE по биоинформатике компьютерного общества (CSB 2003), 11–14 августа 2003 г., Стэнфорд, Калифорния, США. Страницы 523–529.
- ^ Пэн, ХК, Лонг, Ф. и Дин, К., « Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности », Транзакции IEEE по анализу шаблонов и машинному интеллекту, Том . 27, № 8, стр. 1226–1238, 2005.
- ^ Ауффарт Б., Лопес М., Серкидес Дж. (2010). Сравнение мер избыточности и релевантности для выбора признаков при классификации тканей КТ-изображений. Достижения в области интеллектуального анализа данных. Приложения и теоретические аспекты. п. 248--262. Спрингер. http://www.csc.kth.se/~auffarth/publications/redrel.pdf
Внешние ссылки
[ редактировать ]- Пэн Х.К., Лонг Ф. и Дин К., « Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности », Транзакции IEEE по анализу шаблонов и машинному интеллекту, Vol. 27, № 8, стр. 1226–1238, 2005.
- Крис Дин и Ханьчуань Пэн, « Выбор признаков с минимальной избыточностью на основе данных экспрессии генов микрочипов ». 2-я конференция IEEE по биоинформатике компьютерного общества (CSB 2003), 11–14 августа 2003 г., Стэнфорд, Калифорния, США. Страницы 523–529.
- лаборатория мРМР