Мягкое независимое моделирование аналогий классов
Мягкое независимое моделирование по аналогии классов (SIMCA) — это статистический метод контролируемой классификации данных. Для метода требуется набор обучающих данных, состоящий из выборок (или объектов) с набором атрибутов и их принадлежностью к классам. Термин «мягкий» относится к тому факту, что классификатор может идентифицировать образцы как принадлежащие к нескольким классам и не обязательно производить классификацию образцов на непересекающиеся классы.
Метод
[ редактировать ]Для построения моделей классификации образцы, принадлежащие к каждому классу, необходимо проанализировать с использованием анализа главных компонентов (PCA); сохраняются только значимые компоненты.
Для данного класса результирующая модель затем описывает либо линию (для одного главного компонента или ПК), плоскость (для двух ПК) или гиперплоскость (для более чем двух ПК). Для каждого смоделированного класса среднее ортогональное расстояние выборок обучающих данных от линии, плоскости или гиперплоскости (рассчитанное как остаточное стандартное отклонение) используется для определения критического расстояния для классификации. Это критическое расстояние основано на F-распределении и обычно рассчитывается с использованием доверительных интервалов 95% или 99%.
Новые наблюдения проецируются в каждую модель ПК и рассчитываются остаточные расстояния. Наблюдение присваивается классу модели, когда его остаточное расстояние от модели ниже статистического предела для класса. Можно обнаружить, что наблюдение принадлежит нескольким классам, а меру качества модели можно определить по количеству случаев, когда наблюдения классифицируются по нескольким классам. Эффективность классификации обычно обозначается рабочими характеристиками приемника .
В исходном методе SIMCA концы гиперплоскости каждого класса закрываются путем установки пределов статистического контроля вдоль осей сохраненных главных компонентов (т. е. значение оценки между плюсом и минусом, умноженным на 0,5 стандартного отклонения оценки).
Более поздние модификации метода SIMCA закрывают гиперплоскость путем построения эллипсоидов (например, T Хотеллинга 2 или расстояние Махаланобиса ). При использовании таких модифицированных методов SIMCA классификация объекта требует, чтобы как его ортогональное расстояние от модели, так и его проекция внутри модели (т. е. значение оценки в области, определенной эллипсоидом) не были значимыми.
Приложение
[ редактировать ]SIMCA как метод классификации получил широкое распространение, особенно в прикладных областях статистики, таких как хемометрика и анализ спектроскопических данных.
Ссылки
[ редактировать ]- Уолд, Сванте и Сьостром, Майкл, 1977, SIMCA: метод анализа химических данных с точки зрения сходства и аналогии, в Ковальски, Б.Р., изд., Теория и применение хемометрики, Серия 52 симпозиума Американского химического общества, Вашингтон, округ Колумбия. , Американское химическое общество, с. 243-282.