Область применения
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Областью применимости (AD) (как для химии, так и для машинного обучения ) модели QSAR является физико-химическое, структурное или биологическое пространство, знания или информация, на которых был разработан обучающий набор модели и для которого она применима. делать прогнозы для новых соединений.
Целью AD является определение того, выполняются ли предположения модели и для каких химических веществ модель может быть надежно применима. В общем, это относится скорее к интерполяции , чем к экстраполяции . До сих пор не существует единого общепринятого алгоритма определения АД: подробное исследование можно найти в Отчете и рекомендациях ECVAM Workshop 52. [1] Существует достаточно системный подход к определению областей интерполяции. [2] Этот процесс включает в себя удаление выбросов и метод распределения плотности вероятности с использованием выборки, взвешенной по ядру. Другой широко используемый подход к структурному AD регрессионных моделей QSAR основан на рычаге, рассчитанном на основе диагональных значений шляпной матрицы моделирующих молекулярных дескрипторов. [3] [4] [5] Недавнее тщательное сравнительное исследование нескольких алгоритмов AD выявило, что стандартное отклонение прогнозов модели является наиболее надежным подходом. [6] Чтобы исследовать AD обучающего набора химических веществ, можно напрямую проанализировать свойства многомерного дескрипторного пространства обучающих соединений или более косвенно, с помощью показателей расстояния (или сходства). При использовании метрик расстояний следует соблюдать осторожность и использовать ортогональное и значимое векторное пространство. Этого можно достичь с помощью различных средств выбора признаков и последовательного анализа главных компонентов .
Примечания
[ редактировать ]- ^ Нецева Т, Уорт А, Альденберг Т, Бениньи Р, Кронин М, Граматика П, Яворска Дж, Кан С, Клопман Г, Марчант С, Мятт Г, Николова-Елязкова Н, Патлевич Г, Перкинс Р, Робертс Д, Шульц Т , Стэнтон Д., Ван де Сандт Дж., Тонг В., Вейт Г., Янг К.: Текущее состояние методов определения области применимости (количественных) связей «структура-активность». Альтернативная Лаборатория Аним 2005, 33: 1-19
- ^ Яворска Дж., Николова-Желязкова Н., Альденберг Т.: Оценка области применимости QSAR путем проекции пространства дескрипторов обучающего набора: обзор. Altern Lab Anim 2005, 33(5):445-459
- ^ Аткинсон AC, Графики, трансформации и регрессия, Clarendon Press, Оксфорд, 1985, стр.282
- ^ Тропша А., Граматика П., Гомбар В.К. Важность быть серьезным: проверка является абсолютно необходимой для успешного применения и интерпретации моделей QSPR. QSAR Comb.Sci. 2003, 22: 69-77.
- ^ Gramatica P, Принципы проверки моделей QSAR: внутренний и внешний QSAR Comb.Sci. 2007, 26(5): 694-701.
- ^ Тетко И.В., Сушко И., Пандей А.К., Чжу Х., Тропша А., Папа Е., Оберг Т., Тодескини Р., Фуршес Д., Варнек А. Критическая оценка QSAR-моделей экологической токсичности против Tetrahymenapyriformis: сосредоточение внимания на области применимости и переобучение с помощью выбор переменной. Модель J Chem Inf. Сентябрь 2008 г.; 48 (9): 1733-46.