Хемометрика
Хемометрика — это наука об извлечении информации из химических систем с помощью данных. Хемометрика по своей сути является междисциплинарной, используя методы, часто используемые в основных дисциплинах анализа данных, таких как многомерная статистика , прикладная математика и информатика , для решения проблем в химии , биохимии , медицине , биологии и химической инженерии . Таким образом, она отражает другие междисциплинарные области, такие как психометрия и эконометрика .
Предыстория [ править ]
Хемометрика применяется для решения как описательных, так и прогнозных задач в экспериментальном естествознании, особенно в химии. В описательных приложениях свойства химических систем моделируются с целью изучения основных взаимосвязей и структуры системы (т. е. понимания и идентификации модели). В прогностических приложениях свойства химических систем моделируются с целью прогнозирования новых свойств или интересующего поведения. В обоих случаях наборы данных могут быть небольшими, но зачастую большими и сложными, включающими от сотен до тысяч переменных и от сотен до тысяч случаев или наблюдений.
Хемометрические методы особенно широко используются в аналитической химии и метаболомике , а разработка усовершенствованных хемометрических методов анализа также продолжает способствовать развитию современного аналитического оборудования и методологии. Это прикладная дисциплина, и поэтому, хотя стандартные хемометрические методологии очень широко используются в промышленности, академические группы занимаются постоянным развитием хемометрической теории, методов и приложений.
Происхождение [ править ]
Хотя можно утверждать, что даже самые ранние аналитические эксперименты в химии включали в себя разновидность хемометрики, общепризнано, что эта область возникла в 1970-х годах, когда компьютеры стали все чаще использоваться для научных исследований. Термин «хемометрика» был введен Сванте Уолдом в заявке на грант 1971 года. [1] было основано Международное общество хемометрики и вскоре после этого Сванте Уолдом и Брюсом Ковальски , двумя пионерами в этой области, . Уолд был профессором органической химии в Университете Умео в Швеции, а Ковальски — профессором аналитической химии в Вашингтонском университете в Сиэтле. [2]
Многие ранние приложения включали многомерную классификацию, за ними последовали многочисленные приложения для количественного прогнозирования, а к концу 1970-х и началу 1980-х годов появился широкий спектр химических анализов, управляемых данными и компьютером.
Многомерный анализ был важным аспектом даже в самых ранних приложениях хемометрики. Данные инфракрасной и УФ-/видимой спектроскопии часто исчисляются тысячами измерений на образец. Масс-спектрометрия, ядерный магнитный резонанс, атомная эмиссия/абсорбция и хроматографические эксперименты также по своей природе очень многомерны. Было обнаружено, что структура этих данных способствует использованию таких методов, как анализ главных компонентов (PCA), частичные наименьшие квадраты (PLS), ортогональные частичные наименьшие квадраты (OPLS) и двусторонние ортогональные частичные наименьшие квадраты (O2PLS). . [3] Это происходит главным образом потому, что, хотя наборы данных могут быть очень многомерными, в них присутствует сильная и часто линейная структура низкого ранга. Со временем было показано, что PCA и PLS очень эффективны при эмпирическом моделировании более химически интересных структур низкого ранга, использовании взаимосвязей или «скрытых переменных» в данных и предоставлении альтернативных компактных систем координат для дальнейшего численного анализа, такого как регрессия , кластеризация и т. д. и распознавание образов . В частности, метод частичных наименьших квадратов активно использовался в хемометрических приложениях в течение многих лет, прежде чем он начал находить регулярное применение в других областях.
В течение 1980-х годов в этой области появилось три специализированных журнала: «Журнал хемометрики» , «Хемометрика и интеллектуальные лабораторные системы» и «Журнал химической информации и моделирования» . Эти журналы продолжают освещать как фундаментальные, так и методологические исследования в области хемометрики. В настоящее время большинство рутинных применений существующих хемометрических методов обычно публикуются в прикладных журналах (например, «Прикладная спектроскопия» , «Аналитическая химия» , «Analytica Chimica Acta» , «Talanta »). Несколько важных книг/монографий по хемометрике также были впервые опубликованы в 1980-х годах, в том числе первое издание Малиновского » «Факторного анализа в химии . [4] Шарафа, Иллмана и Ковальского Хемометрика . [5] Массарт и др. Хемометрика: учебник , [6] и «Многомерная калибровка» Мартенса и Наеса . [7]
Некоторые крупные области хемометрических приложений стали представлять новые области, такие как молекулярное моделирование и QSAR , хеминформатика , области «-омики» геномики , протеомика , метабономика и метаболомика , моделирование процессов и аналитические технологии процессов .
Отчет о ранней истории хемометрики был опубликован в виде серии интервью Гелади и Эсбенсена. [8] [9]
Техники [ править ]
Многомерная калибровка [ править ]
Многие химические проблемы и применения хемометрики требуют калибровки . Цель состоит в том, чтобы разработать модели, которые можно использовать для прогнозирования интересующих свойств на основе измеренных свойств химической системы, таких как давление, расход, температура, инфракрасное излучение , комбинационное рассеяние света , [10] Спектры ЯМР и масс-спектры . Примеры включают разработку многомерных моделей, связывающих 1) многоволновую спектральную реакцию с концентрацией аналита, 2) молекулярные дескрипторы с биологической активностью, 3) многомерные условия/состояния процесса с характеристиками конечного продукта. Для этого процесса требуется набор калибровочных или обучающих данных, который включает эталонные значения свойств, представляющих интерес для прогнозирования, и измеренные атрибуты, которые, как предполагается, соответствуют этим свойствам. Например, для случая 1 можно собрать данные из нескольких образцов, включая концентрации интересующего аналита для каждого образца (эталона) и соответствующий инфракрасный спектр этого образца. Методы многомерной калибровки, такие как регрессия частичных наименьших квадратов или регрессия главных компонент (и почти бесчисленное множество других методов), затем используются для построения математической модели, которая связывает многомерный отклик (спектр) с концентрацией интересующего аналита, и такие методы Модель можно использовать для эффективного прогнозирования концентрации новых образцов.
Методы многомерной калибровки часто подразделяют на классические или обратные методы. [7] [11] Принципиальное различие между этими подходами заключается в том, что при классической калибровке модели решаются так, что они оптимальны при описании измеренных аналитических откликов (например, спектров) и, следовательно, могут считаться оптимальными дескрипторами, тогда как при обратных методах модели решаются так, чтобы быть оптимальными. в прогнозировании интересующих свойств (например, концентраций, оптимальных предикторов). [12] Обратные методы обычно требуют меньших физических знаний о химической системе и, по крайней мере теоретически, обеспечивают превосходные прогнозы в смысле среднеквадратической ошибки. [13] [14] [15] и, следовательно, обратные подходы, как правило, чаще применяются в современной многомерной калибровке.
Основные преимущества использования методов многомерной калибровки заключаются в том, что быстрые, дешевые или неразрушающие аналитические измерения (например, оптическая спектроскопия) могут использоваться для оценки свойств образца, которые в противном случае потребовали бы трудоемких, дорогостоящих или разрушительных испытаний (например, ЖХ-МС ). Не менее важно и то, что многомерная калибровка позволяет проводить точный количественный анализ даже при сильном вмешательстве со стороны других аналитов. Избирательность аналитического метода обеспечивается как математической калибровкой, так и методами аналитических измерений. Например, спектры ближнего инфракрасного диапазона, которые являются чрезвычайно широкими и неселективными по сравнению с другими аналитическими методами (такими как инфракрасные или рамановские спектры), часто могут успешно использоваться в сочетании с тщательно разработанными методами многомерной калибровки для прогнозирования концентраций аналитов в очень сложные матрицы.
Классификация, распознавание образов, кластеризация [ править ]
Методы контролируемой многомерной классификации тесно связаны с методами многомерной калибровки, поскольку калибровочный или обучающий набор используется для разработки математической модели, способной классифицировать будущие образцы. Методы, используемые в хемометрике, аналогичны тем, которые используются в других областях: многомерный дискриминантный анализ, логистическая регрессия, нейронные сети, деревья регрессии/классификации. Использование методов понижения ранга в сочетании с этими традиционными методами классификации является обычным в хемометрике, например, дискриминантный анализ главных компонентов или частичные оценки методом наименьших квадратов .
Семейство методов, называемое моделированием классов или одноклассовыми классификаторами , позволяет создавать модели для отдельного интересующего класса. [16] Такие методы особенно полезны в случае контроля качества и проверки подлинности продукции.
Классификация без учителя (также называемая кластерным анализом ) также часто используется для обнаружения закономерностей в сложных наборах данных, и опять же, многие из основных методов, используемых в хемометрике, являются общими для других областей, таких как машинное обучение и статистическое обучение.
Разрешение многомерной кривой [ править ]
Говоря языком хемометрии, разрешение многомерных кривых направлено на деконструкцию наборов данных с ограниченной или отсутствующей справочной информацией и системными знаниями. Некоторые из самых ранних работ по этим методам были выполнены Лоутоном и Сильвестром в начале 1970-х годов. [17] [18] Эти подходы также называются самомоделирующим анализом смеси, слепым разделением источника/сигнала и спектральным несмешиванием. Например, из набора данных, включающего спектры флуоресценции серии образцов, каждый из которых содержит несколько флуорофоров, можно использовать методы разрешения многомерных кривых для извлечения спектров флуоресценции отдельных флуорофоров, а также их относительных концентраций в каждом из образцов, по существу не смешивая общий спектр флуоресценции на вклады отдельных компонентов. Проблема обычно плохо определена из-за вращательной неоднозначности (многие возможные решения могут эквивалентно представлять измеренные данные), поэтому обычным является применение дополнительных ограничений, таких как неотрицательность, унимодальность или известные взаимосвязи между отдельными компонентами (например, кинетические ограничения или ограничения массового баланса). [19] [20]
Другие методы [ править ]
Планирование экспериментов остается основной областью исследований в хемометрике, и несколько монографий специально посвящены планированию экспериментов в химических приложениях. [21] [22] Рациональные принципы планирования экспериментов получили широкое распространение в сообществе хемометриков, хотя многие сложные эксперименты носят чисто наблюдательный характер, и контроль над свойствами и взаимосвязями образцов и свойствами образцов практически невозможен.
Обработка сигналов также является важнейшим компонентом практически всех хемометрических приложений, особенно использования предварительной обработки сигналов для подготовки данных перед калибровкой или классификацией. Методы, обычно используемые в хемометрике, часто тесно связаны с методами, используемыми в смежных областях. [23] Предварительная обработка сигнала может повлиять на способ интерпретации результатов окончательной обработки данных. [24]
Характеристика производительности и показатели качества. Как и большинство областей физических наук, хемометрика ориентирована на количественные показатели, поэтому значительное внимание уделяется характеристикам производительности, выбору модели, проверке и подтверждению, а также показателям качества . Производительность количественных моделей обычно определяется среднеквадратичной ошибкой при прогнозировании интересующего атрибута, а также эффективностью классификаторов в виде пар истинно-положительный уровень/ложно-положительный уровень (или полной кривой ROC). Недавний отчет Оливьери и др. предоставляет всесторонний обзор показателей качества и оценки неопределенности при многомерной калибровке, включая многомерные определения селективности, чувствительности, SNR и оценки интервала прогнозирования. [25] Выбор хемометрической модели обычно включает использование таких инструментов, как повторная выборка (включая начальную загрузку, перестановку, перекрестную проверку).
Многомерное статистическое управление процессами (MSPC) , моделирование и оптимизация составляют значительную часть исторического развития хемометрии. [26] [27] [28] Спектроскопия успешно используется для онлайн-мониторинга производственных процессов в течение 30–40 лет, и эти технологические данные хорошо поддаются хемометрическому моделированию. В частности, с точки зрения MSPC, многоходовое моделирование периодических и непрерывных процессов становится все более распространенным в промышленности и остается активной областью исследований в области хемометрики и химического машиностроения. Процесс аналитической химии, как ее первоначально называли, [29] или новый термин «процессно-аналитическая технология» продолжает в значительной степени опираться на хемометрические методы и MSPC.
Многоходовые методы широко используются в хемометрических приложениях. [30] [31] Это расширения более высокого порядка более широко используемых методов. Например, в то время как анализ таблицы (матрицы или массива данных второго порядка) является рутинным в нескольких областях, многоходовые методы применяются к наборам данных, которые включают 3-й, 4-й или более высокие порядки. Данные этого типа очень распространены в химии, например, система жидкостной хроматографии/масс-спектрометрии (ЖХ-МС) генерирует большую матрицу данных (время элюирования в зависимости от m/z) для каждого анализируемого образца. Таким образом, данные из нескольких выборок составляют куб данных . Моделирование пакетного процесса включает в себя наборы данных, в которых есть время, переменные процесса и номер партии. Многопутевые математические методы, применяемые для решения подобных задач, включают PARAFAC , трилинейную декомпозицию, а также многопутевые PLS и PCA.
Ссылки [ править ]
- ^ Как рассказывается в Уолд, С. (1995). «Хемометрика: что мы под этим подразумеваем и чего мы от нее хотим?». Хемометрика и интеллектуальные лабораторные системы . 30 (1): 109–115. дои : 10.1016/0169-7439(95)00042-9 .
- ^ Ковальски, Брюс Р. (1975). «Хемометрика: взгляды и предложения». Дж. Хим. Инф. Вычислить. Наука . 15 (4): 201–203. дои : 10.1021/ci60004a002 .
- ^ Тригг, Дж.; Уолд, С. (2003). «O2-PLS, двухблочный (X – Y) метод регрессии скрытых переменных (LVR) со встроенным фильтром OSC» . Журнал хемометрики . 17 : 53–64. дои : 10.1002/cem.775 . S2CID 123071521 .
- ^ Малиновский, ER; Хоури, генеральный директор (1980). Факторный анализ в химии . Нью-Йорк: Уайли. ISBN 978-0471058816 . (другие издания последовали в 1989, 1991 и 2002 годах).
- ^ Шараф, Массачусетс; Иллман, Д.Л.; Ковальски, Б.Р., ред. (1986). Хемометрика . Нью-Йорк: Уайли. ISBN 978-0471831068 .
- ^ Массарт, ДЛ; Вандегинсте, фоновая музыка; Деминг, С.М.; Мишотт, Ю.; Кауфман, Л. (1988). Хемометрика: учебник . Амстердам: Эльзевир. ISBN 978-0444426604 .
- ^ Jump up to: Перейти обратно: а б Мартенс, Х.; Наес, Т. (1989). Многомерная калибровка . Нью-Йорк: Уайли. ISBN 978-0471909798 .
- ^ Гелади, П.; Эсбенсен, К. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 1». Дж. Хемометрика . 4 (5): 337–354. дои : 10.1002/cem.1180040503 . S2CID 120490459 .
- ^ Эсбенсен, К.; Гелади, П. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 2». Дж. Хемометрика . 4 (6): 389–412. дои : 10.1002/cem.1180040604 . S2CID 221546473 .
- ^ Бартон, Бастиан; Томсон, Джеймс; Лосано Диз, Энрике; Портела, Ракель (сентябрь 2022 г.). «Хемометрика для гармонизации рамановской спектроскопии» . Прикладная спектроскопия . 76 (9): 1021–1041. Бибкод : 2022ApSpe..76.1021B . дои : 10.1177/00037028221094070 . ISSN 0003-7028 . ПМИД 35622984 . S2CID 249129065 .
- ^ Франке, Дж. (2002). «Обратные методы наименьших квадратов и классические методы наименьших квадратов для количественной колебательной спектроскопии». В Чалмерсе, Джон М. (ред.). Справочник по колебательной спектроскопии . Нью-Йорк: Уайли. дои : 10.1002/0470027320.s4603 . ISBN 978-0471988472 .
- ^ Браун, компакт-диск (2004). «Разногласия между теорией чистого аналитического сигнала и практической многомерной калибровкой». Аналитическая химия . 76 (15): 4364–4373. дои : 10.1021/ac049953w . ПМИД 15283574 .
- ^ Кручков, Р.Г. (1969). «Классические и обратные регрессионные методы калибровки при экстраполяции». Технометрика . 11 (3): 11–15. дои : 10.1080/00401706.1969.10490714 .
- ^ Хантер, WG (1984). «Статистика и химия и проблема линейной калибровки». Ковальский, Б.Р. (ред.). Хемометрика: математика и статистика в химии . Бостон: Ридель. ISBN 978-9027718464 .
- ^ Теллингхейзен, Дж. (2000). «Обратная и классическая калибровка для небольших наборов данных». Фрезениус Дж. Анал. Хим . 368 (6): 585–588. дои : 10.1007/s002160000556 . ПМИД 11228707 . S2CID 21166415 .
- ^ Оливери, Паоло (2017). «Классовое моделирование в пищевой аналитической химии: вопросы разработки, отбора проб, оптимизации и проверки - учебное пособие». Аналитика Химика Акта . 982 : 9–19. Бибкод : 2017AcAC..982....9O . дои : 10.1016/j.aca.2017.05.013 . hdl : 11567/881059 . ПМИД 28734370 . S2CID 10119515 .
- ^ Лоутон, Вашингтон; Сильвестр, Э.А. (1971). «Разрешение кривой самомоделирования». Технометрика . 13 (3): 617–633. дои : 10.1080/00401706.1971.10488823 .
- ^ Сильвестр, Э.А.; Лоутон, Вашингтон; Маджио, MS (1974). «Разрешение кривой с использованием постулируемой химической реакции». Технометрика . 16 (3): 353–368. дои : 10.1080/00401706.1974.10489204 .
- ^ де Хуан, А.; Таулер, Р. (2003). «Хемометрика, применяемая для раскрытия многокомпонентных процессов и смесей. Возвращаясь к последним тенденциям в многомерном разрешении». Аналитика Химика Акта . 500 (1–2): 195–210. Бибкод : 2003AcAC..500..195D . дои : 10.1016/S0003-2670(03)00724-4 .
- ^ де Хуан, А.; Таулер, Р. (2006). «Разрешение многомерной кривой (MCR) с 2000 года: прогресс в концепциях и приложениях». Критические обзоры по аналитической химии . 36 (3–4): 163–176. дои : 10.1080/10408340600970005 . S2CID 95309963 .
- ^ Деминг, С.Н.; Морган, СЛ (1987). Экспериментальный дизайн: хемометрический подход . Эльзевир. ISBN 978-0444427342 .
- ^ Брунс, RE; Скарминио, Исландия; де Баррос Нето, Б. (2006). Статистический расчет – хемометрика . Амстердам: Эльзевир. ISBN 978-0444521811 .
- ^ Вентцелл, PD; Браун, компакт-диск (2000). «Обработка сигналов в аналитической химии». В Мейерсе, Р.А. (ред.). Энциклопедия аналитической химии . Уайли. стр. 9764–9800.
- ^ Оливери, Паоло; Малегори, Кристина; Симонетти, Ремо; Казале, Моника (2019). «Влияние предварительной обработки сигналов на окончательную интерпретацию аналитических результатов - Учебное пособие». Аналитика Химика Акта . 1058 : 9–17. Бибкод : 2019AcAC.1058....9O . дои : 10.1016/j.aca.2018.10.055 . ПМИД 30851858 . S2CID 73727614 .
- ^ Оливьери, AC; Фабер, Нью-Мексико; Ферре, Дж.; Бок, Р.; Каливас, Дж. Х.; Марк, Х. (2006). «Руководство по калибровке в аналитической химии. Часть 3. Оценка неопределенности и показатели качества многомерной калибровки» . Чистая и прикладная химия . 78 (3): 633–650. дои : 10.1351/pac200678030633 . S2CID 50546210 .
- ^ Иллман, Д.Л.; Каллис, Дж. Б.; Ковальский, БР (1986). «Процессная аналитическая химия: новая парадигма для химиков-аналитиков». Американская лаборатория . 18 :8–10.
- ^ МакГрегор, Дж. Ф.; Курти, Т. (1995). «Статистическое управление многомерными процессами». Практика управления инженерной деятельностью . 3 (3): 403–414. дои : 10.1016/0967-0661(95)00014-L .
- ^ Мартин, Е.Б.; Моррис, Эй Джей (1996). «Обзор многомерного статистического управления процессами при непрерывном и периодическом контроле производительности процессов». Труды Института измерений и контроля . 18 (1): 51–60. Бибкод : 1996TIMC...18...51M . дои : 10.1177/014233129601800107 . S2CID 120516715 .
- ^ Хиршфельд, Т.; Каллис, Дж. Б.; Ковальский, БР (1984). «Химическое зондирование в технологическом анализе». Наука . 226 (4672): 312–318. Бибкод : 1984Sci...226..312H . дои : 10.1126/science.226.4672.312 . ПМИД 17749872 . S2CID 38093353 .
- ^ Смилде, АК; Бро, Р.; Гелади, П. (2004). Многофакторный анализ с приложениями в химических науках . Уайли.
- ^ Бро, Р.; Уоркман, Джей-Джей; Мобли, PR; Ковальский, БР (1997). «Обзор хемометрики применительно к спектроскопии: 1985–95, Часть 3 — Многофакторный анализ». Обзоры прикладной спектроскопии . 32 (3): 237–261. Бибкод : 1997АпСРв..32..237Б . дои : 10.1080/05704929708003315 .
Дальнейшее чтение [ править ]
- Бибе, КР; Пелл, Р.Дж.; Сишольц, МБ (1998). Хемометрика: Практическое руководство . Уайли.
- Бреретон, Р.Г. (2007). Прикладная хемометрика для ученых . Уайли.
- Браун, SD; Таулер, Р.; Вальчак Б., ред. (2009). Комплексная хемометрика: химический и биохимический анализ данных . Комплект из 4 томов. Эльзевир.
- Гемперлайн, П.Дж. , изд. (2006). Практическое руководство по хемометрике (2-е изд.). ЦРК Пресс.
- Крамер, Р. (1998). Хемометрические методы количественного анализа . ЦРК Пресс.
- Медер, М.; Нойхольд, Ю.-М. (2007). Практический анализ данных по химии . Эльзевир.
- Марк, Х.; Уоркман, Дж. (2007). Хемометрика в спектроскопии . Академическое издательство-Эльзевир.
- Мартенс, Х.; Наес, Т. (1989). Многомерная калибровка . Уайли.
- Массарт, ДЛ; Вандегинсте, фоновая музыка; Деминг, С.М.; Мишотт, Ю.; Кауфман, Л. (1988). Хемометрика: Учебник . Эльзевир.
- Отто, М. (2007). Хемометрика: статистика и компьютерные приложения в аналитической химии (2-е изд.). Вайли-ВЧ.
- Вандегинсте, фоновая музыка; Массарт, ДЛ; Байденс, LMC; Де Йонг, С.; Леви, Пи Джей; Смейерс-Вербеке, Дж. (1998). Справочник по хемометрике и квалиметрике: часть A и часть B. Эльзевир.
Внешние ссылки [ править ]
- Введение в хемометрику (архив веб-сайта)
- ИЮПАК по хемометрике Глоссарий
- Домашняя страница Chemometrics, Швеция. Архивировано 20 января 2016 г. в Wayback Machine.
- Домашняя страница хемометрики (отправная точка)
- Хемометрический анализ для спектроскопии
- Общий ресурс по передовым хемометрическим методам и последним разработкам. Архивировано 22 сентября 2017 г. на Wayback Machine.