Хемометрия - Chemometrics

Хемометрия это наука об извлечении информации из химических систем с помощью средств управления данными. Хемометрия по своей сути является междисциплинарной, в ней используются методы, часто используемые в основных дисциплинах анализа данных, таких как многомерная статистика, Прикладная математика, и Информатика, чтобы решить проблемы в химия, биохимия, лекарство, биология и химическая инженерия. Таким образом, он отражает другие междисциплинарные области, такие как психометрия и эконометрика.

Вступление

Хемометрика применяется для решения как описательных, так и прогнозных задач в экспериментальных естественных науках, особенно в химии. В описательных приложениях свойства химических систем моделируются с целью изучения основных взаимосвязей и структуры системы (то есть понимания и идентификации модели). В прогностических приложениях свойства химических систем моделируются с целью предсказания новых свойств или поведения, представляющих интерес. В обоих случаях наборы данных могут быть небольшими, но часто очень большими и очень сложными, включая от сотен до тысяч переменных и от сотен до тысяч случаев или наблюдений.

Хемометрические методы особенно широко используются в аналитическая химия и метаболомика, а разработка усовершенствованных хемометрических методов анализа также продолжает продвигать вперед современный уровень аналитического оборудования и методологии. Это дисциплина, ориентированная на приложения, и, таким образом, хотя стандартные хемометрические методологии очень широко используются в промышленности, академические группы занимаются постоянным развитием хемометрической теории, методов и разработки приложений.

Происхождение

Хотя можно утверждать, что даже самые ранние аналитические эксперименты в химии включали в себя форму хемометрии, общепризнано, что эта область возникла в 1970-х годах, когда компьютеры все чаще использовались для научных исследований. Термин «хемометрика» был придуман Сванте Волдом в заявке на грант 1971 г.[1] Вскоре после этого двумя пионерами в этой области, Сванте Волдом и Брюсом Ковальски, было создано Международное хемометрическое общество. Уолд был профессором органической химии в Университет Умео, Швеция, а Ковальски был профессором аналитической химии в Вашингтонском университете в Сиэтле.

Многие ранние приложения включали многомерную классификацию, за ней последовали многочисленные приложения для количественного прогнозирования, а к концу 1970-х - началу 1980-х годов проводился широкий спектр химических анализов, управляемых данными и компьютером.

Многомерный анализ был критическим аспектом даже в самых ранних приложениях хемометрики. Данные инфракрасной и УФ / видимой спектроскопии часто исчисляются тысячами измерений на образец. Масс-спектрометрия, ядерный магнитный резонанс, атомная эмиссия / абсорбция и хроматографические эксперименты также по своей природе весьма многомерны. Было обнаружено, что структура этих данных способствует использованию таких методов, как анализ основных компонентов (PCA) и частичные наименьшие квадраты (PLS). Это в первую очередь потому, что, хотя наборы данных могут быть очень многовариантными, присутствует сильная и часто линейная структура низкого ранга. PCA и PLS с течением времени показали себя очень эффективными при эмпирическом моделировании более химически интересной низкоранговой структуры, использовании взаимосвязей или «скрытых переменных» в данных и предоставлении альтернативных компактных систем координат для дальнейшего численного анализа, например регресс, кластеризация, и распознавание образов. В частности, метод частичных наименьших квадратов активно использовался в хемометрических приложениях в течение многих лет, прежде чем он начал находить регулярное применение в других областях.

В течение 1980-х годов в этой области появилось три специализированных журнала: Журнал хемометрики, Хемометрия и интеллектуальные лабораторные системы, и Журнал химической информации и моделирования. Эти журналы продолжают освещать как фундаментальные, так и методологические исследования в области хемометрии. В настоящее время большинство рутинных применений существующих хемометрических методов обычно публикуются в специализированных журналах (например, Прикладная спектроскопия, Аналитическая химия, Анальный. Чим. Acta., Таланта). Несколько важных книг / монографий по хемометрике также были впервые опубликованы в 1980-х годах, включая первое издание книги Малиновского. Факторный анализ в химии,[2] Шараф, Иллман и Ковальски Хемометрия,[3] Massart et al. Хемометрика: учебник,[4] и Многовариантная калибровка пользователя Martens and Naes.[5]

Некоторые большие области хемометрических приложений стали представлять новые области, такие как молекулярное моделирование и QSAR, хеминформатика, поля "-омики" геномика, протеомика, метабономика и метаболомика, моделирование процессов и технологический процесс.

Отчет о ранней истории хемометрики был опубликован в виде серии интервью Гелади и Эсбенсен.[6][7]

Методы

Многовариантная калибровка

Многие химические проблемы и приложения хемометрики связаны с калибровка. Цель состоит в том, чтобы разработать модели, которые можно использовать для прогнозирования интересующих свойств на основе измеренных свойств химической системы, таких как давление, поток, температура и т. Д. инфракрасный, Раман, ЯМР спектры и масс-спектры. Примеры включают разработку многомерных моделей, связывающих 1) многоволновую спектральную реакцию с концентрацией аналита, 2) молекулярные дескрипторы с биологической активностью, 3) многомерные условия / состояния процесса с характеристиками конечного продукта. Для этого процесса требуется набор данных калибровки или обучения, который включает эталонные значения для свойств, представляющих интерес для прогнозирования, и измеренные атрибуты, которые, как предполагается, соответствуют этим свойствам. Например, для случая 1) можно собрать данные из ряда образцов, включая концентрации интересующего аналита для каждого образца (эталона) и соответствующий инфракрасный спектр этого образца. Методы многомерной калибровки, такие как регрессия частичных наименьших квадратов или регрессия главных компонентов (и почти бесчисленное множество других методов), затем используются для построения математической модели, которая связывает многомерный отклик (спектр) с концентрацией исследуемого аналита, и такой Модель может быть использована для эффективного прогнозирования концентраций новых образцов.

Методы многомерной калибровки часто классифицируются как классические или обратные.[5][8] Принципиальное различие между этими подходами состоит в том, что при классической калибровке модели решаются таким образом, что они являются оптимальными для описания измеренных аналитических откликов (например, спектров) и поэтому могут считаться оптимальными дескрипторами, тогда как в обратных методах модели решаются как оптимальные. в прогнозировании интересующих свойств (например, концентраций, оптимальных предикторов).[9] Обратные методы обычно требуют меньших физических знаний о химической системе и, по крайней мере, теоретически обеспечивают более точные предсказания в смысле среднеквадратичной ошибки.[10][11][12] и, следовательно, обратные подходы, как правило, чаще применяются в современной многомерной калибровке.

Основные преимущества использования методов многомерной калибровки заключаются в том, что быстрые, дешевые или неразрушающие аналитические измерения (например, оптическая спектроскопия) могут использоваться для оценки свойств образца, которые в противном случае потребовали бы трудоемких, дорогих или разрушающих испытаний (например, ЖХ-МС ). Не менее важно и то, что многомерная калибровка позволяет проводить точный количественный анализ при сильном влиянии других аналитов. Селективность аналитического метода обеспечивается как математической калибровкой, так и методами аналитических измерений. Например, ближние инфракрасные спектры, которые являются чрезвычайно широкими и неселективными по сравнению с другими аналитическими методами (такими как инфракрасные или рамановские спектры), часто могут успешно использоваться в сочетании с тщательно разработанными многомерными методами калибровки для прогнозирования концентраций аналитов в очень больших количествах. комплексные матрицы.

Классификация, распознавание образов, кластеризация

Методы контролируемой многомерной классификации тесно связаны с методами многомерной калибровки, поскольку калибровочный или обучающий набор используется для разработки математической модели, способной классифицировать будущие образцы. Методы, используемые в хемометрии, аналогичны тем, которые используются в других областях - многомерный дискриминантный анализ, логистическая регрессия, нейронные сети, деревья регрессии / классификации. Использование методов снижения ранга в сочетании с этими традиционными методами классификации является обычным делом в хемометрике, например, дискриминантный анализ на основные компоненты или же частичные наименьшие квадраты оценки.

Семейство методов, называемое моделированием классов или одноклассники, умеют строить модели для отдельного интересующего класса. [13] Такие методы особенно полезны в случае контроля качества и проверки подлинности продуктов.

Неконтролируемая классификация (также называемая кластерный анализ ) также обычно используется для обнаружения закономерностей в сложных наборах данных, и снова многие из основных методов, используемых в хемометрике, являются общими для других областей, таких как машинное обучение и статистическое обучение.

Разрешение многомерной кривой

Выражаясь хемометрическим языком, разрешение многомерной кривой направлено на деконструкцию наборов данных с ограниченной или отсутствующей справочной информацией и системными знаниями. Некоторые из самых ранних работ по этим методам были выполнены Лотоном и Сильвестром в начале 1970-х годов.[14][15] Эти подходы также называются самомодельным анализом смеси, слепой источник / разделение сигналов, и спектральное разделение. Например, из набора данных, включающего спектры флуоресценции из серии образцов, каждый из которых содержит несколько флуорофоров, можно использовать методы разрешения многомерной кривой для извлечения спектров флуоресценции отдельных флуорофоров вместе с их относительными концентрациями в каждом из образцов, по существу, без перемешивания. общий спектр флуоресценции в вклады отдельных компонентов. Проблема обычно плохо определяется из-за вращательной неоднозначности (многие возможные решения могут эквивалентно представлять измеренные данные), поэтому часто применяются дополнительные ограничения, такие как неотрицательность, унимодальность или известные взаимосвязи между отдельными компонентами (например, кинетические или массово-балансовые ограничения).[16][17]

Другие техники

Экспериментальная конструкция остается основной областью исследований в хемометрике, и несколько монографий специально посвящены экспериментальному дизайну в химических приложениях.[18][19] Надежные принципы экспериментального дизайна были широко приняты в хемометрическом сообществе, хотя многие сложные эксперименты являются чисто наблюдательными, и контроль свойств и взаимосвязей образцов и свойств образцов практически невозможен.

Обработка сигналов также является критическим компонентом почти всех хемометрических приложений, особенно использования предварительной обработки сигналов для кондиционирования данных перед калибровкой или классификацией. Методы, обычно используемые в хемометрике, часто тесно связаны с методами, используемыми в смежных областях.[20] Предварительная обработка сигнала может повлиять на способ интерпретации результатов окончательной обработки данных. [21]

Характеристики производительности и показатели качества Как и большинство областей физических наук, хемометрия ориентирована на количественные показатели, поэтому значительный упор делается на характеристику характеристик, выбор модели, верификацию и валидацию, а также показатели заслуг. Эффективность количественных моделей обычно определяется среднеквадратичная ошибка в прогнозировании интересующего атрибута и производительности классификаторов в виде пар истинно-положительная частота / ложноположительная частота (или полной кривой ROC). Недавний отчет Olivieri et al. обеспечивает всесторонний обзор показателей качества и оценки неопределенности при многомерной калибровке, включая многомерные определения селективности, чувствительности, SNR и оценки интервала прогнозирования.[22] Выбор хемометрической модели обычно включает использование таких инструментов, как повторная выборка (включая бутстрап, перестановку, перекрестную проверку).

Многомерный Статистическое управление процессами (MSPC), моделирование и оптимизация составляют значительную часть исторического развития хемометрии.[23][24][25] Спектроскопия успешно используется для онлайн-мониторинга производственных процессов в течение 30-40 лет, и эти данные процесса легко поддаются хемометрическому моделированию. В частности, с точки зрения MSPC, многостороннее моделирование периодических и непрерывных процессов становится все более распространенным в промышленности и остается активной областью исследований в области хемометрии и химической инженерии. Аналитическая химия процессов, как ее первоначально называли,[26] или более новый термин технологический процесс продолжает активно использовать хемометрические методы и MSPC.

Многосторонние методы широко используются в хемометрических приложениях.[27][28] Это расширения более высокого порядка более широко используемых методов. Например, в то время как анализ таблицы (матрицы или массива второго порядка) данных является рутинным в нескольких полях, многосторонние методы применяются к наборам данных, которые включают 3-й, 4-й или более высокие порядки. Данные этого типа очень распространены в химии, например, система жидкостной хроматографии / масс-спектрометрии (ЖХ-МС) генерирует большую матрицу данных (время элюирования в зависимости от m / z) для каждого анализируемого образца. Таким образом, данные из нескольких выборок содержат куб данных. Моделирование пакетного процесса включает наборы данных, в которых есть время, переменные процесса и номер партии. Многосторонние математические методы, применяемые к такого рода задачам, включают: ПАРАФАК, трилинейное разложение и многоходовые PLS и PCA.

Рекомендации

  1. ^ Как рассказывается в Уолд, С. (1995). «Хемометрия; что мы под этим подразумеваем и чего хотим от этого?». Хемометрия и интеллектуальные лабораторные системы. 30 (1): 109–115. Дои:10.1016/0169-7439(95)00042-9.
  2. ^ Малиновский, Э. Р .; Ховери, Д. Г. (1980). Факторный анализ в химии. Нью-Йорк: Вили. ISBN  978-0471058816. (другие издания последовали в 1989, 1991 и 2002 годах).
  3. ^ Sharaf, M. A .; Illman, D. L .; Ковальский, Б. Р., ред. (1986). Хемометрия. Нью-Йорк: Вили. ISBN  978-0471831068.
  4. ^ Massart, D. L .; Vandeginste, B.G.M .; Деминг, С. М .; Michotte, Y .; Кауфман, Л. (1988). Хемометрика: учебник. Амстердам: Эльзевир. ISBN  978-0444426604.
  5. ^ а б Martens, H .; Наес, Т. (1989). Многовариантная калибровка. Нью-Йорк: Вили. ISBN  978-0471909798.
  6. ^ Geladi, P .; Эсбенсен, К. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 1». J. Chemometrics. 4 (5): 337–354. Дои:10.1002 / cem.1180040503. S2CID  120490459.
  7. ^ Esbensen, K .; Гелади, П. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 2». J. Chemometrics. 4 (6): 389–412. Дои:10.1002 / cem.1180040604. S2CID  221546473.
  8. ^ Франке, Дж. (2002). «Методы обратных наименьших квадратов и классических наименьших квадратов для количественной колебательной спектроскопии». В Чалмерсе, Джон М. (ред.). Справочник по колебательной спектроскопии. Нью-Йорк: Вили. Дои:10.1002 / 0470027320.s4603. ISBN  978-0471988472.
  9. ^ Браун, К. Д. (2004). «Несоответствие между теорией сигнала Net Analyte и практической многомерной калибровкой». Аналитическая химия. 76 (15): 4364–4373. Дои:10.1021 / ac049953w. PMID  15283574.
  10. ^ Крутчков, Р. Г. (1969). «Классический и обратный регрессионные методы калибровки при экстраполяции». Технометрика. 11 (3): 11–15. Дои:10.1080/00401706.1969.10490714.
  11. ^ Хантер, В. Г. (1984). «Статистика и химия и задача линейной калибровки». В Ковальски, Б. Р. (ред.). Хемометрика: математика и статистика в химии. Бостон: Ридель. ISBN  978-9027718464.
  12. ^ Теллингхейсен, Дж. (2000). «Обратная и классическая калибровка для небольших наборов данных». Фрезениус J. Anal. Chem. 368 (6): 585–588. Дои:10.1007 / s002160000556. PMID  11228707. S2CID  21166415.
  13. ^ Оливери, Паоло (2017). «Класс-моделирование в пищевой аналитической химии: вопросы разработки, отбора проб, оптимизации и проверки - Учебное пособие». Analytica Chimica Acta. 982: 9–19. Дои:10.1016 / j.aca.2017.05.013. PMID  28734370.
  14. ^ Lawton, W. H .; Сильвестр, Э. А. (1971). «Разрешение кривой самомоделирования». Технометрика. 13 (3): 617–633. Дои:10.1080/00401706.1971.10488823.
  15. ^ Сильвестр, Э. А .; Lawton, W. H .; Маджио, М. С. (1974). «Разрешение кривой с помощью постулируемой химической реакции». Технометрика. 16 (3): 353–368. Дои:10.1080/00401706.1974.10489204.
  16. ^ де Хуан, А .; Таулер Р. (2003). «Хемометрика, применяемая для изучения многокомпонентных процессов и смесей. Пересмотр последних тенденций в многомерном разрешении». Analytica Chimica Acta. 500 (1–2): 195–210. Дои:10.1016 / S0003-2670 (03) 00724-4.
  17. ^ де Хуан, А .; Таулер, Р. (2006). «Разрешение многомерной кривой (MCR) с 2000 года: прогресс в концепциях и приложениях». Критические обзоры в аналитической химии. 36 (3–4): 163–176. Дои:10.1080/10408340600970005. S2CID  95309963.
  18. ^ Деминг, С. Н .; Морган, С. Л. (1987). Схема эксперимента: хемометрический подход. Эльзевир. ISBN  978-0444427342.
  19. ^ Bruns, R.E .; Scarminio, I. S .; де Баррос Нето, Б. (2006). Статистический дизайн - хемометрика. Амстердам: Эльзевир. ISBN  978-0444521811.
  20. ^ Wentzell, P.D .; Браун, К. Д. (2000). «Обработка сигналов в аналитической химии». В Мейерс, Р. А. (ред.). Энциклопедия аналитической химии. Вайли. С. 9764–9800.
  21. ^ Оливери, Паоло; Малегори, Кристина; Симонетти, Ремо; Казале, Моника (2019). «Влияние предварительной обработки сигналов на окончательную интерпретацию аналитических результатов - Учебное пособие». Analytica Chimica Acta. 1058: 9–17. Дои:10.1016 / j.aca.2018.10.055. PMID  30851858.
  22. ^ Olivieri, A.C .; Faber, N.M .; Ferre, J .; Boque, R .; Kalivas, J. H .; Марк, Х. (2006). «Руководство по калибровке в аналитической химии. Часть 3. Оценка неопределенности и добротность для многомерной калибровки». Чистая и прикладная химия. 78 (3): 633–650. Дои:10.1351 / pac200678030633. S2CID  50546210.
  23. ^ Illman, D. L .; Callis, J. B .; Ковальский, Б. Р. (1986). «Процессно-аналитическая химия: новая парадигма для химиков-аналитиков». Американская лаборатория. 18: 8–10.
  24. ^ MacGregor, J. F .; Курти, Т. (1995). «Статистический контроль многомерных процессов». Инженерная практика управления. 3 (3): 403–414. Дои:10.1016 / 0967-0661 (95) 00014-Л.
  25. ^ Martin, E.B .; Моррис, А. Дж. (1996). «Обзор многомерного статистического управления процессом при непрерывном и периодическом мониторинге производительности процесса». Труды Института Контроля и Измерения. 18 (1): 51–60. Дои:10.1177/014233129601800107. S2CID  120516715.
  26. ^ Hirschfeld, T .; Callis, J. B .; Ковальский, Б. Р. (1984). «Химическое зондирование в технологическом анализе». Наука. 226 (4672): 312–318. Bibcode:1984Наука ... 226..312H. Дои:10.1126 / science.226.4672.312. PMID  17749872. S2CID  38093353.
  27. ^ Смилде, А. К .; Bro, R .; Гелади, П. (2004). Многосторонний анализ с приложениями в химических науках. Вайли.
  28. ^ Bro, R .; Workman, J. J .; Mobley, P.R .; Ковальский, Б. Р. (1997). «Обзор хемометрии, применяемой к спектроскопии: 1985–95, Часть 3 - Многосторонний анализ». Обзоры прикладной спектроскопии. 32 (3): 237–261. Bibcode:1997АпСРв..32..237Б. Дои:10.1080/05704929708003315.

дальнейшее чтение

  • Beebe, K. R .; Pell, R.J .; Сишолц, М. Б. (1998). Хемометрия: практическое руководство. Вайли.
  • Бреретон, Р. Г. (2007). Прикладная хемометрия для ученых. Вайли.
  • Brown, S.D .; Tauler, R .; Вальчак Б., ред. (2009). Комплексная хемометрия: химический и биохимический анализ данных. Комплект 4 тома. Эльзевир.
  • Гемперлайн, П. Дж., Изд. (2006). Практическое руководство по хемометрике (2-е изд.). CRC Press.
  • Крамер, Р. (1998). Хемометрические методы количественного анализа. CRC Press.
  • Maeder, M .; Нойхольд, Ю.-М. (2007). Практический анализ данных в химии. Эльзевир.
  • Марк, H .; Уоркман, Дж. (2007). Хемометрика в спектроскопии. Academic Press-Elsevier.
  • Martens, H .; Наес, Т. (1989). Многовариантная калибровка. Вайли.
  • Massart, D. L .; Vandeginste, B.G.M .; Деминг, С. М .; Michotte, Y .; Кауфман, Л. (1988). Хемометрика: Учебник. Эльзевир.
  • Отто, М. (2007). Хемометрика: статистика и компьютерные приложения в аналитической химии (2-е изд.). Wiley-VCH.
  • Vandeginste, B.G.M .; Massart, D. L .; Buydens, L.MC .; Де Йонг, S .; Lewi, P.J .; Смейерс-Вербеке Дж. (1998). Справочник по хемометрии и квалиметрии: Часть A и Часть B. Эльзевир.

внешняя ссылка