Область применимости - Applicability domain

В область применимости (AD) QSAR Модель - это физико-химическое, структурное или биологическое пространство, знания или информация, на основе которых был разработан обучающий набор модели и для которого он применим для прогнозирования новых соединений.

Цель AD - установить, выполняются ли предположения модели и для каких химических веществ модель может быть надежно применима. В общем, это так для интерполяция а не для экстраполяция. До сих пор не существует единого общепринятого алгоритма определения AD: подробный обзор можно найти в Отчете и рекомендациях ECVAM Workshop 52.[1] Существует достаточно системный подход к определению областей интерполяции.[2] Процесс включает в себя удаление выбросов и метод распределения плотности вероятности с использованием выборки, взвешенной по ядру. Другой широко используемый подход для структурной AD регрессионных моделей QSAR основан на рычаге, рассчитанном из диагональных значений матрицы шляпы моделирующих молекулярных дескрипторов.[3][4][5] Недавнее тщательное сравнительное исследование нескольких алгоритмов AD показало, что стандартное отклонение прогнозов модели является наиболее надежным подходом.[6]Чтобы исследовать АД обучающего набора химических веществ, можно непосредственно проанализировать свойства многомерный дескрипторное пространство обучающих соединений или, более косвенно, через расстояние метрики (или сходства). При использовании метрик расстояния следует соблюдать осторожность, чтобы использовать ортогональное и значимое векторное пространство. Это может быть достигнуто различными способами выбора функций и последовательного анализ основных компонентов.

Примечания

  1. ^ Нецева Т., Ворс А, Альденберг Т., Бениньи Р., Кронин М., Граматика П., Яворска Дж., Кан С., Клопман Г., Марчант С., Мятт Г., Николова-Желязкова Н., Патлевич Г., Перкинс Р., Робертс Д., Шульц Т., Стэнтон Д., Ван де Сандт Дж., Тонг В., Вейт Дж., Янг К. Текущее состояние методов определения области применимости (количественных) взаимосвязей структура – ​​активность. Альтернативная лаборатория Anim 2005, 33: 1-19
  2. ^ Яворска Дж., Николова-Елязкова Н., Альденберг Т.: Оценка области применимости QSAR путем проекции пространства дескрипторов обучающего множества: обзор. Альтернативная лаборатория Anim 2005, 33 (5): 445-459
  3. ^ Аткинсон AC, Графики, преобразования и регрессия, Clarendon Press, Oxford, 1985, стр.282
  4. ^ Тропша А., Граматика П., Гомбар В.К., Важность серьезности: проверка абсолютно необходима для успешного применения и интерпретации моделей QSPR. QSAR Comb.Sci. 2003, 22: 69-77
  5. ^ Gramatica P, Принципы валидации моделей QSAR: внутренняя и внешняя QSAR Comb.Sci. 2007, 26 (5): 694-701.
  6. ^ Тетько И.В., Сушко И., Пандей А.К., Чжу Х., Тропша А., Папа Е., Оберг Т., Тодешини Р., Фурчес Д., Варнек А. Критическая оценка моделей экологической токсичности QSAR против Tetrahymena pyriformis: сосредоточение внимания на области применимости и переобучении по переменной выбор. Модель J Chem Inf. 2008 сентябрь; 48 (9): 1733-46.