Псевдоаминокислотный состав - Pseudo amino acid composition

Псевдоаминокислотный состав, или же PseAAC, был первоначально представлен Куо-Чен Чоу в 2001 году представлять белок образцы для улучшения прогноз субклеточной локализации белка и мембранный белок предсказание типа.[1] Как и метод ванильного аминокислотного состава (AAC), он характеризует белок в основном с помощью матрицы частот аминокислот, которая помогает справляться с белками без значительной последовательной гомологии с другими белками. По сравнению с AAC в матрицу также включена дополнительная информация для представления некоторых локальных характеристик, таких как корреляция между остатками на определенном расстоянии.[2]При работе со случаями PseAAC Теорема инвариантности Чжоу часто использовался.

Фон

Предсказать субклеточная локализация белков и других атрибутов, основанных на их последовательности, для представления образцов белков обычно используются два типа моделей: (1) последовательная модель и (2) непоследовательная модель или дискретная модель.

Наиболее типичным последовательным представлением образца белка является его полное аминокислота (AA) последовательность, которая может содержать наиболее полную информацию. Это очевидное преимущество последовательной модели. Для получения желаемых результатов для прогнозирования обычно используются инструменты на основе поиска по сходству последовательностей.

Учитывая последовательность белка п с аминокислотные остатки, т.е.

где R1 представляет собой 1-й остаток белка п, Р2 2-й остаток и так далее. Это представление белка в последовательной модели.

Однако такой подход не работает, когда запрашиваемый белок не имеет значительной гомологии с известным белком (белками). Таким образом, были предложены различные дискретные модели, которые не полагаются на порядок следования. Простейшая дискретная модель использует аминокислотный состав (AAC) для представления образцов белка. Согласно модели AAC, белок п из Уравнение 1 также может быть выражено

куда нормализованные частоты встречаемости 20 природных аминокислот в п, и Т оператор транспонирования. AAC белка легко получается с помощью первичная структура белка известен как данный в Уравнение 1; это также возможно путем гидролиза без знания точной последовательности, и на самом деле такая стадия часто необходимое условие для секвенирования белков.[3]

Благодаря своей простоте модель аминокислотного состава (AAC) широко использовалась во многих более ранних статистических методах прогнозирования свойств белка. Однако вся информация о порядке следования теряется. Это его главный недостаток.

Концепция

Чтобы избежать полной потери информации о порядке последовательности, концепция PseAAC (pseты делаешь амино аСид cкомпозиция).[1] В отличие от обычной аминокислотной композиции (AAC), которая содержит 20 компонентов, каждый из которых отражает частоту встречаемости одной из 20 природных аминокислот в белке, PseAAC содержит набор из более чем 20 дискретных факторов, где первые 20 представляют собой компоненты его обычного аминокислота состав, в то время как дополнительные факторы включают некоторую информацию о порядке последовательности через различные псевдокомпоненты.

Дополнительные факторы представляют собой серию факторов корреляции с разным рангом вдоль белковой цепи, но они также могут быть любыми комбинациями других факторов при условии, что они могут так или иначе отражать некоторые виды эффектов последовательности-порядка. Следовательно, суть PseAAC заключается в том, что с одной стороны он охватывает состав АК, но с другой стороны, он содержит информацию, выходящую за рамки состава АК, и, следовательно, может лучше отражать особенности последовательности белка через дискретную модель.

Между тем, были также разработаны различные режимы для формулирования вектора PseAAC, как это кратко описано в обзорной статье 2009 года.[2]

Алгоритм

Рисунок 1. Схематический рисунок, показывающий (а) 1-й уровень, (б) 2-й уровень и (в) режим корреляции порядков последовательностей 3-го уровня вдоль последовательности белка, где R1 представляет собой аминокислотный остаток в положении 1 последовательности, R2 в позиции 2 и так далее (ср. Уравнение 1), а коэффициенты связи даны Уравнение 6. Панель (а) отражает режим корреляции между всеми наиболее смежными остатками, панель (b) - между всеми вторыми наиболее смежными остатками, а панель (с) - между всеми третьими наиболее смежными остатками.

Согласно модели PseAAC, белок п из Уравнение 1 можно сформулировать как

где () компоненты задаются

куда - весовой коэффициент, а в коэффициент корреляции уровня, который отражает корреляцию порядка последовательности между всеми -й наиболее смежных остатков по формуле

с

куда это -я функция аминокислоты , и общее количество рассматриваемых функций. Например, в оригинальной статье Чжоу,[1] , и представляют собой соответственно значение гидрофобности, значение гидрофильности и массу боковой цепи аминокислоты. ; пока , и соответствующие значения для аминокислоты . Следовательно, общее количество рассматриваемых функций равно . Это видно из Уравнение 3 что первые 20 компонентов, т.е. связаны с обычным белковым составом АК, а остальные компоненты коэффициенты корреляции, которые отражают 1-й уровень, 2-й уровень,… и шаблоны корреляции порядка последовательности -го уровня (Рисунок 1). Именно благодаря этим дополнительным факторы, в которые включены некоторые важные эффекты порядка следования.

в Уравнение 3 является целочисленным параметром, который выбирает другое целое число для приведет к созданию композиции PseAA другого размера.[4]

С помощью Уравнение 6 это лишь один из многих режимов для получения коэффициентов корреляции в PseAAC или его компонентах. Остальные, такие как режим физико-химического расстояния[5] и режим амфифильного рисунка,[6] также может использоваться для получения различных типов PseAAC, как описано в обзорной статье 2009 года.[2] В 2011 году формулировка PseAAC (Уравнение 3) был расширен до формы общего PseAAC, как указано:[7]

где нижний индекс является целым числом, и его значение и компоненты будет зависеть от того, как извлечь желаемую информацию из аминокислотной последовательности п в Уравнение 1.

Общий PseAAC может использоваться для отражения любых желаемых функций в соответствии с целями исследования, включая такие основные функции, как функциональные возможности. домен, последовательный эволюция, и генная онтология для повышения качества прогноза субклеточной локализации белков.[8][9] а также многие другие их важные атрибуты.

Рекомендации

  1. ^ а б c Chou KC (май 2001 г.). «Прогнозирование клеточных атрибутов белков с использованием псевдоаминокислотного состава». Белки. 43 (3): 246–55. Дои:10.1002 / prot.1035. PMID  11288174.
  2. ^ а б c Чжоу К.С. (2009). «Псевдоаминокислотный состав и его применение в биоинформатике, протеомике и системной биологии». Современная протеомика. 6 (4): 262–274. Дои:10.2174/157016409789973707.
  3. ^ Михаил А. Альтерман; Питер Ханзикер (2 декабря 2011 г.). Аминокислотный анализ: методы и протоколы. Humana Press. ISBN  978-1-61779-444-5.
  4. ^ Чоу KC, Шен HB (ноябрь 2007 г.). «Недавний прогресс в предсказании субклеточного местоположения белка». Анальный. Биохим. 370 (1): 1–16. Дои:10.1016 / j.ab.2007.07.006. PMID  17698024.
  5. ^ Chou KC (ноябрь 2000 г.). «Предсказание субклеточного местоположения белка путем включения эффекта квазипоследовательности». Biochem. Биофиз. Res. Сообщество. 278 (2): 477–83. Дои:10.1006 / bbrc.2000.3815. PMID  11097861.
  6. ^ Chou KC (январь 2005 г.). «Использование амфифильного псевдоаминокислотного состава для прогнозирования классов подсемейства ферментов». Биоинформатика. 21 (1): 10–9. Дои:10.1093 / биоинформатика / bth466. PMID  15308540.
  7. ^ Chou KC (март 2011 г.). «Некоторые замечания по предсказанию атрибутов белков и псевдоаминокислотному составу». Журнал теоретической биологии. 273 (1): 236–47. Дои:10.1016 / j.jtbi.2010.12.024. ЧВК  7125570. PMID  21168420.
  8. ^ Чжоу KC, Шен HB (2008). «Cell-PLoc: пакет веб-серверов для прогнозирования субклеточной локализации белков в различных организмах». Нат Проток. 3 (2): 153–62. Дои:10.1038 / nprot.2007.494. PMID  18274516. Архивировано из оригинал на 2007-08-27. Получено 2008-03-24.
  9. ^ Шен ХБ, Чжоу К.С. (февраль 2008 г.). «PseAAC: гибкий веб-сервер для создания различных видов псевдоаминокислотного состава белков». Анальный. Биохим. 373 (2): 386–8. Дои:10.1016 / j.ab.2007.10.012. PMID  17976365.

внешняя ссылка