Заправка (белковая последовательность) - Threading (protein sequence)

Протеиновая нить, также известный как распознавание складок, это метод моделирования белков, который используется для моделирования тех белки которые имеют такие же складывать как белки известной структуры, но не имеют гомологичный белки с известной структурой. моделирование гомологии метод предсказания структуры, поскольку он (протекание белков) используется для белков, не имеющих гомологичных белковые структуры депонировано в Банк данных белков (PDB), тогда как моделирование гомологии используется для тех белков, которые это делают. Работа с потоками основана на статистических данных о взаимосвязи между структурами, хранящимися в PDB, и последовательность белка, который нужно моделировать.

Прогнозирование выполняется путем "зарезки" (т. Е. Размещения, выравнивания) каждого аминокислота в целевой последовательности до позиции в структуре шаблона и оценки того, насколько хорошо цель соответствует шаблону. После выбора наиболее подходящего шаблона строится структурная модель последовательности на основе совмещения с выбранным шаблоном. Протеиновая нить основана на двух основных наблюдениях: количество различных складок в природе довольно мало (примерно 1300); и что 90% новых структур, представленных в PDB за последние три года, имеют структурные складки, аналогичные тем, которые уже есть в PDB.

Классификация структуры белка

В Структурная классификация белков (SCOP) база данных предоставляет подробное и всестороннее описание структурных и эволюционных отношений известной структуры. Белки классифицируются для отражения как структурного, так и эволюционного родства. В иерархии существует много уровней, но основные уровни семья, надсемейство и сложите, как описано ниже.

Семья (четкое эволюционное родство): белки, сгруппированные в семьи, явно связаны эволюционно. Как правило, это означает, что идентичность попарных остатков между белками составляет 30% и выше. Однако в некоторых случаях сходные функции и структуры обеспечивают окончательное свидетельство общего происхождения в отсутствие высокой идентичности последовательностей; например, многие глобины образуют семью, хотя некоторые члены имеют идентичность последовательностей только 15%.

Надсемейство (вероятное общее эволюционное происхождение): белки, которые имеют низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить, что общее эволюционное происхождение вероятно, объединяются в суперсемейства. Например, актин, то АТФаза домен белок теплового шока, и гексакиназа вместе образуют суперсемейство.

Складка (основное структурное сходство): белки определяются как имеющие общую складку, если они имеют одинаковые основные вторичные структуры в одинаковом расположении и с одинаковыми топологическими связями. Различные белки с одинаковой складкой часто имеют периферические элементы вторичной структуры и участки поворота, которые различаются по размеру и конформации. В некоторых случаях эти отличающиеся периферийные области могут составлять половину структуры. Белки, помещенные вместе в одну и ту же категорию складок, могут не иметь общего эволюционного происхождения: структурные сходства могут возникать только из-за физики и химии белков, благоприятствующих определенному расположению упаковки и топологии цепей.

Метод

Общая парадигма белковой нити состоит из следующих четырех шагов:

Создание базы данных шаблонов структур: выберите структуры белков из баз данных структур белков в качестве структурных шаблонов. Обычно это включает выбор белковых структур из таких баз данных, как PDB, ФССП, SCOP, или же CATH, после удаления белковых структур с высоким сходством последовательностей.

Разработка функции оценки: разработка хорошей функции оценки для измерения соответствия между целевыми последовательностями и шаблонами на основе знания известных взаимосвязей между структурами и последовательностями. Хорошая оценочная функция должна включать в себя потенциал мутации, потенциал соответствия окружающей среде, попарный потенциал, совместимость вторичных структур и штрафы за пробелы. Качество функции энергии тесно связано с точностью прогноза, особенно точностью совмещения.

Выравнивание потоков: выровняйте целевую последовательность с каждым из шаблонов структуры, оптимизируя разработанную функцию оценки. Этот шаг является одной из основных задач всех программ прогнозирования структуры на основе потоков, которые учитывают потенциал парного контакта; в противном случае это может выполнить алгоритм динамического программирования.

Прогнозирование резьбы: выберите наиболее вероятное статистически наиболее вероятное выравнивание резьбы в качестве прогноза заправки резьбы. Затем постройте структурную модель для мишени, разместив атомы основной цепи целевой последовательности в их выровненных позициях основной цепи выбранного структурного шаблона.

Сравнение с моделированием гомологии

Гомологическое моделирование и потоки белков являются методами на основе шаблонов, и между ними нет строгой границы с точки зрения методов прогнозирования. Но белковые структуры их мишеней различны. Моделирование гомологии предназначено для тех мишеней, которые имеют гомологичные белки с известной структурой (обычно / возможно, одного семейства), в то время как потоки белков предназначены для тех мишеней, у которых обнаружена только гомология на уровне свертки. Другими словами, моделирование гомологии предназначено для «более легких» целей, а распределение белков - для «более сложных» целей.

Моделирование гомологии рассматривает шаблон в выравнивании как последовательность, и только гомология последовательности используется для предсказания. Распределение белков обрабатывает шаблон в выравнивании как структуру, и информация о последовательности и структуре, извлеченная из выравнивания, используется для прогнозирования. Когда не обнаружено значительной гомологии, протеиновый поток может сделать прогноз на основе информации о структуре. Это также объясняет, почему во многих случаях распределение белков может быть более эффективным, чем моделирование гомологии.

На практике, когда идентичность последовательностей в выравнивании последовательностей низка (т.е. <25%), моделирование гомологии может не дать значимого прогноза. В этом случае, если для мишени обнаружена отдаленная гомология, распределение белков может дать хороший прогноз.

Подробнее о потоках

Методы распознавания складок можно условно разделить на два типа: 1, те, которые получают 1-D профиль для каждой структуры в библиотеке складок и выравнивают последовательность-мишень с этими профилями; и 2, те, которые учитывают полную трехмерную структуру белковой матрицы. Простым примером представления профиля было бы взять каждую аминокислоту в структуре и просто пометить ее в соответствии с тем, находится ли она в ядре белка или находится на поверхности. Более сложные профили могут учитывать местные вторичная структура (например, является ли аминокислота частью альфа спираль ) или даже эволюционной информации (насколько консервативна аминокислота). В трехмерном представлении структура моделируется как набор межатомных расстояний, то есть расстояния вычисляются между некоторыми или всеми парами атомов в структуре. Это гораздо более обширное и гибкое описание конструкции, но его гораздо сложнее использовать при вычислении выравнивания. Подход к распознаванию складок на основе профиля был впервые описан Боуи, Люти и Дэвид Айзенберг в 1991 г.[1] Период, термин заправка был впервые придуман Дэвид Джонс, Уильям Р. Тейлор и Джанет Торнтон в 1992 г.[2] и первоначально относились конкретно к использованию полного 3-D структурного атомарного представления белковой матрицы при распознавании складок. Сегодня термины нарезание нитей и распознавание складок часто (хотя и несколько неправильно) используются как синонимы.

Методы распознавания складок широко используются и эффективны, поскольку считается, что в природе существует строго ограниченное количество различных складок белка, в основном в результате эволюции, но также из-за ограничений, налагаемых базовой физикой и химией полипептидных цепей. Следовательно, существует большая вероятность (в настоящее время 70-80%), что белок, который имеет подобную укладку по сравнению с целевым белком, уже был изучен Рентгеновская кристаллография или же спектроскопия ядерного магнитного резонанса (ЯМР) и его можно найти в PDB. В настоящее время известно около 1300 различных складок белка, но каждый год все еще обнаруживаются новые складки, в значительной степени благодаря продолжающимся структурная геномика проекты.

Было предложено множество различных алгоритмов для нахождения правильного распределения последовательности в структуре, хотя многие используют динамическое программирование в какой-то форме. Для полной трехмерной резьбы проблема определения наилучшего совмещения очень сложна (это NP-жесткий проблема для некоторых моделей многопоточности).[нужна цитата ] Исследователи использовали многие комбинаторные методы оптимизации, такие как Условные случайные поля, имитация отжига, ветвь и переплет и линейное программирование, ища эвристических решений. Интересно сравнить методы многопоточности с методами, которые пытаются выровнять две белковые структуры (структурное выравнивание белков ), и многие из одних и тех же алгоритмов были применены к обеим задачам.

Программное обеспечение для потоковой передачи белков

  • HHpred это популярный потоковый сервер, который запускает HHsearch, широко используемое программное обеспечение для удаленного определения гомологии на основе попарного сравнения скрытые марковские модели.
  • RAPTOR (программное обеспечение) это программное обеспечение для потоковой передачи белков, основанное на целочисленном программировании. Он был заменен новой программой протеиновой нити. RaptorX / программное обеспечение для моделирования и анализа белков, который использует вероятностные графические модели и статистические выводы для потоковой передачи белков на основе как одного шаблона, так и нескольких шаблонов.[3][4][5][6] RaptorX значительно превосходит RAPTOR и особенно хорош для выравнивания белков с разреженным профилем последовательностей. Сервер RaptorX является общедоступным.
  • Phyre это популярный сервер потоковой передачи, объединяющий HHsearch с ab initio и моделирование с использованием нескольких шаблонов.
  • MUSTER - это стандартный алгоритм многопоточности, основанный на динамическом программировании и согласовании профиля последовательности с профилем. Он также объединяет несколько структурных ресурсов для помощи в выравнивании профиля последовательности.[7]
  • SPARKS X - это вероятностное сопоставление последовательностей и структур между предсказанными одномерными структурными свойствами запроса и соответствующими собственными свойствами шаблонов.[8]
  • BioShell - это поточный алгоритм, использующий оптимизированный алгоритм динамического программирования профилей в сочетании с предсказанной вторичной структурой.[9]

Смотрите также

Рекомендации

  1. ^ Боуи Дж. Ю, Люти Р., Айзенберг Д. (1991). «Метод идентификации белковых последовательностей, которые складываются в известную трехмерную структуру». Наука. 253 (5016): 164–170. Bibcode:1991Научный ... 253..164B. Дои:10.1126 / science.1853201. PMID  1853201.
  2. ^ Джонс Д. Т., Тейлор В. Р., Торнтон Дж. М. (1992). «Новый подход к распознаванию белковой складки». Природа. 358 (6381): 86–89. Bibcode:1992 Натур.358 ... 86J. Дои:10.1038 / 358086a0. PMID  1614539. S2CID  4266346.
  3. ^ Пэн, Цзянь; Дзинбо Сюй (2011). «RaptorX: использование структурной информации для выравнивания белков путем статистического вывода». Белки. 79 Дополнение 10: 161–171. Дои:10.1002 / prot.23175. ЧВК  3226909. PMID  21987485.
  4. ^ Пэн, Цзянь; Дзинбо Сюй (2010). «Низкая гомология протеиновой нити». Биоинформатика. 26 (12): i294 – i300. Дои:10.1093 / биоинформатика / btq192. ЧВК  2881377. PMID  20529920.
  5. ^ Пэн, Цзянь; Дзинбо Сюй (апрель 2011 г.). «Множественный шаблонный подход к потоковой передаче белков». Белки. 79 (6): 1930–1939. Дои:10.1002 / prot.23016. ЧВК  3092796. PMID  21465564.
  6. ^ Ма, Цзяньчжу; Шэн Ван; Дзинбо Сюй (июнь 2012 г.). «Модель условных нейронных полей для потоковой передачи белков». Биоинформатика. 28 (12): i59–66. Дои:10.1093 / биоинформатика / bts213. ЧВК  3371845. PMID  22689779.
  7. ^ Ву С, Чжан И (2008). «MUSTER: Улучшение выравнивания профиля последовательности белковой последовательности с использованием нескольких источников структурной информации». Белки. 72 (2): 547–56. Дои:10.1002 / prot.21945. ЧВК  2666101. PMID  18247410.
  8. ^ Ян И, Фараджи Э, Чжао Х, Чжоу И (2011). «Улучшение распознавания белковых складок и моделирования на основе шаблонов за счет использования вероятностного сопоставления между предсказанными одномерными структурными свойствами запроса и соответствующими собственными свойствами шаблонов». Биоинформатика. 27 (15): 2076–2082. Дои:10.1093 / биоинформатика / btr350. ЧВК  3137224. PMID  21666270.
  9. ^ Гронт Д., Блащик М., Войцеховски П., Колински А. (2012). «BioShell Threader: определение гомологии белков на основе профилей последовательностей и профилей вторичной структуры». Исследования нуклеиновых кислот. 40 (W1): W257 – W262. Дои:10.1093 / нар / гкс555. ЧВК  3394251. PMID  22693216.

дальнейшее чтение

  • Финкельштейн, А.В.; Рева, Б.А. (июнь 1991 г.). «Поиск наиболее устойчивых складок белковых цепей». Природа. 351 (6326): 497–9. Bibcode:1991Натура.351..497F. Дои:10.1038 / 351497a0. PMID  2046752. S2CID  4319142.
  • Латроп Р.Х. (1994). «Проблема потоковой передачи белков с предпочтениями взаимодействия аминокислотных последовательностей является NP-полной». Protein Eng. 7 (9): 1059–1068. CiteSeerX  10.1.1.367.9081. Дои:10.1093 / белок / 7.9.1059. PMID  7831276.
  • Джонс Д.Т., Хэдли С. (2000). «Методы многопоточности для предсказания структуры белков». В Хиггинс D, Тейлор WR (ред.). Биоинформатика: последовательность, структура и банки данных. Гейдельберг: Springer-Verlag. С. 1–13.
  • Сюй Дж, Ли М, Ким Д., Сюй Ю (2003). «RAPTOR: оптимальное распределение потоков с помощью линейного программирования, первый выпуск». J Bioinform Comput Biol. 1 (1): 95–117. CiteSeerX  10.1.1.5.4844. Дои:10.1142 / S0219720003000186. PMID  15290783.
  • Сюй Дж, Ли М, Лин Дж, Ким Д., Сюй Ю (2003). «Протеиновая многопоточность посредством линейного программирования». Пак Симп Биокомпьютер: 264–275. PMID  12603034.