Прогноз структуры белка de novo - Википедия - De novo protein structure prediction

В вычислительная биология, de novo предсказание структуры белка относится к алгоритмическому процессу, с помощью которого белок третичная структура предсказывается из его аминокислоты первичная последовательность. Сама проблема десятилетиями занимала ведущих ученых, но до сих пор остается нерешенной. В соответствии с Наука, эта проблема остается одной из 125 нерешенных проблем современной науки.^[1] В настоящее время некоторые из наиболее успешных методов имеют разумную вероятность предсказания складок небольших однодоменных белков в пределах 1,5 ангстрем по всей структуре.^[2]

De novo методы, как правило, требуют огромных вычислительных ресурсов и, таким образом, выполнялись только для относительно небольших белков. Моделирование структуры белка de novo отличается от моделирования на основе шаблонов (TBM) тем, что не используется решенный гомолог интересующего белка, что делает попытки предсказать структуру белка по аминокислотной последовательности чрезвычайно трудными. Прогнозирование структуры белка de novo для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, такие как мощные суперкомпьютеры (такие как Blue Gene или MDGRAPE-3) или проекты распределенных вычислений (например, Складной @ дома, Rosetta @ home, то Проект сворачивания протеома человека, или же Питательный рис для всего мира ). Хотя вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) для таких областей, как медицина и дизайн лекарств, позволяют de novo структурное предсказание - активная область исследований.

Фон

В настоящее время разрыв между известными последовательностями белков и подтвержденными структурами белков огромен. В начале 2008 года только около 1% последовательностей, перечисленных в базе данных UniProtKB, соответствовали структурам в банке данных белков (PDB), оставляя разрыв между последовательностью и структурой примерно в пять миллионов.^[3] Экспериментальные методы определения третичной структуры столкнулись с серьезными препятствиями в их способности определять структуры для конкретных белков. Например, тогда как Рентгеновская кристаллография был успешным в кристаллизации приблизительно 80 000 цитозольных белков, он был гораздо менее успешным в кристаллизации белков мембран - приблизительно 280.^[4] В свете экспериментальных ограничений, разработка эффективных компьютерных программ для устранения разрыва между известной последовательностью и структурой считается единственно возможным вариантом.^[4]

De novo Методы предсказания структуры белка пытаются предсказать третичные структуры из последовательностей на основе общих принципов, которые регулируют сворачивание белка энергетические и / или статистические тенденции конформационных характеристик, которые приобретают нативные структуры, без использования явных шаблоны. Исследования в области предсказания структуры de novo были в основном сосредоточены в трех областях: альтернативные представления белков с низким разрешением, точные энергетические функции и эффективные методы отбора проб.

Общая парадигма для de novo прогнозирование включает выборку конформационное пространство, руководствуясь оценочными функциями и другими зависящими от последовательности смещениями, так что генерируется большой набор структур-кандидатов («ложных»). Затем из этих приманок выбираются нативные конформации с использованием функций оценки, а также конформной кластеризации. Уточнение с высоким разрешением иногда используется в качестве заключительного шага для точной настройки структур, похожих на нативные. Существует два основных класса функций оценки. Физические функции основаны на математических моделях, описывающих аспекты известной физики молекулярного взаимодействия. Формируются основанные на знаниях функции со статистическими моделями, фиксирующими аспекты свойств конформаций нативных белков.^[5]

Последовательность аминокислот определяет третичную структуру белка

Было представлено несколько доказательств в пользу того, что последовательность первичного белка содержит всю информацию, необходимую для общей трехмерной структуры белка, что делает возможной идею предсказания белка de novo. Во-первых, белки с разными функциями обычно имеют разные аминокислотные последовательности. Во-вторых, несколько различных заболеваний человека, таких как мышечная дистрофия Дюшенна, могут быть связаны с потерей функции белка в результате изменения только одной аминокислоты в первичной последовательности. В-третьих, белки со схожими функциями у многих разных видов часто имеют сходные аминокислотные последовательности. Убиквитин, например, представляет собой белок, участвующий в регуляции деградации других белков; его аминокислотная последовательность почти идентична у видов, поскольку они разделены Drosophila melanogaster и Homo sapiens. В-четвертых, с помощью мысленного эксперимента можно сделать вывод, что сворачивание белка не должно быть полностью случайным процессом и что информация, необходимая для сворачивания, должна быть закодирована внутри первичной структуры. Например, если мы предположим, что каждый из 100 аминокислотных остатков в небольшом полипептиде может принимать в среднем 10 различных конформаций, что дает 10 ^ 100 различных конформаций для полипептида. Если одно возможное подтверждение будет проверяться каждые 10 ^ -13 секунд, то на выборку всех возможных конформаций уйдет около 10 ^ 77 лет. Тем не менее, белки всегда правильно складываются в организме в короткие сроки, а это означает, что этот процесс не может быть случайным и, следовательно, потенциально может быть смоделирован.

Одно из самых убедительных доказательств предположения о том, что вся соответствующая информация, необходимая для кодирования третичной структуры белка, находится в первичной последовательности, было продемонстрировано в 1950-х гг. Кристиан Анфинсен. В классическом эксперименте он показал, что рибонуклеаза А может быть полностью денатурирована путем погружения в раствор мочевины (для разрушения стабилизирующих гидрофобных связей) в присутствии восстанавливающего агента (для расщепления стабилизирующих дисульфидных связей). После удаления белка из этой среды денатурированный и лишенный функций белок рибонуклеазы спонтанно откатился и восстановил функцию, демонстрируя, что третичная структура белка кодируется в первичной аминокислотной последовательности. Если бы белок реформировался случайным образом, могло бы образоваться более сотни различных комбинаций четырех дисульфидных связей. Однако в большинстве случаев белки требуют наличия молекулярных шаперонов внутри клетки для правильной укладки. Общая форма белка может быть закодирована в его аминокислотной структуре, но его сворачивание может зависеть от шаперонов, способствующих сворачиванию.^[6]

От начального до высшего
Первичная структура артемина человека (Изоформа 1 [UniParc])
Третичная структура артемина человека (PDB: 2GYR), визуализированная с использованием PyMOL (Delano Scientific Freeware)

Требования к успешному моделированию De Novo

Предикторы конформации de novo обычно функционируют, создавая кандидатные конформации (ложные цели), а затем выбирая среди них на основании их термодинамической стабильности и энергетического состояния. Наиболее успешные предсказатели будут иметь следующие три общих фактора:

1) Точная функция энергии, которая соответствует наиболее термодинамически стабильному состоянию нативной структуре белка.

2) Эффективный метод поиска, способный быстро идентифицировать состояния с низкой энергией посредством конформационного поиска.

3) Возможность выбора нативных моделей из коллекции ложных структур. ^[3]

Программы de novo будут искать в трехмерном пространстве и в процессе производить конформации белков-кандидатов. По мере того, как белок приближается к своей правильно свернутой, нативное состояние, энтропия и свободная энергия будут уменьшаться. Используя эту информацию, предикторы de novo могут различать ложные цели. В частности, программы de novo будут выбирать возможные подтверждения с более низкими свободными энергиями, которые с большей вероятностью будут правильными, чем структуры с более высокими свободными энергиями.^[2]^[6]^[7] Как заявил Дэвид А. Бейкер Что касается того, как работает его предиктор de novo Rosetta, «во время сворачивания каждый локальный сегмент цепи мигает между различными подмножествами локальных конформаций… сворачивание в нативную структуру происходит, когда конформации, принятые локальными сегментами, и их относительная ориентация позволяют… низкоэнергетические свойства нативных белковых структур. В алгоритме Розетты… программа затем ищет комбинацию этих локальных конформаций, которая имеет наименьшую общую энергию ».^[8]

Однако некоторые de novo методы работают, сначала перебирая все конформационное пространство с использованием упрощенного представления структуры белка, а затем выбирая те, которые, скорее всего, будут нативными. Примером этого подхода является подход, основанный на представлении белковых складок с использованием тетраэдрических решеток и построении всех моделей атомов на основе всех возможных конформаций, полученных с использованием тетраэдрического представления. Этот подход был успешно использован в CASP3 для предсказания белковой складки, топология которой ранее не наблюдалась командой Майкла Левитта.^[9]

Разрабатывая программу QUARK, Сюй и Чжан показали, что ab initio структура некоторых белков может быть успешно сконструирована с помощью силового поля, основанного на знаниях.^[10]^[11]

Правильно свернутые белковые конформации (нативные структуры) имеют более низкую свободную энергию, чем частично свернутые или первичные структуры. Компьютеры ищут эти конформации, потому что они указывают на правильное сворачивание.

Стратегии прогнозирования белков

Если белок известной третичной структуры разделяет по крайней мере 30% своей последовательности с потенциальным гомологом неопределенной структуры, сравнительные методы, которые перекрывают предполагаемую неизвестную структуру с известной, могут быть использованы для предсказания вероятной структуры неизвестного. Однако ниже этого порога для определения возможной структуры исходной модели используются три других класса стратегий: ab initio предсказание белка, распознавание свертки и многопоточность.

Методы Ab Initio: В методах ab initio первоначальная попытка выяснить вторичные структуры (альфа-спираль, бета-лист, бета-поворот и т. Д.) Из первичной структуры осуществляется с использованием физико-химических параметров и алгоритмов нейронной сети. С этого момента алгоритмы предсказывают третичное сворачивание. Одним из недостатков этой стратегии является то, что она еще не способна включать положения и ориентацию боковых цепей аминокислот.
Складное предсказание: В стратегиях распознавания складок сначала делается прогноз вторичной структуры, а затем сравнивается либо с библиотекой известных белковых складок, таких как CATH или SCOP, либо с тем, что известно как «периодическая таблица» возможных форм вторичной структуры. Затем вероятным совпадениям присваивается оценка достоверности.
Резьба: В стратегиях многопоточности техника распознавания складок еще более расширена. В этом процессе используются эмпирически основанные энергетические функции для взаимодействия пар остатков, чтобы разместить неизвестный белок на предполагаемом остове как наилучший вариант, при необходимости восполняя пробелы. Затем акцентируются лучшие взаимодействия, чтобы отличить потенциальных ловушек и предсказать наиболее вероятную конформацию.

Цель как стратегии сворачивания, так и стратегии многопоточности состоит в том, чтобы установить, похожа ли укладка в неизвестном белке на домен в известном, хранящемся в базе данных, такой как банк данных белков (PDB). Это контрастирует с методами de novo (ab initio), в которых структура определяется с использованием подхода, основанного на физических принципах, вместо сравнения складок в белке со структурами в базе данных.^[12]

Ограничения методов прогнозирования De novo

Основным ограничением методов предсказания белка de novo является невероятное количество компьютерного времени, необходимого для успешного определения нативной конформации белка. Распределенные методы, такие как Rosetta @ home, пытались исправить это, нанимая людей, которые затем добровольно занимались простоями домашнего компьютера для обработки данных. Однако даже эти методы сталкиваются с проблемами. Например, распределенный метод был использован группой исследователей из Вашингтонского университета и Медицинского института Говарда Хьюза для предсказания третичной структуры белка T0283 по его аминокислотной последовательности. В слепом тесте, сравнивающем точность этого распределенного метода с экспериментально подтвержденной структурой, депонированной в базе данных белков (PDB), предсказатель показал отличное согласие с депонированной структурой. Однако время и количество компьютеров, необходимых для этого подвига, были огромными - почти два года и примерно 70 000 домашних компьютеров соответственно.^[13]

Один из методов, предлагаемых для преодоления таких ограничений, включает использование марковских моделей (см. Цепь Маркова Монте-Карло ). Одна из возможностей состоит в том, что такие модели могут быть построены для помощи в вычислении свободной энергии и предсказании структуры белка, возможно, путем уточнения компьютерного моделирования.^[14] Другой способ обойти ограничения вычислительной мощности - использовать крупнозернистое моделирование. Крупнозернистые модели белков позволяют de novo предсказывать структуру небольших белков или больших фрагментов белка за короткое время вычислений.^[15]

Пример распределенных вычислений (Rosetta) в прогнозировании трехмерной структуры белка по его аминокислотной последовательности. Предсказанная структура (пурпурный) белка накладывается на экспериментально определенную кристаллическую структуру (синий) этого белка. Соглашение между ними очень хорошее.

CASP

«Прогресс для всех вариантов вычислительных методов прогнозирования структуры белка оценивается каждые два года в рамках проекта« Критическая оценка прогнозирования структуры белка »(CASP ) эксперименты. В экспериментах CASP исследовательским группам предлагается применить свои методы прогнозирования к аминокислотным последовательностям, для которых нативная структура неизвестна, но будет определена и вскоре будет опубликована. Несмотря на то, что количество аминокислотных последовательностей, предоставленных экспериментами CASP, невелико, эти соревнования являются хорошей мерой для оценки методов и прогресса в этой области, возможно, беспристрастным образом ».^[16]

Примечания

Самудрала, Р., Ся, Й, Хуанг, Э.С., Левитт, М. Ab initio прогнозирование структуры белков с использованием комбинированного иерархического подхода. (1999). Proteins Suppl 3: 194-198.
Bradley, P .; Malmstrom, L .; Qian, B .; Schonbrun, J .; Chivian, D .; Kim, D.E .; Meiler, J .; Misura, K. M .; Бейкер, Д. (2005). «Бесплатное моделирование с Rosetta в CASP6». Белки. 61 (Дополнение 7): 128–34. Дои:10.1002 / prot.20729. PMID 16187354. S2CID 36366681.
Bonneau; Бейкер, Д. (2001). «Прогнозирование структуры белка Ab Initio: прогресс и перспективы». Анну. Rev. Biophys. Biomol. Struct. 30: 173–89. Дои:10.1146 / annurev.biophys.30.1.173. PMID 11340057.
Дж. Сколник, Ю. Чжан и А. Колински. Ab Initio моделирование. Структурная геномика и высокопроизводительная структурная биология. М. Сундсром, М. Норин и А. Эдвардс, ред. 2006: 137-162.
Дж. Ли, С Ву, И Чжан. Предсказание структуры белков ab initio. От структуры белка к функции с помощью биоинформатики, глава 1, под редакцией Д. Дж. Ригдена (Springer-London, 2009), стр. 1-26.

Смотрите также

внешняя ссылка

CASP
Складной @ Home
Проект HPF
Сложите его
UniProtKB
Банк данных белков (PDB)
Система экспертного анализа белков - ссылки на инструменты прогнозирования белка

[Science-1] "От редакции: еще многое нужно знать". Наука. 309 (5731): 78–102. 2005. Дои:10.1126 / science.309.5731.78b. PMID 15994524.

[Dill-2] а ^б Дилл, Кен А.; и другие. (2007). «Проблема сворачивания белка: когда она будет решена?». Текущее мнение в структурной биологии. 17 (3): 342–346. Дои:10.1016 / j.sbi.2007.06.001. PMID 17572080.

[Rigden-3] а ^б Ригден, Дэниел Дж. От структуры белка к функции с помощью биоинформатики. Springer Science. 2009 г. ISBN 978-1-4020-9057-8.

[Yonath-4] а ^б Йонат, Ада. Рентгеновская кристаллография в основе наук о жизни. Текущее мнение в структурной биологии. Том 21, выпуск 5, октябрь 2011 г., страницы 622–626.

[samudrala_1998a-5] Самудрала, Р. Moult, J (1998). "Всеатомная зависимая от расстояния дискриминирующая функция условной вероятности для предсказания структуры белка". Журнал молекулярной биологии. 275 (5): 893–914. CiteSeerX 10.1.1.70.4101. Дои:10.1006 / jmbi.1997.1479. PMID 9480776.

[Lehninger-6] а ^б Нельсон, Дэвид Л. и Кокс, Майкл. Lehninger Принципы биохимии 5-е издание. М. В. Х. Фриман; 15 июня 2008 г. ISBN 1429224169.

[Baker-7] «Лаборатория Бейкера». Архивировано из оригинал 13 ноября 2012 г.

[SD-8] "Статья новостей Rosetta".

[samudrala_1999b-9] Самудрала, Р. Ся, Y; Хуанг, ES; Левитт, М. (1999). "Ab initio прогнозирование структуры белков с использованием комбинированного иерархического подхода ». Белки: структура, функции и генетика. S3: 194–198. Дои:10.1002 / (SICI) 1097-0134 (1999) 37: 3+ <194 :: AID-PROT24> 3.0.CO; 2-F.

[pmid22411565-10] Сюй Д, Чжан И (июль 2012 г.). «Сборка структуры белка Ab initio с использованием фрагментов непрерывной структуры и оптимизированного силового поля, основанного на знаниях». Белки. 80 (7): 1715–35. Дои:10.1002 / prot.24065. ЧВК 3370074. PMID 22411565.

[pmid22069036-11] Сюй Д., Чжан Дж., Рой А., Чжан Ю. (август 2011 г.). «Автоматическое моделирование структуры белка в CASP9 с помощью конвейера I-TASSER в сочетании с ab initio фолдингом на основе QUARK и уточнением структуры на основе FG-MD». Белки. 79 Дополнение 10: 147–60. Дои:10.1002 / prot.23111. ЧВК 3228277. PMID 22069036.

[Gibson-12] Гибсон, Грег и Муза, Спенсер В. Учебник по геномной науке, 3-е издание. Sinauer Associates, Inc., 2009 г. ISBN 978-0-87893-236-8.

[Qian-13] Qian et al. Предсказание структуры с высоким разрешением и проблема кристаллографической фазы. (2007). Природа. Том 450.

[Guha-14] Джаячандран, Гуха и др. (2006). Использование массового параллельного моделирования и марковских моделей для изучения сворачивания белков: изучение динамики головного убора ворсинок. Опубликовано в Интернете.

[15] Кмесик, Себастьян; Гронт, Доминик; Колинский, Михал; Ветеска, Лукаш; Давид, Александра Эльжбета; Колинский, Анджей (22.06.2016). «Крупнозернистые модели белков и их применение». Химические обзоры. 116 (14): 7898–936. Дои:10.1021 / acs.chemrev.6b00163. ISSN 0009-2665. PMID 27333362.

[CA-16] C.A. Floudas et al. Достижения в предсказании структуры белков и дизайне белков de novo: обзор. Химическая инженерия 61 (2006) 966 - 988.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]