AlphaFold - AlphaFold

AlphaFold является искусственный интеллект программа разработана Google DeepMind который выполняет предсказания структуры белка.[1] Программа разработана как глубокое обучение система, построенная для прогнозирования сложенный структуры белка до ширины атома.[2]

В ноябре 2020 года версия программы AlphaFold 2 приняла участие в 14-м биеннале. Критическая оценка методов прогнозирования структуры белка (CASP ) конкуренция,[3] в котором он достиг уровня точности, намного превышающего любой другой вычислительный метод.[2] Программа набрала более 90 баллов примерно для двух третей белков в CASP. глобальный тест на расстояние (GDT), тест, который измеряет степень, в которой структура, предсказанная вычислительной программой, похожа на структуру, определенную в лабораторном эксперименте, где 100 является точным совпадением, в пределах отсечки расстояния, используемой для вычисления GDT.[2][4]

Проблема сворачивания белка

три отдельные полипептидные цепи на разных уровнях сворачивания и кластер цепей
Аминокислотные цепи, известные как полипептиды сложите, чтобы сформировать белок.

Белки состоят из цепочек аминокислоты которые спонтанно сворачиваются в процессе, называемом сворачивание белка, для образования биологически важных родное государство трехмерные структуры. Последовательности ДНК содержат фундаментальную информацию о последовательностях этих аминокислот, но информация о фолдинге и структурах белка определяется физическими процессами, которые нельзя напрямую предсказать из последовательностей ДНК.[5] Ученые обращаются к таким экспериментальным методам, как Рентгеновская кристаллография, криоэлектронная микроскопия и ядерный магнитный резонанс, которые являются дорогостоящими и требуют много времени для определения структур-мишеней, в которые сворачиваются белки.[5] Текущие усилия позволили идентифицировать структуры только около 170 000 белков, в то время как существует более 200 миллионов известных белков во всех формах жизни.[4] Существует множество вычислительных методов предсказание структуры белка, но их точность не была близка к экспериментальным методам, что ограничивает их ценность.

Алгоритм

Хотя подробности алгоритмов AlphaFold 2020 публично не публиковались, ожидается, что некоторые из них будут объявлены в начале декабря 2020 года в CASP конференция. Известно, что DeepMind обучил программу более чем 170 000 белков из общедоступного хранилища последовательностей и структур белков. Программа использует форму сеть внимания, а глубокое обучение техника, которая фокусируется на AI Алгоритм решает части более крупной проблемы и собирает их вместе, чтобы получить общее решение.[2] Общее обучение проводилось на вычислительной мощности от 100 до 200 GPU.[2] Обучение системы на этом оборудовании заняло «несколько недель», после чего программе потребуется «несколько дней», чтобы сойтись для каждой структуры.[6]

AlphaFold 1 (2018) основан на работе, разработанной различными командами в 2010-х годах, которые изучали имеющиеся в настоящее время большие банки связанных последовательностей ДНК от многих разных организмов (в основном без известных трехмерных структур), чтобы попытаться найти изменения в различных появившихся остатках. коррелировать, даже если остатки не были последовательными в основной цепи. Такие корреляции предполагают, что остатки могут быть близки друг к другу физически, даже если они не близки в последовательности, что позволяет карта контактов быть оцененным. Основываясь на недавней работе, AlphaFold 1 расширил это, чтобы оценить распределение вероятностей всего за как закрыть остатки может быть - превращение карты контактов в карту вероятных расстояний; также с использованием более совершенных методов обучения, чем раньше, для разработки вывода. Объединение потенциала, основанного на этом распределении вероятностей, с рассчитанным локальным свободная энергия конфигурации, команда затем смогла использовать градиентный спуск к решению, которое лучше всего подходит для обоих.[7][8]

Технически Торриси и другие. резюмировал подход AlphaFold версии 1 следующим образом:[9]

Центральным элементом AlphaFold является предсказатель карты расстояний, реализованный как очень глубокий остаточные нейронные сети с 220 остаточными блоками, обрабатывающими представление размерности 64 × 64 × 128, что соответствует входным характеристикам, вычисленным из двух фрагментов из 64 аминокислот. Каждый остаточный блок состоит из трех слоев, включая расширенный сверточный слой 3 × 3 - блоки циклически расширяются до значений 1, 2, 4 и 8. Всего модель имеет 21 миллион параметров. В сети используется комбинация входов 1D и 2D, включая эволюционные профили из разных источников и особенностей совместной эволюции. Наряду с картой расстояний в виде очень мелкозернистой гистограммы расстояний AlphaFold предсказывает Углы Φ и Ψ для каждого остатка, которые используются для создания исходной предсказанной трехмерной структуры. Авторы AlphaFold пришли к выводу, что глубина модели, большой размер обрезки, большой обучающий набор из примерно 29000 белков, современные методы глубокого обучения и богатство информации из прогнозируемой гистограммы расстояний помогли AlphaFold достичь высокой точности прогнозирования карты контактов. .

Блочная конструкция AlphaFold 2. Два модуля трансформации, основанные на внимании, можно увидеть в центре дизайна. (Источник:[6])

По словам команды DeepMind, текущая версия программы (AlphaFold 2) значительно отличается от исходной версии, выигравшей CASP 13 в 2018 году.[10][11]

Команда определила, что ее предыдущий подход, сочетающий локальную физику с направляющим потенциалом, полученным из распознавания образов, имел тенденцию переоценивать взаимодействия между остатками, которые были рядом в последовательности, по сравнению с взаимодействиями между остатками, находящимися дальше друг от друга по цепи. В результате AlphaFold 1 предпочитала модели с чуть большей вторичная структура (альфа спирали и бета-листы ), что и было на самом деле (форма переоснащение ).[12]

AlphaFold 1 содержал ряд модулей, каждый из которых обучался отдельно, которые использовались для создания направляющего потенциала, который затем объединялся с физическим энергетическим потенциалом. AlphaFold 2 заменил все это системой подсетей, объединенных в единую дифференцируемую сквозную модель, полностью основанную на распознавании образов, которая была обучена интегрированным способом как единая интегрированная структура.[11][13] Локальная физика применяется только в качестве финального шага уточнения, который лишь незначительно корректирует прогнозируемую структуру.[12] Ключевой частью дизайна являются два модуля, которые, как считается, основаны на трансформатор дизайн, который производит математическое преобразование матрицы отношений между положениями остатков и положениями других остатков, а также между положениями остатков и различными последовательностями в выравнивание последовательностей идентифицированных аналогичных последовательностей ДНК соответственно.[13] Эти преобразования имеют эффект объединения релевантных данных и фильтрации нерелевантных данных для этих двух отношений контекстно-зависимым способом («механизм внимания»), который сам может быть изучен из обучающих данных. Их результат затем информирует окончательный модуль прогнозирования.[13] По мере итерации обученной системы они, как правило, сначала генерируют небольшие кластеры аминокислот, а затем способы ориентировать эти кластеры в общую структуру.[14]

Команда AlphaFold считает, что новейшая версия может быть доработана с возможностью дальнейшего повышения точности.[10]

Соревнования

Результаты, достигнутые для предсказания белка лучшими реконструкциями в соревнованиях CASP 2018 (маленькие кружки) и CASP 2020 (большие кружки), по сравнению с результатами, достигнутыми в предыдущие годы. (Источник:[15])
Малиновая линия тренда показывает, как несколько моделей, включая AlphaFold 1, достигли значительного скачка в 2018 году по сравнению с ранее достигнутой скоростью, особенно в отношении последовательностей белков, которые считаются наиболее трудными для прогнозирования.
(Качественные улучшения были сделаны в предыдущие годы, но только по мере того, как изменения приводят структуры в пределах 8 Å их экспериментальных позиций, что они начинают влиять на меру CASP GDS-TS).
Оранжевая линия тренда показывает, что к 2020 году серверы онлайн-прогнозирования смогли извлечь уроки и сопоставить эту производительность, в то время как лучшие другие группы (зеленая кривая) в среднем смогли внести в нее некоторые улучшения. Тем не менее, черная кривая тренда показывает, насколько AlphaFold 2 снова превзошла этот показатель в 2020 году по всем направлениям.
Детальный разброс точек данных указывает на степень согласованности или вариативности, достигнутую AlphaFold. Выбросы представляют собой несколько последовательностей, для которых не удалось сделать столь успешный прогноз.

CASP13

В декабре 2018 года AlphaFold от DeepMind занял первое место в общем рейтинге 13-го места. Критическая оценка методов прогнозирования структуры белка (КАСП).

Программа особенно успешно предсказывала наиболее точную структуру для целей, оцененных организаторами соревнований как наиболее сложные, в которых не существовало структуры шаблона были доступны из белков с частично подобной последовательностью. AlphaFold дал лучший прогноз для 25 из 43 белковых мишеней этого класса,[16][17][18] достижение среднего балла 58,9 по шкале CASP глобальный тест на расстояние (GDT) счет, опережая на 52,5 и 52,4 у двух следующих лучших команд,[19] которые также использовали глубокое обучение для оценки контактных расстояний.[20][21] В целом по всем целям программа получила 68,5 балла GDT.[22]

В январе 2020 года был выпущен программный код AlphaFold 1. Открытый исходный код на исходной платформе, GitHub.[23][5]

CASP14

В ноябре 2020 года улучшенная версия AlphaFold 2 выиграла CASP14.[6][24] В целом AlphaFold 2 сделал лучший прогноз для 88 из 97 целей.[25]

О предпочтении конкурса глобальный тест на расстояние (GDT) В качестве меры точности программа получила средний балл 92,4 (из 100), что означает, что более половины ее прогнозов получили оценку выше 92,4% из-за того, что их атомы находятся в более или менее нужном месте,[26][27] уровень точности сопоставим с экспериментальными методами, такими как Рентгеновская кристаллография.[10][28][22] В 2018 году AlphaFold 1 достигла такого уровня точности только в двух из всех своих прогнозов.[25] 88% прогнозов имели оценку GDT-TS более 80.[29]:слайд 3 По группе целей, отнесенных к наиболее сложной, AlphaFold 2 получил средний балл 87.

Измеряется среднеквадратичное отклонение (RMS-D) размещения атомов углерода в основной цепи белка, где, как правило, преобладают характеристики наиболее подходящих выбросов, 88% прогнозов AlphaFold 2 имели среднеквадратичное отклонение менее 4 Å.[25] 76% прогнозов были лучше 3 Å, а 46% имели среднеквадратичную точность лучше 2 Å.[25] В целом программа достигла среднего среднеквадратичного отклонения прогнозов в 2,1 Å.[25] Для сравнения длина облигации типичной углерод-углеродной связи составляет 1,5 Å.

Результаты AlphaFold 2 были настолько хорошими, что организаторы конференции обратились к четырем ведущим экспериментальным группам за структурами, которые они считали особенно сложными, и не смогли найти решения, которые соответствовали бы их данным.[29] Во всех четырех случаях прогнозы AlphaFold 2 были настолько точными, что группы смогли применить стандартные методы к ним и непосредственно получить полные кристаллографические решения.[29] К ним относятся белок клеточной мембраны, в частности, мембранный белок из видов Археи микроорганизм, над которым экспериментальная группа работала десять лет. Такие белки являются центральными для многих заболеваний человека и белковых структур, которые сложно предсказать даже с помощью таких экспериментальных методов, как Рентгеновская кристаллография.[4]

Ответы

AlphaFold 2 набирает более 90 баллов CASP с глобальный тест на расстояние (GDT) считается значительным достижением в вычислительная биология и решение «проблемы 50-летней давности».[4] Нобелевская премия победитель и структурный биолог Венки Рамакришнан назвал результат «ошеломляющим достижением в проблеме сворачивания белков».[4] Джон Моулт, вычислительный биолог, который начал соревнование в 1994 году с целью улучшения вычислительных усилий для предсказания структур белков, сказал: «Это большое дело. В некотором смысле проблема решена».[28]

Ожидается, что способность точно предсказывать белковые структуры на основе составляющей аминокислотной последовательности будет иметь широкий спектр преимуществ в области наук о жизни, включая ускорение открытия передовых лекарств и обеспечение лучшего понимания болезней.[28]

Приложения

SARS-CoV-2

AlphaFold был использован для предсказания структур белков SARS-CoV-2, возбудитель COVID-19. Структура этих белков ожидала экспериментального обнаружения в начале 2020 года.[30][28] Результаты были изучены учеными Институт Фрэнсиса Крика в Соединенном Королевстве перед выпуском в более широкое исследовательское сообщество. Команда также подтвердила точный прогноз на основе экспериментально определенного SARS-CoV-2. пиковый белок это было разделено в Банк данных белков, международная база данных с открытым доступом, прежде чем опубликовать вычисленные структуры недостаточно изученных белковых молекул.[31] Команда признала, что, хотя эти белковые структуры могут и не быть предметом текущих терапевтических исследований, они будут способствовать пониманию сообществом вируса SARS-CoV-2.[31] В частности, предсказание AlphaFold 2 структуры Orf3a белок был очень похож на структуру, определенную исследователями в Калифорнийский университет в Беркли с помощью криоэлектронная микроскопия. Считается, что этот специфический белок помогает вирусу вырваться из клетки-хозяина после его репликации. Также считается, что этот белок играет роль в запуске воспалительной реакции на инфекцию.[32]

Опубликованные работы

AlphaFold исследования

Производные исследования

  • Ян, Цзяньи; Анищенко, Иван; Парк, Ханбом; Пэн, Чжэнлин; Овчинников, Сергей; Бейкер, Дэвид (2019-11-18). «Улучшенное предсказание структуры белка с использованием предсказанных ориентаций между остатками». bioRxiv: 846279. Дои:10.1101/846279. S2CID  209563981.
  • Биллингс, Венди М .; Хеделиус, Брайс; Миллкам, Тодд; Вингейт, Дэвид; Корте, Деннис Делла (04.11.2019). "ProSPr: демократизированная реализация сети предсказания расстояния между белками Alphafold". bioRxiv: 830273. Дои:10.1101/830273. S2CID  209578310.

Рекомендации

  1. ^ «AlphaFold». Deepmind. Получено 30 ноября 2020.
  2. ^ а б c d е «ИИ DeepMind по сворачиванию белков решил грандиозную биологическую задачу 50-летней давности». Обзор технологий MIT. Получено 2020-11-30.
  3. ^ Шид, Сэм (30 ноября 2020 г.). «DeepMind решает« грандиозную задачу »50-летней давности с помощью ИИ сворачивания белка». CNBC. Получено 2020-11-30.
  4. ^ а б c d е ServiceNov. 30, Роберт Ф .; 2020; Утр, 10:30 (30.11.2020). "'Игра изменилась ». ИИ торжествует в решении белковых структур ». Наука | AAAS. Получено 2020-12-01.CS1 maint: числовые имена: список авторов (связь)
  5. ^ а б c «AlphaFold: использование ИИ для научных открытий». Deepmind. Получено 2020-11-30.
  6. ^ а б c «AlphaFold: решение грандиозной задачи в области биологии 50-летней давности». Deepmind. Получено 30 ноября 2020.
  7. ^ Мохаммед аль-Кураиши (Май 2019 г.), AlphaFold на CASP13, Биоинформатика, 35(22), 4862–4865 Дои:10.1093 / биоинформатика / btz422. Также Мохаммед аль-Кураиши (9 декабря 2018 г.), AlphaFold @ CASP13: «Что только что произошло?» (Сообщение блога).
    Мохаммед аль-Кураиши (15 января 2020 г.), Переломный момент для предсказания структуры белка, Природа 577, 627-628 Дои:10.1038 / d41586-019-03951-0
  8. ^ AlphaFold: машинное обучение для предсказания структуры белка, Сложите его, 31 января 2020
  9. ^ Торриси, Мирко и др. (22 января 2020 г.), Методы глубокого обучения в предсказании структуры белков. Журнал вычислительной и структурной биотехнологии т. 18 1301-1310. Дои:10.1016 / j.csbj.2019.12.011 (CC-BY-4.0)
  10. ^ а б c «DeepMind решает одну из самых сложных задач биологии». Экономист. 2020-11-30. ISSN  0013-0613. Получено 2020-11-30.
  11. ^ а б Джереми Кан, Уроки прорыва DeepMind в области искусственного интеллекта сворачивания белков., Удача, 1 декабря 2020
  12. ^ а б Джон Джампер и др. (Декабрь 2020 г.)
  13. ^ а б c См. Блок-схему
  14. ^ Роберт Ф. Сервис, «Игра изменилась». ИИ торжествует в решении белковых структур, Наука, 30 ноября 2020
  15. ^ Джон Молт (30 ноября 2020 г.), Вводная презентация CASP 14, слайд 19. См. также видеопоток CASP 14. день 1 часть 1, с 00:22:46
  16. ^ Образец, Ян (2 декабря 2018 г.). «DeepMind от Google предсказывает трехмерные формы белков». Хранитель. Получено 30 ноября 2020.
  17. ^ «AlphaFold: использование ИИ для научных открытий». Deepmind. Получено 30 ноября 2020.
  18. ^ Сингх, Арунима (2020). «3D-структуры с глубоким обучением». Методы природы. 17 (3): 249. Дои:10.1038 / s41592-020-0779-у. ISSN  1548-7105. PMID  32132733. S2CID  212403708.
  19. ^ Видеть Таблицы данных CASP 13 для 043 A7D, 322 Zhang и 089 MULTICOM
  20. ^ Вэй Чжэн и другие,Прогнозирование структуры белка на основе карты контактов с помощью глубокого обучения в CASP13, Белки: структура, функции и биоинформатика, 87(12) 1149-1164 Дои:10.1002 / prot.25792; и слайды
  21. ^ Джи Хоу и другие (2019), Моделирование третичной структуры белка на основе глубокого обучения и прогнозирования контактного расстояния в CASP13, Белки: структура, функции и биоинформатика, 87(12) 1165-1178 Дои:10.1002 / prot.25697
  22. ^ а б «Прорыв DeepMind помогает понять, как болезни проникают в клетки». Bloomberg.com. 2020-11-30. Получено 2020-11-30.
  23. ^ "глубокий разум / глубокий разум-исследование". GitHub. Получено 2020-11-30.
  24. ^ «ИИ DeepMind по сворачиванию белков решил грандиозную биологическую задачу 50-летней давности». Обзор технологий MIT. Получено 30 ноября 2020.
  25. ^ а б c d е Мохаммед аль-Кураиши, твиттер, 30 ноября 2020.
  26. ^ Для используемой меры GDT-TS каждый атом в прогнозе получает четверть балла, если он находится в пределах 8 Å экспериментальной позиции; пол-очка, если он находится в пределах 4 Å, три четверти точки, если он находится в пределах 2 Å, и целая точка, если он находится в пределах 1 Å.
  27. ^ Чтобы получить балл GDT-TS 92,5, математически не менее 70% структуры должны иметь точность в пределах 1 Å, а не менее 85% должны иметь точность в пределах 2 Å.
  28. ^ а б c d Каллавей, Юэн (30 ноября 2020 г.). "'Это изменит все »: ИИ DeepMind делает гигантский скачок в решении белковых структур». Природа. Дои:10.1038 / d41586-020-03348-4.
  29. ^ а б c Андрей Крыштафович (30 ноября 2020 г.), Экспериментаторы: полезны ли модели? Презентация CASP 14. См. Также видеопоток CASP 14 день 1 часть 1, с 0:34:30
  30. ^ «ИИ может помочь ученым найти вакцину против Covid-19». Проводной. ISSN  1059-1028. Получено 2020-12-01.
  31. ^ а б «Вычислительные прогнозы белковых структур, связанных с COVID-19». Deepmind. Получено 2020-12-01.
  32. ^ «Как новый искусственный интеллект DeepMind, сворачивающий белок, уже помогает бороться с пандемией коронавируса». Удача. Получено 2020-12-01.

внешняя ссылка