AlphaFold - AlphaFold
AlphaFold является искусственный интеллект программа разработана Google DeepMind который выполняет предсказания структуры белка.[1] Программа разработана как глубокое обучение система, построенная для прогнозирования сложенный структуры белка до ширины атома.[2]
В ноябре 2020 года версия программы AlphaFold 2 приняла участие в 14-м биеннале. Критическая оценка методов прогнозирования структуры белка (CASP ) конкуренция,[3] в котором он достиг уровня точности, намного превышающего любой другой вычислительный метод.[2] Программа набрала более 90 баллов примерно для двух третей белков в CASP. глобальный тест на расстояние (GDT), тест, который измеряет степень, в которой структура, предсказанная вычислительной программой, похожа на структуру, определенную в лабораторном эксперименте, где 100 является точным совпадением, в пределах отсечки расстояния, используемой для вычисления GDT.[2][4]
Проблема сворачивания белка
Белки состоят из цепочек аминокислоты которые спонтанно сворачиваются в процессе, называемом сворачивание белка, для образования биологически важных родное государство трехмерные структуры. Последовательности ДНК содержат фундаментальную информацию о последовательностях этих аминокислот, но информация о фолдинге и структурах белка определяется физическими процессами, которые нельзя напрямую предсказать из последовательностей ДНК.[5] Ученые обращаются к таким экспериментальным методам, как Рентгеновская кристаллография, криоэлектронная микроскопия и ядерный магнитный резонанс, которые являются дорогостоящими и требуют много времени для определения структур-мишеней, в которые сворачиваются белки.[5] Текущие усилия позволили идентифицировать структуры только около 170 000 белков, в то время как существует более 200 миллионов известных белков во всех формах жизни.[4] Существует множество вычислительных методов предсказание структуры белка, но их точность не была близка к экспериментальным методам, что ограничивает их ценность.
Алгоритм
Хотя подробности алгоритмов AlphaFold 2020 публично не публиковались, ожидается, что некоторые из них будут объявлены в начале декабря 2020 года в CASP конференция. Известно, что DeepMind обучил программу более чем 170 000 белков из общедоступного хранилища последовательностей и структур белков. Программа использует форму сеть внимания, а глубокое обучение техника, которая фокусируется на AI Алгоритм решает части более крупной проблемы и собирает их вместе, чтобы получить общее решение.[2] Общее обучение проводилось на вычислительной мощности от 100 до 200 GPU.[2] Обучение системы на этом оборудовании заняло «несколько недель», после чего программе потребуется «несколько дней», чтобы сойтись для каждой структуры.[6]
AlphaFold 1 (2018) основан на работе, разработанной различными командами в 2010-х годах, которые изучали имеющиеся в настоящее время большие банки связанных последовательностей ДНК от многих разных организмов (в основном без известных трехмерных структур), чтобы попытаться найти изменения в различных появившихся остатках. коррелировать, даже если остатки не были последовательными в основной цепи. Такие корреляции предполагают, что остатки могут быть близки друг к другу физически, даже если они не близки в последовательности, что позволяет карта контактов быть оцененным. Основываясь на недавней работе, AlphaFold 1 расширил это, чтобы оценить распределение вероятностей всего за как закрыть остатки может быть - превращение карты контактов в карту вероятных расстояний; также с использованием более совершенных методов обучения, чем раньше, для разработки вывода. Объединение потенциала, основанного на этом распределении вероятностей, с рассчитанным локальным свободная энергия конфигурации, команда затем смогла использовать градиентный спуск к решению, которое лучше всего подходит для обоих.[7][8]
Технически Торриси и другие. резюмировал подход AlphaFold версии 1 следующим образом:[9]
Центральным элементом AlphaFold является предсказатель карты расстояний, реализованный как очень глубокий остаточные нейронные сети с 220 остаточными блоками, обрабатывающими представление размерности 64 × 64 × 128, что соответствует входным характеристикам, вычисленным из двух фрагментов из 64 аминокислот. Каждый остаточный блок состоит из трех слоев, включая расширенный сверточный слой 3 × 3 - блоки циклически расширяются до значений 1, 2, 4 и 8. Всего модель имеет 21 миллион параметров. В сети используется комбинация входов 1D и 2D, включая эволюционные профили из разных источников и особенностей совместной эволюции. Наряду с картой расстояний в виде очень мелкозернистой гистограммы расстояний AlphaFold предсказывает Углы Φ и Ψ для каждого остатка, которые используются для создания исходной предсказанной трехмерной структуры. Авторы AlphaFold пришли к выводу, что глубина модели, большой размер обрезки, большой обучающий набор из примерно 29000 белков, современные методы глубокого обучения и богатство информации из прогнозируемой гистограммы расстояний помогли AlphaFold достичь высокой точности прогнозирования карты контактов. .
По словам команды DeepMind, текущая версия программы (AlphaFold 2) значительно отличается от исходной версии, выигравшей CASP 13 в 2018 году.[10][11]
Команда определила, что ее предыдущий подход, сочетающий локальную физику с направляющим потенциалом, полученным из распознавания образов, имел тенденцию переоценивать взаимодействия между остатками, которые были рядом в последовательности, по сравнению с взаимодействиями между остатками, находящимися дальше друг от друга по цепи. В результате AlphaFold 1 предпочитала модели с чуть большей вторичная структура (альфа спирали и бета-листы ), что и было на самом деле (форма переоснащение ).[12]
AlphaFold 1 содержал ряд модулей, каждый из которых обучался отдельно, которые использовались для создания направляющего потенциала, который затем объединялся с физическим энергетическим потенциалом. AlphaFold 2 заменил все это системой подсетей, объединенных в единую дифференцируемую сквозную модель, полностью основанную на распознавании образов, которая была обучена интегрированным способом как единая интегрированная структура.[11][13] Локальная физика применяется только в качестве финального шага уточнения, который лишь незначительно корректирует прогнозируемую структуру.[12] Ключевой частью дизайна являются два модуля, которые, как считается, основаны на трансформатор дизайн, который производит математическое преобразование матрицы отношений между положениями остатков и положениями других остатков, а также между положениями остатков и различными последовательностями в выравнивание последовательностей идентифицированных аналогичных последовательностей ДНК соответственно.[13] Эти преобразования имеют эффект объединения релевантных данных и фильтрации нерелевантных данных для этих двух отношений контекстно-зависимым способом («механизм внимания»), который сам может быть изучен из обучающих данных. Их результат затем информирует окончательный модуль прогнозирования.[13] По мере итерации обученной системы они, как правило, сначала генерируют небольшие кластеры аминокислот, а затем способы ориентировать эти кластеры в общую структуру.[14]
Команда AlphaFold считает, что новейшая версия может быть доработана с возможностью дальнейшего повышения точности.[10]
Соревнования
CASP13
В декабре 2018 года AlphaFold от DeepMind занял первое место в общем рейтинге 13-го места. Критическая оценка методов прогнозирования структуры белка (КАСП).
Программа особенно успешно предсказывала наиболее точную структуру для целей, оцененных организаторами соревнований как наиболее сложные, в которых не существовало структуры шаблона были доступны из белков с частично подобной последовательностью. AlphaFold дал лучший прогноз для 25 из 43 белковых мишеней этого класса,[16][17][18] достижение среднего балла 58,9 по шкале CASP глобальный тест на расстояние (GDT) счет, опережая на 52,5 и 52,4 у двух следующих лучших команд,[19] которые также использовали глубокое обучение для оценки контактных расстояний.[20][21] В целом по всем целям программа получила 68,5 балла GDT.[22]
В январе 2020 года был выпущен программный код AlphaFold 1. Открытый исходный код на исходной платформе, GitHub.[23][5]
CASP14
В ноябре 2020 года улучшенная версия AlphaFold 2 выиграла CASP14.[6][24] В целом AlphaFold 2 сделал лучший прогноз для 88 из 97 целей.[25]
О предпочтении конкурса глобальный тест на расстояние (GDT) В качестве меры точности программа получила средний балл 92,4 (из 100), что означает, что более половины ее прогнозов получили оценку выше 92,4% из-за того, что их атомы находятся в более или менее нужном месте,[26][27] уровень точности сопоставим с экспериментальными методами, такими как Рентгеновская кристаллография.[10][28][22] В 2018 году AlphaFold 1 достигла такого уровня точности только в двух из всех своих прогнозов.[25] 88% прогнозов имели оценку GDT-TS более 80.[29]:слайд 3 По группе целей, отнесенных к наиболее сложной, AlphaFold 2 получил средний балл 87.
Измеряется среднеквадратичное отклонение (RMS-D) размещения атомов углерода в основной цепи белка, где, как правило, преобладают характеристики наиболее подходящих выбросов, 88% прогнозов AlphaFold 2 имели среднеквадратичное отклонение менее 4 Å.[25] 76% прогнозов были лучше 3 Å, а 46% имели среднеквадратичную точность лучше 2 Å.[25] В целом программа достигла среднего среднеквадратичного отклонения прогнозов в 2,1 Å.[25] Для сравнения длина облигации типичной углерод-углеродной связи составляет 1,5 Å.
Результаты AlphaFold 2 были настолько хорошими, что организаторы конференции обратились к четырем ведущим экспериментальным группам за структурами, которые они считали особенно сложными, и не смогли найти решения, которые соответствовали бы их данным.[29] Во всех четырех случаях прогнозы AlphaFold 2 были настолько точными, что группы смогли применить стандартные методы к ним и непосредственно получить полные кристаллографические решения.[29] К ним относятся белок клеточной мембраны, в частности, мембранный белок из видов Археи микроорганизм, над которым экспериментальная группа работала десять лет. Такие белки являются центральными для многих заболеваний человека и белковых структур, которые сложно предсказать даже с помощью таких экспериментальных методов, как Рентгеновская кристаллография.[4]
Ответы
AlphaFold 2 набирает более 90 баллов CASP с глобальный тест на расстояние (GDT) считается значительным достижением в вычислительная биология и решение «проблемы 50-летней давности».[4] Нобелевская премия победитель и структурный биолог Венки Рамакришнан назвал результат «ошеломляющим достижением в проблеме сворачивания белков».[4] Джон Моулт, вычислительный биолог, который начал соревнование в 1994 году с целью улучшения вычислительных усилий для предсказания структур белков, сказал: «Это большое дело. В некотором смысле проблема решена».[28]
Ожидается, что способность точно предсказывать белковые структуры на основе составляющей аминокислотной последовательности будет иметь широкий спектр преимуществ в области наук о жизни, включая ускорение открытия передовых лекарств и обеспечение лучшего понимания болезней.[28]
Приложения
SARS-CoV-2
AlphaFold был использован для предсказания структур белков SARS-CoV-2, возбудитель COVID-19. Структура этих белков ожидала экспериментального обнаружения в начале 2020 года.[30][28] Результаты были изучены учеными Институт Фрэнсиса Крика в Соединенном Королевстве перед выпуском в более широкое исследовательское сообщество. Команда также подтвердила точный прогноз на основе экспериментально определенного SARS-CoV-2. пиковый белок это было разделено в Банк данных белков, международная база данных с открытым доступом, прежде чем опубликовать вычисленные структуры недостаточно изученных белковых молекул.[31] Команда признала, что, хотя эти белковые структуры могут и не быть предметом текущих терапевтических исследований, они будут способствовать пониманию сообществом вируса SARS-CoV-2.[31] В частности, предсказание AlphaFold 2 структуры Orf3a белок был очень похож на структуру, определенную исследователями в Калифорнийский университет в Беркли с помощью криоэлектронная микроскопия. Считается, что этот специфический белок помогает вирусу вырваться из клетки-хозяина после его репликации. Также считается, что этот белок играет роль в запуске воспалительной реакции на инфекцию.[32]
Опубликованные работы
AlphaFold исследования
- Эндрю В. Старший и другие. (Декабрь 2019 г.), «Прогнозирование структуры белка с использованием нескольких глубоких нейронных сетей в 13-й критической оценке предсказания структуры белка (CASP13)», Белки: структура, функции, биоинформатика 87(12) 1141-1148 Дои:10.1002 / prot.25834
- Эндрю В. Старший и другие. (15 января 2020 г.), «Улучшенное предсказание структуры белка с использованием возможностей глубокого обучения», Природа 577 706–710 Дои:10.1038 / s41586-019-1923-7
- Джон Джампер и другие. (Декабрь 2020 г.), «Предсказание структуры белка с высокой точностью с использованием глубокого обучения», в Четырнадцатая критическая оценка методов прогнозирования структуры белка (реферат), стр. 22–24
Производные исследования
- Ян, Цзяньи; Анищенко, Иван; Парк, Ханбом; Пэн, Чжэнлин; Овчинников, Сергей; Бейкер, Дэвид (2019-11-18). «Улучшенное предсказание структуры белка с использованием предсказанных ориентаций между остатками». bioRxiv: 846279. Дои:10.1101/846279. S2CID 209563981.
- Биллингс, Венди М .; Хеделиус, Брайс; Миллкам, Тодд; Вингейт, Дэвид; Корте, Деннис Делла (04.11.2019). "ProSPr: демократизированная реализация сети предсказания расстояния между белками Alphafold". bioRxiv: 830273. Дои:10.1101/830273. S2CID 209578310.
Рекомендации
- ^ «AlphaFold». Deepmind. Получено 30 ноября 2020.
- ^ а б c d е «ИИ DeepMind по сворачиванию белков решил грандиозную биологическую задачу 50-летней давности». Обзор технологий MIT. Получено 2020-11-30.
- ^ Шид, Сэм (30 ноября 2020 г.). «DeepMind решает« грандиозную задачу »50-летней давности с помощью ИИ сворачивания белка». CNBC. Получено 2020-11-30.
- ^ а б c d е ServiceNov. 30, Роберт Ф .; 2020; Утр, 10:30 (30.11.2020). "'Игра изменилась ». ИИ торжествует в решении белковых структур ». Наука | AAAS. Получено 2020-12-01.CS1 maint: числовые имена: список авторов (связь)
- ^ а б c «AlphaFold: использование ИИ для научных открытий». Deepmind. Получено 2020-11-30.
- ^ а б c «AlphaFold: решение грандиозной задачи в области биологии 50-летней давности». Deepmind. Получено 30 ноября 2020.
- ^ Мохаммед аль-Кураиши (Май 2019 г.), AlphaFold на CASP13, Биоинформатика, 35(22), 4862–4865 Дои:10.1093 / биоинформатика / btz422. Также Мохаммед аль-Кураиши (9 декабря 2018 г.), AlphaFold @ CASP13: «Что только что произошло?» (Сообщение блога).
Мохаммед аль-Кураиши (15 января 2020 г.), Переломный момент для предсказания структуры белка, Природа 577, 627-628 Дои:10.1038 / d41586-019-03951-0 - ^ AlphaFold: машинное обучение для предсказания структуры белка, Сложите его, 31 января 2020
- ^ Торриси, Мирко и др. (22 января 2020 г.), Методы глубокого обучения в предсказании структуры белков. Журнал вычислительной и структурной биотехнологии т. 18 1301-1310. Дои:10.1016 / j.csbj.2019.12.011 (CC-BY-4.0)
- ^ а б c «DeepMind решает одну из самых сложных задач биологии». Экономист. 2020-11-30. ISSN 0013-0613. Получено 2020-11-30.
- ^ а б Джереми Кан, Уроки прорыва DeepMind в области искусственного интеллекта сворачивания белков., Удача, 1 декабря 2020
- ^ а б Джон Джампер и др. (Декабрь 2020 г.)
- ^ а б c См. Блок-схему
- ^ Роберт Ф. Сервис, «Игра изменилась». ИИ торжествует в решении белковых структур, Наука, 30 ноября 2020
- ^ Джон Молт (30 ноября 2020 г.), Вводная презентация CASP 14, слайд 19. См. также видеопоток CASP 14. день 1 часть 1, с 00:22:46
- ^ Образец, Ян (2 декабря 2018 г.). «DeepMind от Google предсказывает трехмерные формы белков». Хранитель. Получено 30 ноября 2020.
- ^ «AlphaFold: использование ИИ для научных открытий». Deepmind. Получено 30 ноября 2020.
- ^ Сингх, Арунима (2020). «3D-структуры с глубоким обучением». Методы природы. 17 (3): 249. Дои:10.1038 / s41592-020-0779-у. ISSN 1548-7105. PMID 32132733. S2CID 212403708.
- ^ Видеть Таблицы данных CASP 13 для 043 A7D, 322 Zhang и 089 MULTICOM
- ^ Вэй Чжэн и другие,Прогнозирование структуры белка на основе карты контактов с помощью глубокого обучения в CASP13, Белки: структура, функции и биоинформатика, 87(12) 1149-1164 Дои:10.1002 / prot.25792; и слайды
- ^ Джи Хоу и другие (2019), Моделирование третичной структуры белка на основе глубокого обучения и прогнозирования контактного расстояния в CASP13, Белки: структура, функции и биоинформатика, 87(12) 1165-1178 Дои:10.1002 / prot.25697
- ^ а б «Прорыв DeepMind помогает понять, как болезни проникают в клетки». Bloomberg.com. 2020-11-30. Получено 2020-11-30.
- ^ "глубокий разум / глубокий разум-исследование". GitHub. Получено 2020-11-30.
- ^ «ИИ DeepMind по сворачиванию белков решил грандиозную биологическую задачу 50-летней давности». Обзор технологий MIT. Получено 30 ноября 2020.
- ^ а б c d е Мохаммед аль-Кураиши, твиттер, 30 ноября 2020.
- ^ Для используемой меры GDT-TS каждый атом в прогнозе получает четверть балла, если он находится в пределах 8 Å экспериментальной позиции; пол-очка, если он находится в пределах 4 Å, три четверти точки, если он находится в пределах 2 Å, и целая точка, если он находится в пределах 1 Å.
- ^ Чтобы получить балл GDT-TS 92,5, математически не менее 70% структуры должны иметь точность в пределах 1 Å, а не менее 85% должны иметь точность в пределах 2 Å.
- ^ а б c d Каллавей, Юэн (30 ноября 2020 г.). "'Это изменит все »: ИИ DeepMind делает гигантский скачок в решении белковых структур». Природа. Дои:10.1038 / d41586-020-03348-4.
- ^ а б c Андрей Крыштафович (30 ноября 2020 г.), Экспериментаторы: полезны ли модели? Презентация CASP 14. См. Также видеопоток CASP 14 день 1 часть 1, с 0:34:30
- ^ «ИИ может помочь ученым найти вакцину против Covid-19». Проводной. ISSN 1059-1028. Получено 2020-12-01.
- ^ а б «Вычислительные прогнозы белковых структур, связанных с COVID-19». Deepmind. Получено 2020-12-01.
- ^ «Как новый искусственный интеллект DeepMind, сворачивающий белок, уже помогает бороться с пандемией коронавируса». Удача. Получено 2020-12-01.
внешняя ссылка
- AlphaFold: научный прорыв, DeepMind, через YouTube.
- Старший, Андрей (23 августа 2019 г.). «AlphaFold: улучшенное предсказание структуры белка с использованием возможностей глубокого обучения». Институт дизайна белков - через YouTube.
- Код AlphaFold, используемый в CASP13 на GitHub
- Реализация сообщества с открытым исходным кодом - ProSPr на GitHub