Структурная классификация базы данных белков - Structural Classification of Proteins database

SCOP
Структурная классификация белков база данных logo.gif
Содержание
ОписаниеКлассификация структуры белка
Контакт
Исследовательский центрЛаборатория молекулярной биологии
АвторыАлексей Г. Мурзин, Стивен Э. Бреннер, Тим Дж. П. Хаббард и Сайрус Чотиа
Основное цитированиеPMID  7723011
Дата выхода1994
Доступ
Интернет сайтhttp://scop.mrc-lmb.cam.ac.uk/scop/
Разное
Версия1,75 (июнь 2009 г .; 110 800 доменов в 38 221 структуре, классифицируемых как 3902 семейства)[1]
Политика курированияруководство
Объем
Содержание
ОписаниеSCOP - расширенный
Контакт
АвторыНаоми К. Фокс, Стивен Э. Бреннер и Джон-Марк Чандония
Основное цитированиеPMID  24304899
Доступ
Интернет сайтhttps://scop.berkeley.edu
Разное
Версия2.07 (март 2018 г .; 276 231 домен в 87 224 структурах классифицируются как 4 919 семейств)[2]
Политика курированияручное (новые классификации) и автоматизированное (новые структуры, ВЗРЫВ )

В База данных структурной классификации белков (SCOP) - это в основном ручная классификация белков структурные области на основе сходства их структуры и аминокислота последовательности. Мотивация для этой классификации состоит в том, чтобы определить эволюционные отношения между белками. Белки одинаковой формы, но с небольшой последовательностью или функциональным сходством помещаются в разные надсемейства, и предполагается, что у них есть только очень далекий общий предок. Белки, имеющие одинаковую форму и некоторое сходство последовательности и / или функции, помещаются в «семейства», и предполагается, что они имеют более близкого общего предка.

Похожий на CATH и Pfam баз данных, SCOP обеспечивает классификацию отдельных структурные области белков, а не классификация целые белки который может включать значительное количество различных доменов.

База данных SCOP находится в свободном доступе в Интернете. Компания SCOP была создана в 1994 г. Центр белковой инженерии и Лаборатория молекулярной биологии.[3] Он поддерживался Алексеем Г. Мурзиным и его коллегами в Центре белковой инженерии до его закрытия в 2010 году, а затем в Лаборатории молекулярной биологии в Кембридже, Англия.[4][5][6][1]

Работа над SCOP 1.75 была прекращена в 2014 году. С тех пор команда SCOPe из Калифорнийского университета в Беркли отвечала за обновление базы данных совместимым способом, сочетая автоматизированные и ручные методы. По состоянию на апрель 2019 г., последняя версия - SCOPe 2.07 (март 2018 г.).[2]

Новая база данных Структурной классификации белков версии 2 (SCOP2) была выпущена в начале 2020 года. Новое обновление включает улучшенную схему базы данных, новый API и модернизированный веб-интерфейс. Это было наиболее значительным обновлением Кембриджской группы со времен SCOP 1.75 и основано на достижениях в схеме прототипа SCOP 2.[7]

Иерархическая организация

Источником белковых структур является Банк данных белков. Единицей классификации структуры в SCOP является белковый домен. То, что авторы SCOP подразумевают под «доменом», предполагает их утверждение, что маленькие белки и большинство белков среднего размера имеют только один домен,[8] и наблюдение, что человеческий гемоглобин,[9] который имеет α2β2 структура, приписаны два домена SCOP, один для α и один для β субъединицы.

Формы доменов в SCOP называются «складками». Домены, принадлежащие одной и той же складке, имеют одинаковые основные вторичные структуры в одинаковом расположении с одинаковыми топологическими связями. В версии 1.75 SCOP дано 1195 складок. Даны краткие описания каждой складки. Например, «глобиноподобная» складка описывается как сердцевина: 6 спиралей; сложенный лист, приоткрытый. Сгиб, к которому принадлежит домен, определяется проверкой, а не программным обеспечением.

Уровни SCOP версии 1.75 следующие.

  1. Учебный класс: Типы складок, например, бета-листы.
  2. Сгиб: различные формы доменов внутри класса.
  3. Надсемейство: Домены в складке сгруппированы в суперсемейства, у которых есть хотя бы отдаленный общий предок.
  4. Семья: Домены в суперсемействе сгруппированы в семейства, у которых есть более недавний общий предок.
  5. Белковый домен: домены в семьях сгруппированы в белковые домены, которые по сути являются одним и тем же белком.
  6. Виды: домены в «белковых доменах» сгруппированы по видам.
  7. Домен: часть белка. Для простых белков это может быть весь белок.

Классы

Самыми широкими группами в версии 1.75 SCOP являются классы белковой складки. Эти классы группируют структуры с аналогичным составом вторичных структур, но с разными общими третичными структурами и эволюционным происхождением. Это верхний уровень "корня" иерархической классификации SCOP.

  1. Все альфа-белки [46456] (284): Домены, состоящие из α-спирали
  2. Все бета-белки [48724] (174): Домены, состоящие из β-листы
  3. Альфа- и бета-белки (а / б) [51349] (147): В основном параллельные бета-листы (блоки бета-альфа-бета)
  4. Альфа- и бета-белки (a + b) [53931] (376): В основном антипараллельный бета-листы (отдельные альфа- и бета-области)
  5. Мультидоменные белки (альфа и бета) [56572] (66): Складки, состоящие из двух или более доменов, принадлежащих разным классам
  6. мембрана и белки клеточной поверхности и пептиды [56835] (58): Не включает белки в иммунная система
  7. Маленькие белки [56992] (90): Обычно преобладают металлический лиганд, кофактор, и / или дисульфидные мостики
  8. спиральная катушка белки [57942] (7): Не настоящий класс
  9. Белковые структуры низкого разрешения [58117] (26): Пептиды и фрагменты. Не настоящий класс
  10. Пептиды [58231] (121): пептиды и фрагменты. Не настоящий класс.
  11. Сконструированные белки [58788] (44): Экспериментальные структуры белков с существенно неприродными последовательностями. Не настоящий класс

Число в скобках, называемое «сунидом», означает SКС ООНique целое число я быentifier для каждого узла в иерархии SCOP. Число в скобках указывает, сколько элементов находится в каждой категории. Например, в классе «Все альфа-белки» 284 складки. Каждый член иерархии является ссылкой на следующий уровень иерархии.

Складки

Каждый класс содержит несколько различных складок. Этот уровень классификации указывает на аналогичную третичную структуру, но не обязательно на эволюционное родство. Например, класс «Все-α белки» содержит> 280 различных складок, в том числе: Глобин -подобный (сердцевина: 6 спиралей; складчатый лист, частично раскрытый), длинная альфа-шпилька (2 спирали; антипараллельная шпилька, левая скрутка) и тип I докерин домены (тандемный повтор двух кальций-связывающих мотивов петля-спираль, отличных от EF-руки).

Надсемейства

Домены внутри складки подразделяются на надсемейства. Это самая большая группа белков, для которых структурное сходство достаточно, чтобы указать на эволюционное родство и, следовательно, иметь общего предка. Однако предполагается, что этот предок был далеким, потому что у разных членов суперсемейства низкий идентичности последовательности. Например, два суперсемейства «глобиноподобной» складки: Надсемейство глобинов и суперсемейство альфа-спиральных ферредоксинов (содержит два кластера Fe4-S4).

Семьи

Семейства белков более тесно связаны, чем суперсемейства. Домены помещаются в одно семейство, если они имеют:

  1. > 30% идентичности последовательностей
  2. некоторая идентичность последовательностей (например, 15%) и выполнять ту же функцию

Сходство в последовательности и структуре свидетельствует о том, что эти белки имеют более тесную эволюционную взаимосвязь, чем белки одного и того же суперсемейства. Инструменты последовательности, такие как ВЗРЫВ, используются для помощи в размещении доменов в суперсемейства и семейства. Например, четыре семейства в «глобиноподобном» суперсемействе «глобиноподобной» складки - это усеченный гемоглобин (без первой спирали), мини-гемоглобин нервной ткани (без первой спирали, но в остальном больше похож на обычные глобины. чем усеченные), глобины (гем-связывающий белок) и фикоцианин -подобно фикобилисома белки (олигомеры двух разных типов глобиноподобных субъединиц, содержащие две дополнительные спирали на N-конец связывает билин хромофор ). Каждому семейству в SCOP присваивается краткая классификационная строка, sccs, где буква обозначает класс, к которому принадлежит домен; следующие целые числа идентифицируют складку, суперсемейство и семейство соответственно (например, a.1.1.2 для семейства «Глобин»).[10]

Домены входа PDB

"TaxId" - это идентификационный номер таксономии и ссылки на NCBI браузер таксономии, который предоставляет дополнительную информацию о видах, к которым принадлежит белок. Щелчок по виду или изоформе открывает список доменов. Например, белок «Гемоглобин, альфа-цепь человека (Homo sapiens)» имеет> 190 решенных белковых структур, таких как 2dn3 (в комплексе с cmo) и 2dn1 (в комплексе с hem, mbn, oxy). Нажав на PDB числа должны отображать структуру молекулы, но ссылки в настоящее время не работают (ссылки работают в pre-SCOP).

Пример

Большинство страниц в SCOP содержат поле поиска. Ввод «трипсин + человек» возвращает несколько белков, включая белок трипсиноген, от человека. При выборе этой записи отображается страница, содержащая «происхождение», которое находится в верхней части большинства страниц SCOP.

Линия трипсоногена человека
  1. Корень: область видимости
  2. Класс: Все бета-белки [48724]
  3. Сложить: трипсиноподобные сериновые протеазы [50493]
    бочка закрытая; n = 6, S = 8; греческий ключ
    дупликация: состоит из двух доменов одной складки
  4. Надсемейство: трипсиноподобные сериновые протеазы [50494]
  5. Семейство: эукариотические протеазы [50514]
  6. Белок: трипсин (оген) [50515]
  7. Вид: Человек (Homo sapiens) [TaxId: 9606] [50519]

Поиск «Субтилизина» возвращает белок «Субтилизин из Bacillus subtilis, carlsberg» со следующей линией.

Субтилизин из Bacillus subtilis, линия Carlsberg
  1. Корень: область видимости
  2. Класс: альфа- и бета-белки (a / b) [51349]
    В основном параллельные бета-листы (блоки бета-альфа-бета)
  3. Складка: подобная субтилизину [52742]
    3 слоя: а / б / а, параллельный бета-лист из 7 прядей, заказ 2314567; левостороннее кроссоверное соединение между нитями 2 и 3
  4. Надсемейство: субтилизиноподобные [52743]
  5. Семейство: Subtilases [52744]
  6. Белок: субтилизин [52745]
  7. Виды: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

Хотя оба эти белка являются протеазами, они даже не принадлежат одной и той же складке, что согласуется с тем, что они являются примером конвергентная эволюция.

Сравнение с другими системами классификации

Классификация SCOP больше зависит от ручных решений, чем полуавтоматическая классификация по CATH, его главный соперник. Человеческий опыт используется, чтобы решить, являются ли определенные белки эволюционный связаны и поэтому должны быть отнесены к одному и тому же надсемейство, или их сходство является результатом структурных ограничений, и поэтому они принадлежат одному и тому же складывать. Другая база данных, ФССП, генерируется чисто автоматически (включая регулярные автоматические обновления), но не предлагает классификации, что позволяет пользователю сделать свой собственный вывод о значимости структурных отношений на основе попарных сравнений отдельных структур белка.

Преемники SCOP

К 2009 году исходная база данных SCOP вручную классифицировала 38 000 записей PDB в строго иерархическую структуру. С ускорением темпов публикаций по структуре белков ограниченная автоматизация классификации не успевала за ними, что приводило к неполному набору данных. База данных расширенной структурной классификации белков (SCOPe) была выпущена в 2012 году с гораздо большей автоматизацией той же иерархической системы и полностью обратно совместима с SCOP версии 1.75. В 2014 году в SCOPe было повторно введено кураторство вручную, чтобы обеспечить точное распределение структуры. По состоянию на февраль 2015 года SCOPe 2.05 классифицировал 71 000 из 110 000 записей PDB.[11]

Прототип SCOP2 был бета-версией Структурной классификации белков и системы классификации, которая была направлена ​​на усиление эволюционной сложности, присущей эволюции структуры белков.[12]Следовательно, это не простая иерархия, а ориентированный ациклический граф сеть, соединяющая суперсемейства белков, представляющая структурные и эволюционные отношения, такие как круговые перестановки, слияние доменов и распад домена. Следовательно, домены не разделены строгими фиксированными границами, а скорее определяются их отношениями к наиболее похожим другим структурам. Прототип был использован для разработки базы данных SCOP версии 2.[7] Версия 2 SCOP, выпущенная в январе 2020 г., содержит 5134 семейства и 2485 суперсемейств по сравнению с 3902 семействами и 1962 суперсемействами в SCOP 1.75. Уровни классификации организуют более 41 000 неизбыточных доменов, которые представляют более 504 000 белковых структур.

База данных эволюционной классификации белковых доменов (ECOD), выпущенная в 2014 году, аналогична расширению SCOPe версии 1.75 SCOP. В отличие от совместимого SCOPe, он переименовывает иерархию класса-свертки-суперсемейства-семейства в группу архитектура-X-гомология-топология-семейство (A-XHTF), причем последний уровень в основном определяется Pfam и дополнен HHsearch кластеризация для некатегоризованных последовательностей.[13] ECOD имеет лучшее покрытие PDB из всех трех преемников: оно охватывает каждый Структура PDB обновляется раз в две недели.[14] Прямое сопоставление с Pfam оказалось полезным для кураторов Pfam, которые используют категорию уровня гомологии для дополнения своей «клановой» группировки.[15]

Смотрите также

Рекомендации

  1. ^ а б Андреева А., Ховорт Д., Чандония Дж. М., Бреннер С.Е., Хаббард Т.Дж., Чотия С., Мурзин А.Г. (январь 2008 г.). «Рост данных и его влияние на базу данных SCOP: новые разработки». Исследования нуклеиновых кислот. 36 (Проблема с базой данных): D419-25. Дои:10.1093 / нар / гкм993. ЧВК  2238974. PMID  18000004.
  2. ^ а б Chandonia JM, Fox NK, Brenner SE (январь 2019 г.). «SCOPe: классификация крупных макромолекулярных структур в структурной классификации белков с расширенной базой данных». Исследования нуклеиновых кислот. 47 (D1): D475 – D481. Дои:10.1093 / нар / gky1134. ЧВК  6323910. PMID  30500919.
  3. ^ Мурзин А.Г., Бреннер С.Е., Хаббард Т., Чотия С. (апрель 1995 г.). «SCOP: структурная классификация базы данных белков для исследования последовательностей и структур». Журнал молекулярной биологии. 247 (4): 536–40. Дои:10.1006 / jmbi.1995.0159. PMID  7723011.
  4. ^ Хаббард Т.Дж., Эйли Б., Brenner SE, Мурзин А.Г., Chothia C (Январь 1999 г.). "SCOP: структурная классификация базы данных белков". Исследования нуклеиновых кислот. 27 (1): 254–6. Дои:10.1093 / nar / 27.1.254. ЧВК  148149. PMID  9847194.
  5. ^ Ло Конте Л., Эйли Б., Хаббард Т.Дж., Бреннер С.Е., Мурзин А.Г., Чотия С. (январь 2000 г.). «SCOP: структурная классификация базы данных белков». Исследования нуклеиновых кислот. 28 (1): 257–9. Дои:10.1093 / nar / 28.1.257. ЧВК  102479. PMID  10592240.
  6. ^ Андреева А., Ховорт Д., Бреннер С.Е., Хаббард Т.Дж., Чотия С., Мурзин А.Г. (январь 2004 г.). «База данных SCOP в 2004 году: уточнения объединяют данные о структуре и семействе последовательностей». Исследования нуклеиновых кислот. 32 (Проблема с базой данных): D226-9. Дои:10.1093 / нар / gkh039. ЧВК  308773. PMID  14681400.
  7. ^ а б Андреева А, Кулеша Э, Гоф Дж, Мурзин А.Г. (январь 2020 г.). «База данных SCOP в 2020 году: расширенная классификация доменов репрезентативных семейств и суперсемейств известных белковых структур». Исследования нуклеиновых кислот. 48 (Проблема с базой данных): D376 – D382. Дои:10.1093 / нар / gkz1064. ЧВК  7139981. PMID  31724711.
  8. ^ Мурзин А.Г., Brenner SE, Хаббард Т., Chothia C (Апрель 1995 г.). «SCOP: структурная классификация базы данных белков для исследования последовательностей и структур» (PDF). Журнал молекулярной биологии. 247 (4): 536–40. Дои:10.1016 / S0022-2836 (05) 80134-2. PMID  7723011. Архивировано из оригинал (PDF) на 2012-04-26.
  9. ^ PDB: 2DN1​; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (июль 2006 г.). «Кристаллические структуры с разрешением 1,25 А человеческого гемоглобина в окси, дезокси и углеродно-монокси формах». Журнал молекулярной биологии. 360 (3): 690–701. Дои:10.1016 / j.jmb.2006.05.036. PMID  16765986.
  10. ^ Ло Конте Л., Бреннер С.Е., Хаббард Т.Дж., Чотиа С., Мурзин А.Г. (январь 2002 г.). «База данных SCOP в 2002 году: уточнения учитывают структурную геномику». Исследования нуклеиновых кислот. 30 (1): 264–7. Дои:10.1093 / nar / 30.1.264. ЧВК  99154. PMID  11752311.
  11. ^ «Каковы отношения между SCOP, SCOPe и SCOP2». scop.berkeley.edu. Получено 2015-08-22.
  12. ^ Андреева А., Ховорт Д., Чотия С., Кулеша Е., Мурзин А.Г. (январь 2014 г.). «Прототип SCOP2: новый подход к изучению структуры белков». Исследования нуклеиновых кислот. 42 (Проблема с базой данных): D310-4. Дои:10.1093 / nar / gkt1242. ЧВК  3964979. PMID  24293656.
  13. ^ Ченг Х., Шеффер Р.Д., Ляо Й., Кинч Л.Н., Пей Дж., Ши С., Ким Б.Х., Гришин Н.В. (декабрь 2014 г.). «ECOD: эволюционная классификация белковых доменов». PLOS вычислительная биология. 10 (12): e1003926. Bibcode:2014PLSCB..10E3926C. Дои:10.1371 / journal.pcbi.1003926. ЧВК  4256011. PMID  25474468.
  14. ^ «Эволюционная классификация белковых доменов». prodata.swmed.edu. Получено 18 мая 2019.
  15. ^ Эль-Гебали С., Мистри Дж., Бейтман А., Эдди С. Р., Лучани А., Поттер С. К., Куреши М., Ричардсон Л. Дж., Салазар Г. А., Смарт А., Соннхаммер Е. Л., Хирш Л., Паладин Л., Пиовесан Д., Тосатто СК, Финн Р. Д. ( Январь 2019). «База данных семейств белков Pfam в 2019 году». Исследования нуклеиновых кислот. 47 (D1): D427 – D432. Дои:10.1093 / нар / gky995. ЧВК  6324024. PMID  30357350.

внешняя ссылка