Кластеризация последовательностей - Sequence clustering

В биоинформатика, кластеризация последовательностей алгоритмы попытаться сгруппировать биологические последовательности которые как-то связаны. Последовательности могут быть любой из геномный, "транскриптомный " (EST ) или же белок происхождение.Для белков гомологичные последовательности обычно сгруппированы в семьи. Для данных EST важна кластеризация для группировки последовательностей, происходящих из одного и того же ген до того, как EST собранный восстановить оригинал мРНК.

Некоторые алгоритмы кластеризации используют одинарная кластеризация, построив переходное закрытие последовательностей с сходство выше определенного порога. UCLUST[1] и CD-HIT[2] использовать жадный алгоритм что определяет репрезентативная последовательность для каждого кластера и назначает новую последовательность этому кластеру, если он достаточно похож на представителя; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивание последовательностей. Кластеризация последовательностей часто используется для неизбыточный набор из репрезентативные последовательности.

Кластеры последовательностей часто являются синонимами (но не идентичны) белковые семейства. Определение представителя третичная структура для каждого кластера последовательностей цель многих структурная геномика инициативы.

Алгоритмы и пакеты кластеризации последовательностей

  • CD-HIT[2]
  • UCLUST в ИСПОЛЬЗОВАНИИ[1]
  • Старкод:[3] алгоритм быстрой кластеризации последовательностей, основанный на точном поиске по всем парам.[4]
  • OrthoFinder:[5] быстрый, масштабируемый и точный метод кластеризации белков в семейства генов (ортогруппы)[6][7]
  • Linclust:[8] первый алгоритм, время выполнения которого линейно масштабируется с размером входного набора, очень быстрый, часть MMseqs2[9] программный пакет для быстрого и точного поиска последовательностей и кластеризации больших наборов последовательностей
  • TribeMCL: метод кластеризации белков в связанные группы[10]
  • BAG: алгоритм кластеризации последовательностей на основе теории графов[11]
  • ИИСАМ:[12] Механизм параллельного масштабируемого выравнивания ДНК с открытым исходным кодом с дополнительным программным компонентом кластеризации
  • UICluster:[13] Параллельная кластеризация последовательностей EST (гена)
  • BLASTClust одинарная кластеризация с BLAST[14]
  • Кластер:[15] расширяемое Java-приложение для группировки последовательностей и кластерного анализа
  • PATDB: программа для быстрого определения идеальных подстрок
  • nrdb:[16] программа для объединения тривиально повторяющихся (идентичных) последовательностей
  • CluSTr:[17] База данных кластеризации последовательностей белков с одной связью на основе сходства последовательностей Смита-Уотермана; охватывает более 7 млн ​​последовательностей, включая UniProt и IPI
  • ICAtools[18] - оригинальный (древний) пакет кластеризации ДНК со множеством алгоритмов, полезных для обнаружения артефактов или кластеризации EST
  • Инструмент Skipredudant EMBOSS[19] удалить избыточные последовательности из набора
  • CLUSS алгоритм[20] для идентификации групп структурно, функционально или эволюционно связанных трудно выравниваемых белковых последовательностей. Веб-сервер CLUSS [21]
  • CLUSS2 Алгоритм[22] для кластеризации семейств трудно выравниваемых белковых последовательностей с множеством биологических функций. Веб-сервер CLUSS2 [21]

Базы данных неизбыточных последовательностей

  • РЫБЫ: сервер отсева белковых последовательностей[23]
  • RDB90[24]
  • UniRef: неизбыточный UniProt база данных последовательностей[25]
  • Uniclust: кластерные последовательности UniProtKB на уровне парной идентичности последовательностей 90%, 50% и 30%.[26]
  • Ортологические кластеры вирусов:[27] База данных кластеризации последовательностей вирусных белков; содержит все предсказанные гены из одиннадцати семейств вирусов, организованных в ортологические группы по сходству BLASTP

Смотрите также

Рекомендации

  1. ^ а б «ИСПОЛЬЗОВАТЬ». drive5.com.
  2. ^ а б «CD-HIT: сверхбыстрый метод кластеризации белковых и нуклеотидных последовательностей со множеством новых применений в данных секвенирования следующего поколения (NGS)». cd-hit.org.
  3. ^ «Репозиторий Starcode». 2018-10-11.
  4. ^ Зорита Э., Куско П., Филион Г. Дж. (Июнь 2015 г.). «Старкод: кластеризация последовательностей на основе поиска по всем парам». Биоинформатика (Оксфорд, Англия). 31 (12): 1913–9. Дои:10.1093 / биоинформатика / btv053. ЧВК  4765884. PMID  25638815.
  5. ^ «ОртоФайндер». Лаборатория Стива Келли.
  6. ^ Emms DM, Kelly S (август 2015). «OrthoFinder: устранение фундаментальных ошибок при сравнении всего генома значительно повышает точность вывода ортогрупп». Геномная биология. 16: 157. Дои:10.1186 / s13059-015-0721-2. ЧВК  4531804. PMID  26243257.
  7. ^ Emms DM, Kelly S (ноябрь 2019 г.). "OrthoFinder: вывод филогенетической ортологии для сравнительной геномики". Геномная биология. 20 (1): 238. Дои:10.1186 / s13059-019-1832-у. ЧВК  6857279. PMID  31727128.
  8. ^ Штайнеггер М., Сёдинг Дж. (Июнь 2018 г.). «Кластеризация огромных наборов белковых последовательностей за линейное время». Nature Communications. 9 (1): 2542. Bibcode:2018НатКо ... 9.2542S. Дои:10.1038 / s41467-018-04964-5. ЧВК  6026198. PMID  29959318.
  9. ^ Штайнеггер М., Сёдинг Дж. (Ноябрь 2017 г.). «MMseqs2 позволяет искать чувствительные последовательности белков для анализа массивных наборов данных». Природа Биотехнологии. 35 (11): 1026–1028. Дои:10.1038 / nbt.3988. HDL:11858 / 00-001M-0000-002E-1967-3. PMID  29035372. S2CID  402352.
  10. ^ Энрайт А.Дж., Ван Донген С., Узунис, Калифорния (апрель 2002 г.). «Эффективный алгоритм для крупномасштабного обнаружения семейств белков». Исследования нуклеиновых кислот. 30 (7): 1575–84. Дои:10.1093 / nar / 30.7.1575. ЧВК  101833. PMID  11917018.
  11. ^ «Архивная копия». Архивировано из оригинал на 2003-12-06. Получено 2004-02-19.CS1 maint: заархивированная копия как заголовок (связь)
  12. ^ «Документ по биоинформатике: JESAM: программные компоненты CORBA для выравнивания и кластеров EST». littlest.co.uk.
  13. ^ http://ratest.eng.uiowa.edu/pubsoft/clustering/
  14. ^ "Новости NCBI: Весна 2004-BLASTLab". nih.gov.
  15. ^ «Clusterer: расширяемое Java-приложение для группирования последовательностей и кластерного анализа». bugaco.com.
  16. ^ "Индекс / pub / nrdb". Архивировано из оригинал на 2008-01-01.
  17. ^ «Архивная копия». Архивировано из оригинал в 2006-09-24. Получено 2006-11-23.CS1 maint: заархивированная копия как заголовок (связь)
  18. ^ «Введение в ICAtools». littlest.co.uk.
  19. ^ "EMBOSS: skipredundant". pasteur.fr.
  20. ^ Келил А., Ван С., Бжезинский Р., Флери А. (август 2007 г.). «CLUSS: кластеризация белковых последовательностей на основе новой меры сходства». BMC Bioinformatics. 8: 286. Дои:10.1186/1471-2105-8-286. ЧВК  1976428. PMID  17683581.
  21. ^ а б "Домашняя страница CLUSS".
  22. ^ Келил А., Ван С., Бжезинский Р. (2008). «CLUSS2: независимый от выравнивания алгоритм для кластеризации семейств белков с множеством биологических функций». Международный журнал компьютерной биологии и дизайна лекарств. 1 (2): 122–40. Дои:10.1504 / ijcbdd.2008.020190. PMID  20058485.
  23. ^ "Dunbrack Lab". fccc.edu.
  24. ^ Холм Л., Сандер С. (июнь 1998 г.). «Устранение избыточности ближайших соседей из больших коллекций последовательностей белков». Биоинформатика (Оксфорд, Англия). 14 (5): 423–9. Дои:10.1093 / биоинформатика / 14.5.423. PMID  9682055.
  25. ^ «О UniProt». uniprot.org.
  26. ^ Мирдита М., фон ден Дриш Л., Галиез С., Мартин М.Дж., Сёдинг Дж., Штайнеггер М. (январь 2017 г.). «Базы данных Uniclust сгруппированных и глубоко аннотированных белковых последовательностей и сравнений». Исследования нуклеиновых кислот. 45 (D1): D170 – D176. Дои:10.1093 / нар / gkw1081. ЧВК  5614098. PMID  27899574.
  27. ^ "VOCS - Ресурсный центр вирусной биоинформатики". uvic.ca.