Rfam - Википедия - Rfam
Содержание | |
---|---|
Описание | База данных Rfam предоставляет сопоставления, согласованные вторичные структуры и ковариационные модели для семейств РНК. |
Типы данных захвачен | Семейства РНК |
Организмы | все |
Контакт | |
Исследовательский центр | EBI |
Основное цитирование | PMID 29112718 |
Доступ | |
Формат данных | Стокгольмский формат |
Интернет сайт | рфам |
Скачать URL | FTP |
Разное | |
Лицензия | Всеобщее достояние |
Закладки сущности | да |
Рфам это база данных содержащий информацию о некодирующая РНК (нкРНК) и другие структурированные элементы РНК. Это аннотированный, открытый доступ база данных, изначально разработанная в Wellcome Trust Sanger Institute в сотрудничестве с Ферма Джанелия,[1][2][3][4] и в настоящее время размещается в Европейский институт биоинформатики.[5] Rfam разработан, чтобы быть похожим на Pfam база данных для аннотирования семейств белков.
В отличие от белки, нкРНК часто имеют похожие вторичная структура не разделяя большого сходства в первичная последовательность. Rfam делит нкРНК на семейства на основе эволюции от общего предка. Производство множественное выравнивание последовательностей (MSA) этих семейств может дать представление об их структуре и функции, как и в случае белковых семейств. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Исследователи Rfam также вносят свой вклад в Википедия с РНК WikiProject.[4][6]
Использует
База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семьи. Есть также ссылки на литературу и другие базы данных РНК. Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.
Интерфейс на веб-сайте Rfam позволяет пользователям искать нкРНК по ключевому слову, фамилии или геному, а также выполнять поиск по последовательности нкРНК или EMBL инвентарный номер. [1] Информация о базе данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL.[7][8][9] Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.
Методы
В базе данных информация о вторичная структура и первичная последовательность в лице MSA, объединяется в статистические модели, называемые профилем стохастические контекстно-свободные грамматики (SCFG), также известные как ковариационные модели. Это аналог скрытые марковские модели используется для аннотации семейства белков в Pfam база данных.[1] Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в Стокгольмский формат и SCFG.
Первый MSA - это «начальное» выравнивание. Это вручную подобранное выравнивание, которое содержит репрезентативных членов семейства нкРНК и аннотировано структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их к выравниванию. Во избежание ложных срабатываний выбирается пороговое значение для конкретной семьи.
До выпуска 12 Rfam использовал начальный ВЗРЫВ этап фильтрации, поскольку профили SCFG были слишком дорогими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстрые.[10] так что шаг BLAST больше не нужен.[11]
Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием модели ковариации по базе данных последовательностей. Все обнаружено гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.
История
Версия 1.0 Rfam была запущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, которая содержала 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, тогда как текущая версия (14.1) аннотирует 3016 семейств.
Проблемы
- Геномы высших эукариот содержат много нкРНК-производных. псевдогены и повторяется. Отличить эти нефункциональные копии от функциональной нкРНК - сложная задача.[2]
- Интроны не моделируются ковариационными моделями.
Рекомендации
- ^ а б Гриффитс-Джонс С., Бейтман А., Маршалл М., Ханна А., Эдди С. Р. (2003). «Rfam: база данных семейства РНК». Нуклеиновые кислоты Res. 31 (1): 439–41. Дои:10.1093 / нар / gkg006. ЧВК 165453. PMID 12520045.
- ^ а б Гриффитс-Джонс С., Моксон С., Маршалл М., Ханна А., Эдди С. Р., Бейтман А. (2005). «Rfam: аннотирование некодирующих РНК в полных геномах». Нуклеиновые кислоты Res. 33 (Выпуск базы данных): D121–4. Дои:10.1093 / nar / gki081. ЧВК 540035. PMID 15608160.
- ^ Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Октябрь 2008 г.). «Rfam: обновления базы данных семейств РНК». Исследования нуклеиновых кислот. 37 (Проблема с базой данных): D136 – D140. Дои:10.1093 / nar / gkn766. ЧВК 2686503. PMID 18953034.
- ^ а б Гарднер П.П., Дауб Дж., Тейт Дж., Мур Б.Л., Осуч И.Х., Гриффитс-Джонс С., Финн Р.Д., Навроцкий Е.П., Кольбе Д.Л., Эдди С.Р., Бейтман А. (2011). «Рфам: Википедия, кланы и« десятичный »выпуск». Нуклеиновые кислоты Res. 39 (Выпуск базы данных): D141–5. Дои:10.1093 / nar / gkq1129. ЧВК 3013711. PMID 21062808.
- ^ «Переход на xfam.org». Блог Xfam. Получено 3 мая 2014.
- ^ Дауб Дж., Гарднер П.П., Тейт Дж. И др. (Октябрь 2008 г.). "The RNA WikiProject: Аннотации сообщества семейств РНК". РНК. 14 (12): 2462–4. Дои:10.1261 / rna.1200508. ЧВК 2590952. PMID 18945806.
- ^ Эдди С.Р., Дурбин Р. (июнь 1994 г.). «Анализ последовательности РНК с использованием ковариационных моделей». Исследования нуклеиновых кислот. 22 (11): 2079–88. Дои:10.1093 / nar / 22.11.2079. ЧВК 308124. PMID 8029015.
- ^ Эдди SR (2002). «Эффективный с точки зрения памяти алгоритм динамического программирования для оптимального выравнивания последовательности с вторичной структурой РНК». BMC Bioinformatics. 3: 18. Дои:10.1186/1471-2105-3-18. ЧВК 119854. PMID 12095421.
- ^ Nawrocki EP, Эдди SR (2013). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее». Биоинформатика. 29 (22): 2933–5. Дои:10.1093 / биоинформатика / btt509. ЧВК 3810854. PMID 24008419.
- ^ Nawrocki, Eric P .; Эдди, Шон Р. (2013-11-15). «Infernal 1.1: поиск гомологии РНК в 100 раз быстрее». Биоинформатика. 29 (22): 2933–2935. Дои:10.1093 / биоинформатика / btt509. ISSN 1367-4811. ЧВК 3810854. PMID 24008419.
- ^ Nawrocki, Eric P .; Бердж, Сара У .; Бейтман, Алекс; Дауб, Дженнифер; Eberhardt, Ruth Y .; Эдди, Шон Р .; Floden, Evan W .; Гарднер, Пол П .; Джонс, Томас А. (январь 2015 г.). «Rfam 12.0: обновления базы данных семейств РНК». Исследования нуклеиновых кислот. 43 (Выпуск базы данных): D130–137. Дои:10.1093 / нар / gku1063. ISSN 1362-4962. ЧВК 4383904. PMID 25392425.