Проект аннотации позвоночных и генома - Vertebrate and Genome Annotation Project
В Аннотация генома позвоночных (ВЕГА) база данных является биологическая база данных посвященный помощи исследователям в обнаружении конкретных областей геном и аннотирование генов или областей геномов позвоночных.[1] Браузер VEGA основан на Ансамбль веб-код и инфраструктуру, а также предоставляет научному сообществу доступ к известным генам позвоночных.[2][3] Веб-сайт VEGA часто обновляется, чтобы поддерживать самую свежую информацию о геномах позвоночных и стараться предоставлять неизменно высокое качество. аннотация всех опубликованных геномов позвоночных или областей генома.[4] VEGA был разработан Wellcome Trust Sanger Institute и находится в тесной связи с другими базами данных аннотаций, такими как ZFIN (Информационная сеть по рыбкам данио), Гаванская группа и GenBank.[1][5] Аннотации вручную в настоящее время более точны при определении вариантов стыковки, псевдогены, полиаденилирование особенности, некодирующие области и сложные структуры генов, чем автоматизированные методы.[5]
История
В Аннотация генома позвоночных (VEGA) впервые была обнародована в 2004 году институтом Wellcome Trust Sanger. Он был разработан для просмотра ручных аннотаций геномных последовательностей человека, мышей и рыбок данио и является центральным кешем для центров секвенирования генома, где хранятся аннотации человеческих хромосом.[6] Ручное аннотирование геномных данных чрезвычайно важно для создания точного эталонного набора генов, но оно дорого по сравнению с автоматическими методами и поэтому ограничивается модельными организмами. Инструменты аннотации, разработанные в Wellcome Trust Sanger Institute (WTSI)[7] теперь используются, чтобы заполнить этот пробел, поскольку их можно использовать удаленно и, таким образом, открывать жизнеспособные возможности для совместной работы над аннотациями сообщества.[8] Проектами HAVANA и VEGA руководила доктор Дженнифер Харроу из Института Wellcome Sanger. VEGA находится в архиве с февраля 2017 года, а команда HAVANA переехала в EMBL-EBI в июне 2017 года.
Человеческий геном
База данных Vega является центральным хранилищем для большинства центров секвенирования генома, где хранятся аннотации хромосом человека.[6] Со времени первоначальной публикации VEGA количество аннотированных локусов генов человека увеличилось более чем вдвое и превысило 49 000 (выпуск от сентября 2012 г.), более 20 000 из которых, по прогнозам, кодируют белок.[6][9] Группа Havana в рамках сотрудничества по согласованию кодирующих последовательностей (CCDS) и расширения всего генома проекта ENCODE полностью вручную аннотировала геном человека, который доступен для справки, сравнительного анализа и поиска последовательностей в базе данных VEGA.[10][11]Последний выпуск VEGA состоялся в феврале 2017 г. (выпуск 68), и теперь VEGA представляет собой заархивированный сайт, который больше не будет обновляться.
Другие позвоночные
База данных VEGA объединяет информацию из баз данных генома отдельных позвоночных и объединяет их все вместе, чтобы облегчить доступ и сравнительный анализ для исследователей. Группа анализа и аннотации человека и позвоночных (Гавана) из Wellcome Trust Sanger Institute (WTSI) вручную аннотирует геномы человека, мыши и рыбок данио с помощью инструмента аннотации генома Otterlace / ZMap.[12] Система ручных аннотаций Otterlace включает в себя реляционную базу данных, в которой хранятся данные ручных аннотаций и поддерживает графический интерфейс Zmap, основанную на схеме Ensembl.[8]
Данио
Геном рыбки данио, который полностью секвенируется и аннотируется вручную.[13] В геноме рыбок данио в настоящее время содержится 18 454 аннотированных гена VEGA, из которых 16 588 являются предполагаемыми генами, кодирующими белок (сентябрь 2012 г., выпуск).[14]
Мышь
В геноме мыши в настоящее время содержится 23 322 аннотированных гена VEGA, из которых 14 805 являются предполагаемыми генами, кодирующими белок (июнь 2012 г., выпуск).[15] Локусы, выбранные для ручной аннотации, разбросаны по всему геному, но некоторые области получили больше внимания, чем другие: хромосомы 2, 4, 11 и X, которые были полностью аннотированы. Аннотации, показанные в этом выпуске Vega, взяты из замораживания данных, сделанного 19 марта 2012 г., и генные структуры представлены в объединенном наборе генов мышей, показанном в Ensembl версии 67. Vega также показывает искусственные локусы, созданные программы для мыши.[15]
Свинья
В геноме свиньи в настоящее время аннотировано 2842 гена VEGA, из которых 2264 являются предполагаемыми генами, кодирующими белок (сентябрь 2012 г., выпуск).[16] Главный комплекс гистосовместимости свиней (MHC), также известный как антигенный комплекс лейкоцитов свиней (SLA), охватывает область 2,4 Мб субметацентрической хромосомы 7 (SSC7p1.1-q1.1). МНС свиньи участвует в контроле иммунного ответа и восприимчивости к ряду заболеваний и играет уникальную роль в гистосовместимости.[16] Хромосомы X-WTSI и Y-WTSI в настоящее время аннотируются Гаваной.[16]
Собака, шимпанзе, валлаби и горилла
В геноме собаки в настоящее время содержится 45 аннотированных генов VEGA, из которых 29 являются предполагаемыми генами, кодирующими белок (февраль 2005 г., выпуск).[17] В геноме шимпанзе в настоящее время содержится 124 аннотированных гена VEGA, 52 из которых являются предполагаемыми генами, кодирующими белок (январь 2012 г., выпуск).[18] В настоящее время геном Валлаби содержит 193 аннотированных гена VEGA, 76 из которых являются предполагаемыми генами, кодирующими белок (март 2009 г., релиз).[19] В настоящее время геном гориллы содержит 324 аннотированных гена VEGA, 176 из которых являются предполагаемыми генами, кодирующими белок (март 2009 г., релиз).[20]
Сравнительный анализ
В дополнение к полным геномам и в отличие от других браузеров, VEGA также отображает небольшие готовые области интереса из геномов других позвоночных, гаплотипов человека и линий мышей. В настоящее время он включает законченную последовательность и аннотацию главного комплекса гистосовместимости (MHC) из различных гаплотипов человека, собаки и свиньи [последний из которых в настоящее время доступен только в очень ограниченной форме в Ensembl Pre !.[21] Кроме того, имеется аннотация штамма мыши NOD (диабет без ожирения) для областей-кандидатов IDD (инсулинозависимый диабет) и еще двух областей свиней.[6]
Vega содержит сравнительный попарный анализ между конкретными областями генома либо разных видов, либо разных гаплотипов / штаммов. Это контрастирует с Ensembl, где выполняется множество сравнений всех геномов и всех геномов.[22] Анализ в Vega включает:
1. Идентификация геномных выравниваний с помощью LastZ.2. Прогнозирование пар ортологов с помощью конвейера дерева генов Ensembl. Обратите внимание, что хотя конвейер генерирует филогенетические родословные, ограниченный объем сравнительного анализа Vega означает, что они обязательно будут неполными, и, следовательно, на веб-сайте будут показаны только ортологи. Ручная идентификация аллелей в различных гаплотипах человека или линий мышей.
Есть пять наборов анализов:[22]
1. Область MHC сравнивалась между собаками, свиньями (две группы), гориллами, шимпанзе, валлаби, мышами и восемью человеческими гаплотипами:
- хромосома собаки 12-MHC
- хромосома гориллы 6-MHC
- хромосома шимпанзе 6-MHC
- валлаби хромосома 2-MHC
- хромосома 7 свиньи на Sscrofa10.2 (от 24,7 МБ до 29,8 МБ)
- хромосома свиньи 7-MHC
- хромосома 17 мыши (от 33,3 Мбит / с до 38,9 Мбит / с)
- хромосома 6 на эталонной сборке человека (от 28 Мбит до 34 Мбит)
- область MHC хромосомы 6 в гаплотипах COX, QBL, APD, DBB, MANN, MCF и SSTO человека (полноразмерные фрагменты хромосомы)
2. Сравнение LRC-регионов свиньи, гориллы и человека (девять гаплотипов):
- хромосома 6 свиньи (от 53,6 Мбит / с до 54,0 Мбит / с)
- хромосома гориллы 19-LRC
- хромосома человека 19q13.4 (54,6–55,6 Мбит / с) на эталонной сборке.
- область LRC хромосомы 19 в гаплотипах COX_1, COX_2, PGF_1, PGF_2, DM1A, DM1B, MC1A и MC1B (полноразмерные фрагменты хромосомы).
- Области инсулинозависимого диабета (Idd) на шести хромосомах мыши (1, 3, 4, 6, 11 и 17) сравнивались между эталоном CL57BL / 6 и одним или несколькими из DIL Non-Obese Diabetic (NOD), CHORI- 29 NOD и 129 штаммов. Подробности описаны здесь.
3. Области эталонной сборки CL57BL / 6, использованные в этих сравнениях:
- Idd3.1: хромосома 3, клоны от AC117584.11 до AC115749.12
- Idd4.1: хромосома 11, клоны от AL596185.12 до AL663042.5
- Idd4.2: хромосома 11, клоны от AL663082.5 до AL604065.7
- Idd4.2Q: хромосома 11, клоны от AL596111.7 до AL645695.18
- Idd5.1: хромосома 1, клоны от AL683804.15 до AL645534.20
- Idd5.3: хромосома 1, клоны от AC100180.12 до AC101699.9
- Idd5.4: хромосома 1, клоны от AC123760.9 до AC109283.8
- Idd6.1 + Idd6.2: хромосома 6, клоны от AC164704.4 до AC164090.3
- Idd6.3: хромосома 6, клоны от AC171002.2 до AC163356.2
- Idd9.1: хромосома 4, клоны от AL627093.17 до AL670959.8
- Idd9.1M: хромосома 4, клоны от AL611963.24 до AL669936.12
- Idd9.2: хромосома 4, клоны CR788296.8 - AL626808.28
- Idd9.3: хромосома 4, клоны от AL607078.26 до AL606967.14
- Idd10.1: хромосома 3, клоны от AC167172.3 до AC131184.4
- Idd16.1: хромосома 17, клоны от AC125141.4 до AC167363.3
- Idd18.1: хромосома 3, клоны от AL845310.4 до AL683824.8
- Idd18.2: хромосома 3, клоны от AC123057.4 до AC129293.9
4. Сравнения между тремя конкретными регионами:
- хромосома 17 свиньи (58,2 Мбит / с до 67,4 Мбит / с)
- хромосома человека 20q13.13-q13.33 (от 45,8 Мбит / с до 62,4 Мбит / с)
- хромосома 2 мыши (от 168,3 Мбит / с до 179,0 Мбит / с)
5. Парные сравнения трех пар полноразмерных хромосом мыши и человека:
- хромосома 1 человека и хромосома 4 мыши
- хромосома 17 человека и хромосома 11 мыши
- хромосома X человека и хромосома X мыши
Рекомендации
- ^ а б "Браузер Vega Genome". Институт Wellcome Sanger. Получено 30 октября 2012.
- ^ Searle, S. M.J .; Гилберт, Дж; Айер, В; Зажим, М (1 мая 2004 г.). "Система аннотаций выдры". Геномные исследования. 14 (5): 963–970. Дои:10.1101 / гр.1864804. ЧВК 479127. PMID 15123593.
- ^ Хаббард, Т .; Баркер, Д; Бирни, Э; Cameron, G; Чен, Y; Кларк, L; Кокс, Т; Манжета, Дж; Карвен, В. (1 января 2002 г.). «Проект базы данных генома Ensembl». Исследования нуклеиновых кислот. 30 (1): 38–41. Дои:10.1093 / nar / 30.1.38. ЧВК 99161. PMID 11752248.
- ^ Лавленд, Дж. (1 января 2005 г.). «VEGA, новый геномный браузер». Брифинги по биоинформатике. 6 (2): 189–193. Дои:10.1093 / bib / 6.2.189. PMID 15975227.
- ^ а б Ashurst, J. L .; Чен, СК; Гилберт, JG; Jekosch, K; Кинан, S; Meidl, P; Searle, SM; Сталкер, Дж; Стори, Р. (17 декабря 2004 г.). "База данных аннотаций генома позвоночных (Vega)". Исследования нуклеиновых кислот. 33 (Проблема с базой данных): D459 – D465. Дои:10.1093 / нар / gki135. ЧВК 540089. PMID 15608237.
- ^ а б c d Wilming, L.G .; Гилберт, Дж. Г. Р .; Howe, K .; Trevanion, S .; Хаббард, Т .; Харроу, Дж. Л. (23 декабря 2007 г.). «База данных аннотаций генома позвоночных (Vega)». Исследования нуклеиновых кислот. 36 (База данных): D753 – D760. Дои:10.1093 / нар / гкм987. ЧВК 2238886. PMID 18003653.
- ^ "Wellcome Trust Sanger Institute".
- ^ а б Loveland, J.E .; Гилберт, Дж. Г. Р .; Griffiths, E .; Харроу, Дж. Л. (20 марта 2012 г.). «Аннотации генов сообщества на практике». База данных. 2012: bas009 – bas009. Дои:10.1093 / база данных / bas009. ЧВК 3308165. PMID 22434843.
- ^ "Человеческий геном".
- ^ Бирни, Юэн; и другие. (14 июня 2007 г.). «Идентификация и анализ функциональных элементов в 1% генома человека в рамках пилотного проекта ENCODE». Природа. 447 (7146): 799–816. Дои:10.1038 / природа05874. ЧВК 2212820. PMID 17571346.
- ^ Ashurst, Jennifer L .; Коллинз, Джон Э. (1 сентября 2003 г.). "G A: P T". Ежегодный обзор геномики и генетики человека. 4 (1): 69–88. Дои:10.1146 / annurev.genom.4.070802.110300.
- ^ "Гаванский проект".
- ^ Спраг, Дж. (1 января 2006 г.). "Информационная сеть рыбок данио: база данных модельных организмов рыбок данио". Исследования нуклеиновых кислот. 34 (90001): D581 – D585. Дои:10.1093 / nar / gkj086. ЧВК 1347449. PMID 16381936.
- ^ "Геном данио".
- ^ а б «Геном мыши».
- ^ а б c «Геном свиньи».
- ^ «Геном собаки».
- ^ «Геном шимпанзе».
- ^ "Геном Валлаби".
- ^ "Геном гориллы".
- ^ "Pre! Ensembl".
- ^ а б "Сравнительный анализ".