GenBank - GenBank

GenBank
Содержание
ОписаниеНуклеотидные последовательности для более чем 300 000 организмов с поддерживающей библиографической и биологической аннотацией.
Типы данных
захвачен
  • Нуклеотидная последовательность
  • Белковая последовательность
ОрганизмыВсе
Связаться с нами
Исследовательский центрNCBI
Основное цитированиеPMID  21071399
Дата выхода1982; 38 лет назад (1982)
Доступ
Формат данных
Интернет сайтNCBI
Скачать URLncbi ftp
веб-сервис URL
инструменты
ИнтернетВЗРЫВ
АвтономныйВЗРЫВ
Разное
ЛицензияНе понятно[1]

В GenBank база данных последовательностей является открытый доступ, аннотированная коллекция всех общедоступных нуклеотид последовательности и их белок переводы. Он производится и поддерживается Национальный центр биотехнологической информации (NCBI; часть Национальные институты здоровья в Соединенные Штаты ) как часть Сотрудничество с международными базами данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получают последовательности, произведенные в лабораториях по всему миру из более чем 100 000 различных организмы. База данных была создана в 1982 г. Уолтер Гоуд и Лос-Аламосская национальная лаборатория. GenBank стал важной базой данных для исследований в биологических областях и за последние годы вырос на экспоненциальная скорость удваивая примерно каждые 18 месяцев.[2][3]

Выпуск 194, выпущенный в феврале 2013 года, содержал более 150 миллиардов нуклеотидных оснований в более чем 162 миллионах последовательностей.[4] GenBank построен на основе прямых заявок от отдельных лабораторий, а также массовых заявок от крупных последовательность действий центры.

Представления

В GenBank можно отправлять только оригинальные последовательности. Прямая отправка в GenBank осуществляется с использованием BankIt, которая представляет собой веб-форму или автономную программу отправки, Блесток. После получения представления последовательности сотрудники GenBank проверяют оригинальность данных и назначают инвентарный номер последовательность и выполняет проверки качества. Затем представленные материалы отправляются в общедоступную базу данных, где записи могут быть найдены Entrez или скачать FTP. Массовое представление Выраженный тег последовательности (СТАНДАРТНОЕ ВОСТОЧНОЕ ВРЕМЯ), Сайт с тегами последовательностей (СТС), Последовательность исследования генома (GSS) и Последовательность генома с высокой пропускной способностью (HTGS) данные чаще всего предоставляются крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома.

История

Уолтер Гоуд из Группа теоретической биологии и биофизики в Лос-Аламосская национальная лаборатория и другие создали базу данных последовательностей в Лос-Аламосе в 1979 году, кульминацией которой стало создание общедоступного GenBank в 1982 году.[5] Финансирование было предоставлено Национальные институты здоровья, Национальный научный фонд, Министерство энергетики и Министерство обороны. LANL сотрудничал по GenBank с фирмой Болт, Беранек и Ньюман, и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х биоинформатическая компания Intelligenetics Стэндфордский Университет руководил проектом GenBank в сотрудничестве с LANL.[6] Как один из первых биоинформатика общественных проектов в Интернете, стартовал проект GenBank BIOSCI / Новостные группы Bionet для продвижения открытый доступ общение между учеными-биологами. В период с 1989 по 1992 год проект GenBank перешел во вновь созданный Национальный центр биотехнологической информации.[7]

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII.
CDRom Genbank v100

Рост

Рост пар оснований GenBank с 1982 по 2018 гг. полулогарифмическая шкала

Генбанк примечания к выпуску в версии 162.0 (октябрь 2007 г.) указано, что «с 1982 г. по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев».[4][8] По состоянию на 15 июня 2019 г., GenBank версии 232.0 насчитывает 213,383,758 места 329 835 282 370 оснований из 213 383 758 зарегистрированных последовательностей.[4]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.

Основные организмы в GenBank (выпуск 191)[9]
Организмпар оснований
Homo sapiens1.6310774187×10^10
Mus musculus9.974977889×10^9
Раттус норвегикус6.521253272×10^9
Bos taurus5.386258455×10^9
Zea Mays5.062731057×10^9
Sus scrofa4.88786186×10^9
Данио Рерио3.120857462×10^9
Стронгилоцентротус пурпуратус1.435236534×10^9
Macaca mulatta1.256203101×10^9
Oryza sativa Japonica Group1.255686573×10^9
Nicotiana tabacum1.197357811×10^9
Xenopus (Silurana) tropicalis1.249938611×10^9
Drosophila melanogaster1.11996522×10^9
Пан троглодиты1.008323292×10^9
Arabidopsis thaliana1.144226616×10^9
Обыкновенная волчанка951,238,343
Vitis vinifera999,010,073
Gallus gallus899,631,338
Глицин макс906,638,854
Triticum aestivum898,689,329

Неполная идентификация

В общедоступных базах данных, в которых можно выполнять поиск с помощью инструмента поиска базового локального сопоставления Национального центра биотехнологической информации (NCBI BLAST), отсутствуют проверенные экспертами последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, количество ссылочных последовательностей ограничено.

Бумага, выпущенная в Журнал клинической микробиологии[10] оценил 16S рРНК результаты секвенирования генов анализируются с помощью GenBank в сочетании с другими общедоступными общедоступными базами данных в Интернете с контролем качества, такими как EzTaxon -e (https://web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) и BIBI (https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1.fr/bibi/ ) базы данных. Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79) были более разборчивыми, чем использование только GenBank (каппа = 0,66) или других баз данных.

Смотрите также

использованная литература

  1. ^ В страница загрузки в UCSC говорит "NCBI не накладывает ограничений на использование или распространение данных GenBank. Однако некоторые заявители могут требовать патент, авторские права или другие права интеллектуальной собственности на все или часть предоставленных данных. NCBI не может оценить обоснованность таких утверждений и, следовательно, не может предоставить комментарии или неограниченное разрешение на использование, копирование или распространение информации, содержащейся в GenBank ».
  2. ^ Benson D; Карш-Мизрахи, И .; Lipman, D. J .; Ostell, J .; Уиллер, Д. Л .; и другие. (2008). «ГенБанк». Исследования нуклеиновых кислот. 36 (База данных): D25 – D30. Дои:10.1093 / нар / гкм929. ЧВК  2238942. PMID  18073190.
  3. ^ Benson D; Карш-Мизрахи, И .; Lipman, D. J .; Ostell, J .; Sayers, E.W .; и другие. (2009). «ГенБанк». Исследования нуклеиновых кислот. 37 (База данных): D26 – D31. Дои:10.1093 / nar / gkn723. ЧВК  2686462. PMID  18940867.
  4. ^ а б c «Примечания к выпуску GenBank». NCBI.
  5. ^ Хэнсон, Тодд (2000-11-21). «Умер Уолтер Гоуд, основатель GenBank». Информационный бюллетень: некролог. Лос-Аламосская национальная лаборатория.
  6. ^ История LANL GenBank
  7. ^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank». Исследования нуклеиновых кислот. 18 (6): 1517–1520. Дои:10.1093 / nar / 18.6.1517. ЧВК  330520. PMID  2326192.
  8. ^ Бенсон, Д. А .; Cavanaugh, M .; Кларк, К .; Карш-Мизрахи, И .; Lipman, D. J .; Ostell, J .; Сэйерс, Э. В. (2012). «ГенБанк». Исследования нуклеиновых кислот. 41 (Проблема с базой данных): D36 – D42. Дои:10.1093 / нар / gks1195. ЧВК  3531190. PMID  23193287.
  9. ^ Бенсон Д. А., Карш-Мизрахи И., Липман Д. Д., Остелл Дж., Сэйерс Е. В. (январь 2011 г.). «ГенБанк». Нуклеиновые кислоты Res. 39 (Выпуск базы данных): D32–37. Дои:10.1093 / nar / gkq1079. ЧВК  3013681. PMID  21071399.
  10. ^ Кён Сон Парка, Чанг-Сок Киа, Чхол-Ин Канг, Яэ-Жан Кимк, Ду Рён Чунгб, Кён Ран Пекб, Джэ-Хун Сонб и Нам Ён Ли (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации изолятов клинических культур крови, которые не были идентифицированы или были неправильно идентифицированы обычными методами». J. Clin. Микробиол. 50 (5): 1792–1795. Дои:10.1128 / JCM.00081-12. ЧВК  3347139. PMID  22403421.CS1 maint: использует параметр авторов (ссылка на сайт)


внешние ссылки