Банк данных сети биомолекулярных объектов - Biomolecular Object Network Databank

В Банк данных сети биомолекулярных объектов это биоинформатика банк данных содержащий информацию о малая молекула а также структуры и взаимодействия. Банк данных объединяет ряд существующих баз данных, чтобы обеспечить всесторонний обзор информации, доступной в настоящее время для данной молекулы.

Фон

СВЯЗЬ
Разработчики)Кристофер Хог и др., Исследовательский институт Самуэля Луненфельда, гора Синай. Коммерческие права: Unleashed Informatics
Стабильный выпуск
BIND 4.0, SMIDsuite
ТипИнструмент биоинформатики
ЛицензияОткрытый доступ
Интернет сайт[1]

Blueprint Initiative начиналась как исследовательская программа в лаборатории доктора Кристофера Хога в Исследовательский институт Самуэля Луненфельда в Больница горы Синай в Торонто. 14 декабря 2005 года Unleashed Informatics Limited приобрела коммерческие права на The Blueprint Initiative. интеллектуальная собственность. Это включало права на базу данных взаимодействия белков BIND, базу данных взаимодействия малых молекул SMID, а также на хранилище данных SeqHound. Unleashed Informatics - поставщик услуг по управлению данными, который контролирует управление и курирование инициативы Blueprint под руководством доктора Хога.[1]

Строительство

BOND объединяет исходные базы данных Blueprint Initiative, а также другие базы данных, такие как Генбанк, в сочетании со многими инструментами, необходимыми для анализа этих данных. Ссылки на аннотации для последовательностей, включая идентификаторы таксонов, избыточные последовательности, Генная онтология описания, Онлайн-менделевское наследование в человеке идентификаторы, сохраненные домены, также доступны перекрестные ссылки баз данных, идентификаторы LocusLink и полные геномы. BOND упрощает запросы к базе данных и является открытый доступ ресурс, который объединяет данные взаимодействия и последовательности.[2]

База данных взаимодействия малых молекул (SMID)

В Маленькая молекула База данных взаимодействия - это база данных, содержащая взаимодействия белкового домена с небольшими молекулами. Он использует доменный подход для определения семейств доменов, найденных в Сохраненная база данных домена (CDD), которые взаимодействуют с небольшой молекулой запроса. CDD от NCBI объединяет данные из нескольких разных источников; Белковые семьи (PFAM), Инструмент для исследования простой модульной архитектуры (УМНАЯ), Кластер ортологичных генов (COGs) и собственные курируемые последовательности NCBI. Данные в SMID берутся из Protein Data Bank (PDB), базы данных известных структур кристаллов белков. Для запроса SMID необходимо ввести GI белка, идентификатор домена, PDB ID или SMID ID. Результаты поиска предоставляют информацию о малых молекулах, белках и домене для каждого взаимодействия, идентифицированного в базе данных. Взаимодействие с небиологическими контактами по умолчанию обычно не отображается.

SMID-BLAST - это инструмент, разработанный для аннотирования известных сайтов связывания малых молекул, а также для прогнозирования сайтов связывания в белках, чьи кристаллические структуры еще не определены. Прогноз основан на экстраполяции известных взаимодействий, обнаруженных в PDB, на взаимодействия между некристаллизованным белком и небольшой интересующей молекулой. SMID-BLAST был проверен на основе набора тестов известных взаимодействий малых молекул из PDB. Было показано, что это точный предсказатель взаимодействий белок-небольшие молекулы; 60% предсказанных взаимодействий идентично соответствовали аннотированному сайту связывания PDB, и из этих 73% правильно идентифицировали более 80% связывающих остатков белка. Hogue, C et al. По оценкам, 45% прогнозов, которые не были соблюдены в данных PDB, на самом деле являются истинно положительными.[3]

База данных сети биомолекулярного взаимодействия (BIND)

Вступление

Идея базы данных для документирования всех известных молекулярных взаимодействий была первоначально выдвинута Тони Поусон в 1990-х годах и позже был разработан учеными из Университет Торонто в сотрудничестве с Университет Британской Колумбии. Разработка базы данных сети биомолекулярного взаимодействия (BIND) была поддержана грантами Канадского института исследований в области здравоохранения (CIHR ), Genome Canada,[4] Канадский фонд инноваций и Фонд исследований и развития Онтарио. Изначально BIND создавался как постоянно растущее хранилище информации о биомолекулярных взаимодействиях, молекулярных комплексах и путях обмена. В качестве протеомика это быстро развивающаяся область, поэтому исследователям необходимо иметь доступ к информации из научных журналов. BIND облегчает понимание молекулярных взаимодействий и путей, участвующих в клеточных процессах, и в конечном итоге даст ученым лучшее понимание процессов развития и патогенеза заболеваний.

Основными целями проекта BIND являются: создание общедоступного протеомного ресурса, доступного для всех; создать платформу для включения сбор данных из других источников (PreBIND); создать платформу для визуализации сложных молекулярных взаимодействий. С самого начала BIND был открытый доступ и программное обеспечение может свободно распространяться и модифицироваться. В настоящее время BIND включает в себя спецификацию данных, базу данных и соответствующие инструменты интеллектуального анализа и визуализации данных. В конце концов, есть надежда, что BIND будет совокупностью всех взаимодействий, происходящих в каждом из основных модельных организмов.

Структура базы данных

BIND содержит информацию о трех типах данных: взаимодействиях, молекулярных комплексах и путях.

  1. Взаимодействия являются основным компонентом BIND и описывают, как 2 или более объекта (A и B) взаимодействуют друг с другом. Объектами могут быть самые разные вещи: ДНК, РНК, гены, белки, лиганды, или же фотоны. Запись взаимодействия содержит больше всего информации о молекуле; он предоставляет информацию о своем названии и синонимах, где он находится (например, где в клетке, какой вид, когда он активен и т. д.), и его последовательность или где ее последовательность может быть найдена. Запись взаимодействия также описывает экспериментальные условия, необходимые для наблюдения связывания in vitro, химической динамики (включая термодинамика и кинетика ).
  2. Второй тип записей BIND - это молекулярные комплексы. Молекулярные комплексы определяются как совокупность молекул, которые стабильны и выполняют функцию, когда они связаны друг с другом. Запись может также содержать некоторую информацию о роли комплекса в различных взаимодействиях, а запись молекулярного комплекса связывает данные из 2 или более записей взаимодействия.
  3. Третий компонент BIND - это раздел записи пути. Путь состоит из сети взаимодействий, которые участвуют в регуляции клеточных процессов. Этот раздел может также содержать информацию о фенотипах и заболеваниях, связанных с этим путем.


Минимальный объем информации, необходимый для создания записи в BIND, составляет PubMed ссылка на публикацию и запись в другой базе данных (например, GenBank ). Каждая запись в базе данных содержит ссылки / авторов данных. Поскольку BIND - это постоянно растущая база данных, все компоненты BIND отслеживают обновления и изменения.[5]

BIND основан на спецификации данных, написанной с использованием абстрактной синтаксической нотации 1 (ASN.1 ) язык. ASN.1 используется также NCBI при хранении данных для своих Entrez система, и поэтому BIND использует те же стандарты, что и NCBI, для представления данных. Язык ASN.1 предпочтительнее, поскольку его можно легко перевести на другие языки спецификации данных (например, XML ), может легко обрабатывать сложные данные и может применяться ко всем биологическим взаимодействиям, а не только к белкам.[5] Bader и Hogue (2000) подготовили подробную рукопись по спецификации данных ASN.1, используемой BIND.[6]

Отправка и курирование данных

Приветствуется отправка пользователей в базу данных. Чтобы внести свой вклад в базу данных, необходимо предоставить: контактную информацию, PubMed идентификатор и две взаимодействующие молекулы. Лицо, отправившее запись, является ее владельцем. Все записи проверяются перед публикацией, и BIND курируется для обеспечения качества. BIND curation имеет два направления: высокая пропускная способность (HTP) и низкая пропускная способность (LTP). Записи ПВТ взяты из статей, в которых сообщается о более чем 40 результатах взаимодействия с помощью одной экспериментальной методологии. Кураторы ПВТ обычно имеют биоинформатика фоны. Кураторы HTP отвечают за сбор и хранение экспериментальных данных, а также создают скрипты для обновления BIND на основе новых публикаций. Записи LTP курируют лица, имеющие степень магистра или доктора философии и опыт лабораторных исследований взаимодействия. Кураторы LTP проходят дальнейшее обучение через Канадские семинары по биоинформатике. Информация о малая молекула химия курируется химиками отдельно, чтобы куратор хорошо разбирался в предмете. Приоритетом для курирования BIND является сосредоточение внимания на LTP для сбора информации по мере ее публикации. Хотя исследования HTP сразу предоставляют больше информации, сообщается о большем количестве исследований LTP, и в обоих направлениях сообщается об аналогичном количестве взаимодействий. В 2004 году BIND собрал данные из 110 журналов.[7]

Рост базы данных

BIND значительно вырос с момента его создания; Фактически, с 2003 по 2004 гг. в базе данных увеличилось в 10 раз количество записей. К сентябрю 2004 г. к 2004 г. насчитывалось более 100 000 записей о взаимодействиях (в том числе 58 266 белок-белок, 4225 генетических, 874 белок-малая молекула, 25 857 белок-ДНК, и 19 348 биополимерных взаимодействий). База данных также содержит информацию о последовательностях 31 972 белков, 4560 образцов ДНК и 759 образцов РНК. Эти записи были собраны из 11 649 публикаций; Следовательно, база данных представляет собой важное объединение данных. Организмы с записями в базе данных включают: Saccharomyces cerevisiae, Drosophila melanogaster, Homo sapiens, Mus musculus, Caenorhabditis elegans, Helicobacter pylori, Bos taurus, ВИЧ-1, Gallus gallus, Arabidopsis thaliana, а также другие. Всего 901 таксоны были включены к сентябрю 2004 г., и BIND был разделен на BIND-Metazoa, BIND-Fungi и BIND-Taxroot.[7]

Мало того, что информация, содержащаяся в базе данных, постоянно обновляется, само программное обеспечение претерпело несколько изменений. Версия 1.0 BIND была выпущена в 1999 году и на основе отзывов пользователей была изменена, чтобы включить дополнительную информацию об экспериментальных условиях, необходимых для связывания, и иерархическое описание клеточного местоположения взаимодействия. Версия 2.0 была выпущена в 2001 году и включала возможность ссылки на информацию, доступную в других базах данных.[5] Версия 3.0 (2002) расширила базу данных за счет физических / биохимических взаимодействий, чтобы также включить генетические взаимодействия.[8] Версия 3.5 (2004 г.) включала усовершенствованный пользовательский интерфейс, призванный упростить поиск информации.[7] В 2006 году BIND был включен в базу данных сети биомолекулярных объектов (BOND), где он продолжает обновляться и улучшаться.

Особые возможности

BIND была первой базой данных такого рода, содержащей информацию о биомолекулярных взаимодействиях, реакциях и путях в одной схеме. Это также первая основа онтология по химии, которая позволяет трехмерное представление молекулярных взаимодействий. Базовая химия позволяет описывать молекулярные взаимодействия вплоть до атомарного уровня разрешения.[7]

PreBIND - ассоциированная система интеллектуального анализа данных для поиска информации о биомолекулярном взаимодействии в научной литературе. Имя или инвентарный номер белка, и PreBIND просканирует литературу и вернет список потенциально взаимодействующих белков. СВЯЗЫВАТЬ ВЗРЫВ также доступен для поиска взаимодействий с белками, аналогичных тому, который указан в запросе.[7]

BIND предлагает несколько «функций», которые не включены во многие другие протеомные базы данных. Авторы этой программы создали расширение традиционного ИЮПАК номенклатура, чтобы помочь описать посттрансляционные модификации которые происходят с аминокислотами. Эти модификации включают: ацетилирование, формилирование, метилирование, пальмитоилирование и т.д. расширение традиционных кодов ИЮПАК позволяет также представлять эти аминокислоты в форме последовательности. BIND также использует уникальный инструмент визуализации, известный как ОнтоГлифы. ОнтоГлифы были разработаны на основе Генная онтология (GO) и предоставьте обратную ссылку на исходную информацию GO. Ряд терминов GO сгруппированы в категории, каждая из которых представляет определенную функцию, специфичность связывания или локализацию в клетке. Всего в OntoGlyph 83 символа. Существует 34 функциональных онто-глифа, которые содержат информацию о роли молекулы (например, физиология клетки, перенос ионов, передача сигналов). Существует 25 связывающих онто-глифов, которые описывают, что связывает молекула (например, лиганды, ДНК, ионы). Остальные 24 OntoGlyph предоставляют информацию о расположении молекулы внутри клетки (например, ядре, цитоскелете). OntoGlyphs можно выбирать и управлять ими для включения или исключения определенных характеристик из результатов поиска. Визуальная природа OntoGlyphs также облегчает распознавание образов при просмотре результатов поиска.[7] ProteoGlyphs являются графическими представлениями структурных и связывающих свойств белков на уровне консервативных доменов. Белок изображен в виде прямой горизонтальной линии, и для обозначения консервативных доменов вставлены глифы. Каждый глиф отображается для представления относительного положения и длины его выравнивания в последовательности белка.

Доступ к базе данных

Рисунок 1: Снимок экрана с результатами последовательности, полученными с помощью BOND

Пользовательский интерфейс базы данных является веб-интерфейсом и может быть запрошен с использованием текста или номеров доступа / идентификаторов. После интеграции с другими компонентами BOND в результаты были добавлены последовательности для взаимодействий, молекулярных комплексов и путей. Записи включают информацию о: BIND ID, описании взаимодействия / комплекса / пути, публикациях, записях об обновлениях, организме, OntoGlyphs, ProteoGlyphs, а также ссылки на другие базы данных, где можно найти дополнительную информацию. Записи BIND включают различные форматы просмотра (например, HTML, ASN.1, XML, ФАСТА ), различные форматы для экспорта результатов (например, ASN.1, XML, Список GI, PDF ) и визуализации (например, Cytoscape ). Точные параметры просмотра и экспорта зависят от того, какой тип данных был получен.

Статистика пользователей

С момента интеграции BIND количество зарегистрированных владельцев регистрации увеличилось в 10 раз. По состоянию на декабрь 2006 года количество зарегистрированных участников упало до 10 000 человек. Подписчики коммерческих версий BOND делятся на шесть основных категорий; сельское хозяйство и еда, биотехнология, фармацевтические препараты, информатика, материалы и другие. Сектор биотехнологий - самая большая из этих групп, на нее приходится 28% подписок. Далее следуют фармацевтика и информатика с 22% и 18% соответственно. В Соединенные Штаты принадлежит большая часть этих подписок, 69%. Другие страны с доступом к коммерческим версиям BOND включают: Канада, то объединенное Королевство, Япония, Китай, Корея, Германия, Франция, Индия и Австралия. Доля пользователей во всех этих странах составляет менее 6%.[2]

Рекомендации

  1. ^ Blueprint.org
  2. ^ а б BOND в Unleashed Informatics В архиве 14 марта 2007 г. Wayback Machine
  3. ^ Снайдер, К., и другие.. Аннотации сайтов связывания малых молекул на основе доменов. BMC Биоинформатика 7: 152 (2006)
  4. ^ BIND на сайте genomecanada.ca
  5. ^ а б c Бадер Г.Д., и другие. BIND - База данных сети биомолекулярного взаимодействия. Исследования нуклеиновых кислот 29: 242-245 (2001).
  6. ^ Бадер, GD, Hogue, CWV. BIND - спецификация данных для хранения и описания биомолекулярных взаимодействий, молекулярных комплексов и путей. Биоинформатика 16(5): 465-477 (2000).
  7. ^ а б c d е ж Альфарано, C, и другие. Обновление базы данных сети биомолекулярного взаимодействия и связанных инструментов 2005 года. Исследования нуклеиновых кислот 33: D418-D424 (2005).
  8. ^ Бадер Г.Д., и другие.. BIND: база данных сети биомолекулярного взаимодействия. Исследования нуклеиновых кислот 31: 248-250 (2003).