Интегративная биоинформатика - Integrative bioinformatics

Интегративная биоинформатика это дисциплина биоинформатика который фокусируется на проблемах интеграция данных для Науки о жизни.

С ростом высокая пропускная способность (ПВТ) технологии в науках о жизни, особенно в молекулярная биология, количество собранных данные росла в геометрической прогрессии. Кроме того, данные разбросаны по множеству государственных и частных репозитории, и хранятся с использованием большого количества различных форматы. Эта ситуация затрудняет поиск этих данных и выполнение анализа, необходимого для извлечения новых знаний из полного набора имеющихся данных. Интегративная биоинформатика пытается решить эту проблему, обеспечивая единый доступ к данным науки о жизни.

Подходы

Семантические веб-подходы

в Семантическая сеть подход, данные с нескольких веб-сайтов или баз данных ищутся через метаданные. Метаданные машиночитаемый код, который определяет содержимое страницы для программы, чтобы сравнение данных и условий поиска было более точным. Это помогает уменьшить количество нерелевантных или бесполезных результатов. Некоторые метаданные существуют в виде определений, называемых онтологии, которые могут быть помечены как пользователями, так и программами; они служат для облегчения поиска за счет использования ключевых терминов или фраз для поиска и возврата данных.[1] Преимущества этого подхода включают в себя общее повышенное качество данных, возвращаемых при поиске, и при правильной маркировке онтологий находят записи, которые могут не указывать явно поисковый термин, но все же актуальны. Одним из недостатков этого подхода является то, что возвращаемые результаты приходят в формате базы данных их происхождения, и поэтому прямые сравнения могут быть трудными. Другая проблема заключается в том, что термины, используемые в тегах и поиске, иногда могут быть двусмысленными и могут вызвать путаницу в результатах.[2] Кроме того, подход семантической паутины все еще считается новой технологией и в настоящее время не широко используется.[3]

Одним из текущих приложений поиска на основе онтологий в биомедицинских науках является GoPubMed, который ищет PubMed база данных научной литературы.[1] Другое использование онтологий - в базах данных, таких как SwissProt, Ансамбль и TrEMBL, которые используют эту технологию для поиска в хранилищах данных, связанных с протеомами человека, тегов, связанных с поисковым запросом.[4]

Некоторые исследования в этой области были сосредоточены на создании новых специфических онтологий.[5] Другие исследователи работали над проверкой результатов существующих онтологий.[2] В конкретном примере цель Verschelde, et al. была интеграция нескольких различных онтологических библиотек в более крупную библиотеку, которая содержала больше определений различных узкоспециализированных областей (медицинских, молекулярно-биологических и т. д.) и могла различать неоднозначные теги; В результате получился эффект, подобный хранилищу данных, с легким доступом к нескольким базам данных с помощью онтологий.[4] В отдельном проекте Бертенс и др. построил решетчатую работу трех онтологий (для анатомии и разработки модельных организмов) на новой онтологии каркаса общих органов. Например, результаты поиска «сердца» в этой онтологии вернут планы сердца для каждого из видов позвоночных, онтологии которых были включены. Заявленная цель проекта - способствовать сравнительным и эволюционным исследованиям.[6]

Подходы к хранилищу данных

в хранилище данных стратегии данные из разных источников извлекаются и объединяются в единую базу данных. Например, различные 'омикс' наборы данных могут быть интегрированы для обеспечения биологического понимания биологических систем. Примеры включают данные из геномики, транскриптомики, протеомики, интерактомики, метаболомики. В идеале изменения в этих источниках регулярно синхронизируются с интегрированной базой данных. Данные предоставляются пользователям в едином формате. Многие программы, направленные на создание таких складов, разработаны так, чтобы быть чрезвычайно универсальными, чтобы их можно было реализовать в различных исследовательских проектах.[7] Одним из преимуществ этого подхода является то, что данные доступны для анализа на одном сайте с использованием единой схемы. Некоторые недостатки заключаются в том, что наборы данных часто огромны, и их сложно поддерживать в актуальном состоянии. Еще одна проблема с этим методом состоит в том, что создание такого склада обходится дорого.[8]

Стандартизированные форматы для различных типов данных (например, данных о белках) в настоящее время появляются из-за влияния таких групп, как Инициатива по стандартам протеомики (PSI). Некоторые проекты хранилищ данных даже требуют представления данных в одном из этих новых форматов.[9]

Другие подходы

Сбор данных использует статистические методы для поиска закономерностей в существующих данных. Этот метод обычно возвращает множество шаблонов, некоторые из которых являются ложными, а некоторые значимыми, но все шаблоны, которые обнаруживает программа, должны оцениваться индивидуально. В настоящее время некоторые исследования сосредоточены на объединении существующих методов интеллектуального анализа данных с новыми методами анализа шаблонов, которые сокращают необходимость тратить время на просмотр каждого шаблона, обнаруженного первоначальной программой, но вместо этого возвращают несколько результатов с высокой вероятностью релевантности.[10] Одним из недостатков этого подхода является то, что он не интегрирует несколько баз данных, а это означает, что сравнение между базами данных невозможно. Основное преимущество этого подхода состоит в том, что он позволяет генерировать новые гипотезы для проверки.

Смотрите также

Рекомендации

  1. ^ а б Doms, A .; Шредер, М. (2005). «GoPubMed: изучение PubMed с помощью генной онтологии» (PDF). Исследования нуклеиновых кислот. 33 (Проблема с веб-сервером): W783–6. Дои:10.1093 / нар / gki470. ЧВК  1160231. PMID  15980585. Получено 28 сентября 2012.
  2. ^ а б Ван Офуизен, Э.А.А. И Leunissen, J.A.M. (2010). «Оценка эффективности трех источников семантических фоновых знаний в сравнительной анатомии». Журнал интегративной биоинформатики. Проверено 28 октября 2012 года.
  3. ^ Руттенберг и др. (2007). «Продвижение трансляционных исследований с помощью семантической сети». BMC Bioinformatics. Проверено 28 сентября 2012 г.
  4. ^ а б Verschelde, et al. (2007). "Интеграция с базами данных с помощью онтологий для поддержки Обработка естественного языка and Biomedical Data-Mining. "Journal of Integrative Bioinformatics. Проверено 28 октября 2012 года.
  5. ^ Кастильо и др. (2012). «Построение сетей транскриптомов кофе на основе семантики аннотаций генов». Журнал интегративной биоинформатики. Проверено 29 октября 2012 года.
  6. ^ Бертенс и др. (2011). «Общий орган, основанный на системе онтологии, применяемой к анатомии, развитию и физиологии сердца позвоночных». Журнал интегративной биоинформатики. Проверено 30 октября 2012 года.
  7. ^ Шах и др. (2005). «Атлас - хранилище данных для интегративной биоинформатики». BMC Bioinformatics. Проверено 30 сентября 2012 года.
  8. ^ Kuenne и др. (2007). «Использование технологии хранилищ данных в биоинформатике сельскохозяйственных культур». Журнал интегративной биоинформатики. Проверено 30 сентября 2012 года.
  9. ^ Тиле и др. (2010). «Стратегии биоинформатики в науках о жизни: от обработки и хранения данных до извлечения биологических знаний». Журнал интегративной биоинформатики. Проверено 29 октября 2012 года.
  10. ^ Belmamoune и др. (2010). «Добыча и анализ пространственно-временных паттернов экспрессии генов в интегрированной базе данных». Журнал интегративной биоинформатики. Проверено 27 октября 2012 года.

внешняя ссылка