Множественные ЭМ для выявления мотивов - Википедия - Multiple EM for Motif Elicitation

Множественные мотивы экспрессии для выявления мотива (цМем) инструмент для обнаружения мотивов в группе родственных ДНК или же белок последовательности.[1]

А мотив представляет собой последовательность последовательностей, которая неоднократно встречается в группе связанных последовательностей белка или ДНК и часто связана с некоторой биологической функцией. ЦМЕМ представляет мотивы как матрицы вероятности букв, зависящие от положения которые описывают вероятность каждой возможной буквы в каждой позиции в шаблоне. Отдельные мотивы цМема не содержат пробелов. Узоры с промежутками переменной длины разделяются цМемом на два или более отдельных мотива.

MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.

ЦМем - первый из набора инструментов для анализа мотивов, называемых MEME Suite.

Определение

Алгоритм цМема можно понять с двух разных точек зрения. С биологической точки зрения цМем идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, цМем находит набор неперекрывающихся, приблизительно совпадающих подстрок для начального набора строк.

Использовать

С цМемом можно найти похожие биологические функции и структуры в разных последовательностях. Следует учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания белков очень специфичны. Это упрощает сокращение количества экспериментов в лаборатории с мокрым эффектом (снижает затраты и время). В самом деле, чтобы лучше обнаружить мотивы, актуальные с биологической точки зрения, нужно тщательно выбирать:

  • Лучшая ширина мотивов.
  • Количество вхождений в каждой последовательности.
  • Состав каждого мотива.

Компоненты алгоритма

Алгоритм использует несколько типов хорошо известных функций:

  • Максимизация ожиданий (ЭМ).
  • Эвристика на основе EM для выбора начальной точки EM.
  • Максимальная вероятность на основе коэффициента (на основе LRT). Эвристика для определения наилучшего количества безмодельных параметров.
  • Мультистарт для поиска возможной ширины мотивов.
  • Жадный поиск для поиска нескольких мотивов.

Однако часто не известно, где находится исходная позиция. Существует несколько возможностей:

  • Ровно один мотив на последовательность.
  • Один или ноль мотив на последовательность.
  • Любое количество мотивов на последовательность.

Пример

В следующем примере у вас есть матрица весов из 3 различных последовательностей без пробелов.

Последовательность 1:В Г Г Г Т А А Г Т
Последовательность 2:А А Г Г Т А Т Г С
Последовательность 3:C A G G T G A G G

Теперь подсчитывают количество нуклеотидов, содержащихся во всех последовательностях:

А:1 2 0 0 0 2 2 0 07
C:2 0 0 0 0 0 0 0 13
ГРАММ :0 1 3 3 0 1 0 3 112
Т:0 0 0 0 3 0 1 0 15

Теперь нужно подвести итог: 7 + 3 + 12 + 5 = 27; это дает нам «коэффициент деления» для каждого основания или эквивалентную вероятность каждого нуклеотида.

А:7/27 ≈ 0.26
C:3/27 ≈ 0.11
ГРАММ:12/27 ≈ 0.44
Т:5/27 ≈ 0.19

Теперь можно «повторить» весовую матрицу (WM), разделив ее на общее количество последовательностей (в нашем случае 3):

А:0.330.660.000.000.000.660.660.000.00
C:0.660.000.000.000.000.000.000.000.33
ГРАММ :0.000.331.001.000.000.330.001.000.33
Т:0.000.000.000.001.000.000.330.000.33

Затем делятся записи WM на позиции с вероятностью основания .

А:1.292.570.000.000.002.572.570.000.00
C:6.000.000.000.000.000.000.000.003.00
ГРАММ :0.000.752.252.250.000.750.002.250.75
Т:0.000.000.000.005.400.001.800.001.80

В общем, теперь можно было бы умножить вероятности. В нашем случае на каждого будет ноль. В связи с этим определим и возьмите (с основанием 10) логарифм:

А:0.110.41−10−10−100.410.41−10−10
C:0.78−10−10−10−10−10−10−100.48
ГРАММ :−10−0.120.350.35−10−0.12−100.35−0.12
Т:−10−10−10−100.73−100.26−100.26

Это наша новая матрица весов (WM). Можно использовать пример промоторной последовательности для определения ее оценки. Для этого нужно сложить числа, найденные в позиции логарифмического WM. Например, если взять промоутер AGGCTGATC:

0.11 − 0.12 + 0.35 − 10 + 0.73 − 0.12 + 0.41 − 10 + 0.48 = −18.17

Затем полученный результат делится на количество записей (в нашем случае 9), что дает -2,02 балла.

Недостатки

Алгоритмы цМема имеют несколько недостатков, в том числе:

  • Не учитываются пробелы / замены / вставки.[нужна цитата ]
  • Возможность проверки значимости часто не включается.[нужна цитата ]
  • Стираются входные данные каждый раз, когда обнаруживается новый мотив (алгоритм предполагает, что новый мотив правильный).[нужна цитата ]
  • Ограничение двухкомпонентным корпусом.[нужна цитата ]
  • Сложность времени высока, масштабирование O (n ^ 2).[нужна цитата ] Более быстрая реализация MEME, известная как EXTREME, использует онлайн-алгоритм EM, чтобы значительно ускорить обнаружение мотивов.[2]
  • Очень пессимистично настроен относительно выравнивания (что может привести к пропущенным сигналам).[нужна цитата ]

Смотрите также

Рекомендации

  1. ^ Бейли Т.Л., Уильямс Н., Мисле С., Ли В.В. (2006). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей». Нуклеиновые кислоты Res. 34 (Выпуск веб-сервера): W369–373. Дои:10.1093 / нар / gkl198. ЧВК  1538909. PMID  16845028.
  2. ^ Куанг, Даниэль; Се, Сяохуэй (февраль 2014 г.). «EXTREME: онлайн-алгоритм EM для обнаружения мотивов». Биоинформатика. 30 (12): 1667–1673. Дои:10.1093 / биоинформатика / btu093. ЧВК  4058924. PMID  24532725. Получено 19 августа 2014.

внешняя ссылка