Множественные ЭМ для выявления мотивов - Википедия - Multiple EM for Motif Elicitation

Множественные мотивы экспрессии для выявления мотива (цМем) инструмент для обнаружения мотивов в группе родственных ДНК или же белок последовательности.^[1]

А мотив представляет собой последовательность последовательностей, которая неоднократно встречается в группе связанных последовательностей белка или ДНК и часто связана с некоторой биологической функцией. ЦМЕМ представляет мотивы как матрицы вероятности букв, зависящие от положения которые описывают вероятность каждой возможной буквы в каждой позиции в шаблоне. Отдельные мотивы цМема не содержат пробелов. Узоры с промежутками переменной длины разделяются цМемом на два или более отдельных мотива.

MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.

ЦМем - первый из набора инструментов для анализа мотивов, называемых MEME Suite.

Определение

Алгоритм цМема можно понять с двух разных точек зрения. С биологической точки зрения цМем идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, цМем находит набор неперекрывающихся, приблизительно совпадающих подстрок для начального набора строк.

Использовать

С цМемом можно найти похожие биологические функции и структуры в разных последовательностях. Следует учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания белков очень специфичны. Это упрощает сокращение количества экспериментов в лаборатории с мокрым эффектом (снижает затраты и время). В самом деле, чтобы лучше обнаружить мотивы, актуальные с биологической точки зрения, нужно тщательно выбирать:

Лучшая ширина мотивов.
Количество вхождений в каждой последовательности.
Состав каждого мотива.

Компоненты алгоритма

Алгоритм использует несколько типов хорошо известных функций:

Максимизация ожиданий (ЭМ).
Эвристика на основе EM для выбора начальной точки EM.
Максимальная вероятность на основе коэффициента (на основе LRT). Эвристика для определения наилучшего количества безмодельных параметров.
Мультистарт для поиска возможной ширины мотивов.
Жадный поиск для поиска нескольких мотивов.

Однако часто не известно, где находится исходная позиция. Существует несколько возможностей:

Ровно один мотив на последовательность.
Один или ноль мотив на последовательность.
Любое количество мотивов на последовательность.

Пример

В следующем примере у вас есть матрица весов из 3 различных последовательностей без пробелов.

Последовательность 1:	В Г Г Г Т А А Г Т
Последовательность 2:	А А Г Г Т А Т Г С
Последовательность 3:	C A G G T G A G G

Теперь подсчитывают количество нуклеотидов, содержащихся во всех последовательностях:

А:	1 2 0 0 0 2 2 0 0	7
C:	2 0 0 0 0 0 0 0 1	3
ГРАММ :	0 1 3 3 0 1 0 3 1	12
Т:	0 0 0 0 3 0 1 0 1	5

Теперь нужно подвести итог: 7 + 3 + 12 + 5 = 27; это дает нам «коэффициент деления» для каждого основания или эквивалентную вероятность каждого нуклеотида.

А:	7/27 ≈ 0.26
C:	3/27 ≈ 0.11
ГРАММ:	12/27 ≈ 0.44
Т:	5/27 ≈ 0.19

Теперь можно «повторить» весовую матрицу (WM), разделив ее на общее количество последовательностей (в нашем случае 3):

А:	0.33	0.66	0.00	0.00	0.00	0.66	0.66	0.00	0.00
C:	0.66	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.33
ГРАММ :	0.00	0.33	1.00	1.00	0.00	0.33	0.00	1.00	0.33
Т:	0.00	0.00	0.00	0.00	1.00	0.00	0.33	0.00	0.33

Затем делятся записи WM на позиции ${ displaystyle x_ {i}}$ с вероятностью основания ${ displaystyle x}$ .

А:	1.29	2.57	0.00	0.00	0.00	2.57	2.57	0.00	0.00
C:	6.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	3.00
ГРАММ :	0.00	0.75	2.25	2.25	0.00	0.75	0.00	2.25	0.75
Т:	0.00	0.00	0.00	0.00	5.40	0.00	1.80	0.00	1.80

В общем, теперь можно было бы умножить вероятности. В нашем случае на каждого будет ноль. В связи с этим определим ${ displaystyle log _ {10} 0: = - 10}$ и возьмите (с основанием 10) логарифм:

А:	0.11	0.41	−10	−10	−10	0.41	0.41	−10	−10
C:	0.78	−10	−10	−10	−10	−10	−10	−10	0.48
ГРАММ :	−10	−0.12	0.35	0.35	−10	−0.12	−10	0.35	−0.12
Т:	−10	−10	−10	−10	0.73	−10	0.26	−10	0.26

Это наша новая матрица весов (WM). Можно использовать пример промоторной последовательности для определения ее оценки. Для этого нужно сложить числа, найденные в позиции ${ displaystyle x_ {i}}$ логарифмического WM. Например, если взять промоутер AGGCTGATC:

0.11 − 0.12 + 0.35 − 10 + 0.73 − 0.12 + 0.41 − 10 + 0.48 = −18.17

Затем полученный результат делится на количество записей (в нашем случае 9), что дает -2,02 балла.

Недостатки

Алгоритмы цМема имеют несколько недостатков, в том числе:

Не учитываются пробелы / замены / вставки.^{[нужна цитата ]}
Возможность проверки значимости часто не включается.^{[нужна цитата ]}
Стираются входные данные каждый раз, когда обнаруживается новый мотив (алгоритм предполагает, что новый мотив правильный).^{[нужна цитата ]}
Ограничение двухкомпонентным корпусом.^{[нужна цитата ]}
Сложность времени высока, масштабирование O (n ^ 2).^{[нужна цитата ]} Более быстрая реализация MEME, известная как EXTREME, использует онлайн-алгоритм EM, чтобы значительно ускорить обнаружение мотивов.^[2]
Очень пессимистично настроен относительно выравнивания (что может привести к пропущенным сигналам).^{[нужна цитата ]}

Смотрите также

внешняя ссылка

MEME Suite - Инструменты анализа последовательности на основе мотивов
Версия MEME с ускорением на GPU
ЭКСТРЕМАЛЬНЫЙ - Онлайн-EM-реализация модели MEME для быстрого обнаружения мотивов в больших данных отпечатков ChIP-Seq и DNase-Seq

[Bailey2006-1] Бейли Т.Л., Уильямс Н., Мисле С., Ли В.В. (2006). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей». Нуклеиновые кислоты Res. 34 (Выпуск веб-сервера): W369–373. Дои:10.1093 / нар / gkl198. ЧВК 1538909. PMID 16845028.

[2] Куанг, Даниэль; Се, Сяохуэй (февраль 2014 г.). «EXTREME: онлайн-алгоритм EM для обнаружения мотивов». Биоинформатика. 30 (12): 1667–1673. Дои:10.1093 / биоинформатика / btu093. ЧВК 4058924. PMID 24532725. Получено 19 августа 2014.

[1]

[2]