Множественные ЭМ для выявления мотивов - Википедия - Multiple EM for Motif Elicitation
Эта статья может требовать уборка встретиться с Википедией стандарты качества.Октябрь 2009 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Множественные мотивы экспрессии для выявления мотива (цМем) инструмент для обнаружения мотивов в группе родственных ДНК или же белок последовательности.[1]
А мотив представляет собой последовательность последовательностей, которая неоднократно встречается в группе связанных последовательностей белка или ДНК и часто связана с некоторой биологической функцией. ЦМЕМ представляет мотивы как матрицы вероятности букв, зависящие от положения которые описывают вероятность каждой возможной буквы в каждой позиции в шаблоне. Отдельные мотивы цМема не содержат пробелов. Узоры с промежутками переменной длины разделяются цМемом на два или более отдельных мотива.
MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.
ЦМем - первый из набора инструментов для анализа мотивов, называемых MEME Suite.
Определение
Алгоритм цМема можно понять с двух разных точек зрения. С биологической точки зрения цМем идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, цМем находит набор неперекрывающихся, приблизительно совпадающих подстрок для начального набора строк.
Использовать
С цМемом можно найти похожие биологические функции и структуры в разных последовательностях. Следует учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания белков очень специфичны. Это упрощает сокращение количества экспериментов в лаборатории с мокрым эффектом (снижает затраты и время). В самом деле, чтобы лучше обнаружить мотивы, актуальные с биологической точки зрения, нужно тщательно выбирать:
- Лучшая ширина мотивов.
- Количество вхождений в каждой последовательности.
- Состав каждого мотива.
Компоненты алгоритма
Алгоритм использует несколько типов хорошо известных функций:
- Максимизация ожиданий (ЭМ).
- Эвристика на основе EM для выбора начальной точки EM.
- Максимальная вероятность на основе коэффициента (на основе LRT). Эвристика для определения наилучшего количества безмодельных параметров.
- Мультистарт для поиска возможной ширины мотивов.
- Жадный поиск для поиска нескольких мотивов.
Однако часто не известно, где находится исходная позиция. Существует несколько возможностей:
- Ровно один мотив на последовательность.
- Один или ноль мотив на последовательность.
- Любое количество мотивов на последовательность.
Пример
В следующем примере у вас есть матрица весов из 3 различных последовательностей без пробелов.
Последовательность 1: | В Г Г Г Т А А Г Т |
---|---|
Последовательность 2: | А А Г Г Т А Т Г С |
Последовательность 3: | C A G G T G A G G |
Теперь подсчитывают количество нуклеотидов, содержащихся во всех последовательностях:
А: | 1 2 0 0 0 2 2 0 0 | 7 |
---|---|---|
C: | 2 0 0 0 0 0 0 0 1 | 3 |
ГРАММ : | 0 1 3 3 0 1 0 3 1 | 12 |
Т: | 0 0 0 0 3 0 1 0 1 | 5 |
Теперь нужно подвести итог: 7 + 3 + 12 + 5 = 27; это дает нам «коэффициент деления» для каждого основания или эквивалентную вероятность каждого нуклеотида.
А: | 7/27 ≈ 0.26 |
C: | 3/27 ≈ 0.11 |
ГРАММ: | 12/27 ≈ 0.44 |
Т: | 5/27 ≈ 0.19 |
Теперь можно «повторить» весовую матрицу (WM), разделив ее на общее количество последовательностей (в нашем случае 3):
А: | 0.33 | 0.66 | 0.00 | 0.00 | 0.00 | 0.66 | 0.66 | 0.00 | 0.00 |
---|---|---|---|---|---|---|---|---|---|
C: | 0.66 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.33 |
ГРАММ : | 0.00 | 0.33 | 1.00 | 1.00 | 0.00 | 0.33 | 0.00 | 1.00 | 0.33 |
Т: | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.33 | 0.00 | 0.33 |
Затем делятся записи WM на позиции с вероятностью основания .
А: | 1.29 | 2.57 | 0.00 | 0.00 | 0.00 | 2.57 | 2.57 | 0.00 | 0.00 |
---|---|---|---|---|---|---|---|---|---|
C: | 6.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 3.00 |
ГРАММ : | 0.00 | 0.75 | 2.25 | 2.25 | 0.00 | 0.75 | 0.00 | 2.25 | 0.75 |
Т: | 0.00 | 0.00 | 0.00 | 0.00 | 5.40 | 0.00 | 1.80 | 0.00 | 1.80 |
В общем, теперь можно было бы умножить вероятности. В нашем случае на каждого будет ноль. В связи с этим определим и возьмите (с основанием 10) логарифм:
А: | 0.11 | 0.41 | −10 | −10 | −10 | 0.41 | 0.41 | −10 | −10 |
---|---|---|---|---|---|---|---|---|---|
C: | 0.78 | −10 | −10 | −10 | −10 | −10 | −10 | −10 | 0.48 |
ГРАММ : | −10 | −0.12 | 0.35 | 0.35 | −10 | −0.12 | −10 | 0.35 | −0.12 |
Т: | −10 | −10 | −10 | −10 | 0.73 | −10 | 0.26 | −10 | 0.26 |
Это наша новая матрица весов (WM). Можно использовать пример промоторной последовательности для определения ее оценки. Для этого нужно сложить числа, найденные в позиции логарифмического WM. Например, если взять промоутер AGGCTGATC:
- 0.11 − 0.12 + 0.35 − 10 + 0.73 − 0.12 + 0.41 − 10 + 0.48 = −18.17
Затем полученный результат делится на количество записей (в нашем случае 9), что дает -2,02 балла.
Недостатки
Алгоритмы цМема имеют несколько недостатков, в том числе:
- Не учитываются пробелы / замены / вставки.[нужна цитата ]
- Возможность проверки значимости часто не включается.[нужна цитата ]
- Стираются входные данные каждый раз, когда обнаруживается новый мотив (алгоритм предполагает, что новый мотив правильный).[нужна цитата ]
- Ограничение двухкомпонентным корпусом.[нужна цитата ]
- Сложность времени высока, масштабирование O (n ^ 2).[нужна цитата ] Более быстрая реализация MEME, известная как EXTREME, использует онлайн-алгоритм EM, чтобы значительно ускорить обнаружение мотивов.[2]
- Очень пессимистично настроен относительно выравнивания (что может привести к пропущенным сигналам).[нужна цитата ]
Смотрите также
Рекомендации
- ^ Бейли Т.Л., Уильямс Н., Мисле С., Ли В.В. (2006). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей». Нуклеиновые кислоты Res. 34 (Выпуск веб-сервера): W369–373. Дои:10.1093 / нар / gkl198. ЧВК 1538909. PMID 16845028.
- ^ Куанг, Даниэль; Се, Сяохуэй (февраль 2014 г.). «EXTREME: онлайн-алгоритм EM для обнаружения мотивов». Биоинформатика. 30 (12): 1667–1673. Дои:10.1093 / биоинформатика / btu093. ЧВК 4058924. PMID 24532725. Получено 19 августа 2014.
внешняя ссылка
- MEME Suite - Инструменты анализа последовательности на основе мотивов
- Версия MEME с ускорением на GPU
- ЭКСТРЕМАЛЬНЫЙ - Онлайн-EM-реализация модели MEME для быстрого обнаружения мотивов в больших данных отпечатков ChIP-Seq и DNase-Seq