Матрицы расстояний в филогении - Distance matrices in phylogeny
Матрицы расстояний используются в филогении как непараметрический дистанционные методы и первоначально применялись для фенетический данные с использованием матрицы попарных расстояний. Затем эти расстояния согласовываются для получения дерева ( филограмма, с информативными длинами ветвей). В матрица расстояний может поступать из разных источников, включая измеренное расстояние (например, от иммунологические исследования ) или морфометрический анализ, различные формулы попарных расстояний (например, Евклидово расстояние ) применяется к дискретным морфологическим признакам, или генетическая дистанция из последовательности, рестрикционный фрагмент, или аллозим данные. Для данных филогенетических знаков необработанные значения расстояния могут быть рассчитаны путем простого подсчета количества попарных различий в состояниях знаков (Расстояние Хэмминга ).
Методы матрицы расстояний
Матричные методы филогенетического анализа явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и поэтому они требуют MSA (множественное выравнивание последовательностей) в качестве входных данных. Расстояние часто определяется как доля несовпадений в выровненных позициях, при этом промежутки либо игнорируются, либо считаются несоответствиями.[1] Методы расстояния пытаются построить комплексную матрицу из набора запросов последовательности, описывающего расстояние между каждой парой последовательностей. На основе этого строится филогенетическое дерево, которое помещает близкородственные последовательности под одним и тем же внутренний узел и чьи длины ветвей точно воспроизводят наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их вычисления. Они часто используются в качестве основы для прогрессивных и итеративных типов множественное выравнивание последовательностей. Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных областях с высокой вариабельностью, которые появляются в нескольких поддеревьях.[2]
Соседство
Общие методы объединения соседей применяются кластеризация данных методы анализа последовательности с использованием генетического расстояния в качестве метрики кластеризации. Простой присоединение к соседу метод производит неукорененные деревья, но не предполагает постоянной скорости эволюции (т.е. молекулярные часы ) через родословные.
UPGMA и WPGMA
В UPGMA (Невзвешенный метод парных групп со средним арифметическим) и WPGMA (Метод взвешенных парных групп со средним арифметическим) методы производят корневые деревья и требуют предположения о постоянной скорости, т. е. ультраметрический дерево, в котором расстояния от корня до всех концов веток равны.
Метод Фитча – Марголиаша
В методе Фитча – Марголиаша используется взвешенный наименьших квадратов метод кластеризации на основе генетической дистанции.[3] Тесно связанным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между удаленно связанными последовательностями. На практике поправка на расстояние необходима только в том случае, если скорость развития разных ветвей различается.[2] Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы для предотвращения больших артефактов при вычислении отношений между тесно связанными и удаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейный; критерий линейности расстояний требует, чтобы ожидаемые значения длины ветвей для двух отдельных ветвей должны равняться ожидаемому значению суммы двух расстояний ветвей - свойство, которое применяется к биологическим последовательностям, только если они были скорректированы с учетом возможности обратные мутации на отдельных участках. Это исправление выполняется с помощью матрица замещения например, полученный из Модель Джукса – Кантора эволюции ДНК.
Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы объединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, которые возникают из многих тесно связанных последовательностей в наборе данных, также может применяться с увеличенными вычислительными затратами. Нахождение оптимального дерева наименьших квадратов с любым поправочным коэффициентом НП-полный,[4] так эвристический Методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в пространстве дерева.
Использование внешних групп
Независимая информация о взаимосвязи между последовательностями или группами может использоваться для сокращения пространства поиска в дереве и корневых некорневых деревьев. Стандартное использование методов дистанционной матрицы предполагает включение как минимум одного аутгруппа Известно, что последовательность только отдаленно связана с интересующими последовательностями в наборе запроса.[1] Это использование можно рассматривать как тип экспериментальный контроль. Если внешняя группа была выбрана надлежащим образом, у нее будет гораздо больше генетическая дистанция и, следовательно, более длинная ветвь, чем у любой другой последовательности, и она будет появляться рядом с корнем корневого дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения сводят на нет цель чужой группы, а слишком отдаленные добавляют шум к анализу.[1] Также следует проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, сильно отличается консервированный через родословную. Горизонтальный перенос генов, особенно между иначе расходящимися бактерии, также может затруднить использование внешней группы.
Слабые стороны разных методов
В общем, данные о попарных расстояниях являются заниженной оценкой пути-расстояния между таксонами на филограмма. Попарные расстояния эффективно «срезают углы» аналогично географическому расстоянию: расстояние между двумя городами может составлять 100 миль «по прямой», но путешественник может фактически быть вынужден проехать 120 миль из-за расположения дорог, местность, остановки по пути и т. д. Между парами таксонов некоторые изменения характера, произошедшие в наследственных линиях, будут необнаружимы, потому что более поздние изменения стерли свидетельства (часто называемые несколько ударов и обратные мутации в данные последовательности ). Эта проблема является общей для всех филогенетических оценок, но особенно остро она стоит для дистанционных методов, потому что для каждого вычисления расстояния используются только две выборки; другие методы выигрывают от доказательств этих скрытых изменений, обнаруженных в других таксонах, не учитываемых при попарных сравнениях. Для нуклеотид и аминокислота Данные последовательности, те же самые стохастические модели изменения нуклеотидов, которые используются в анализе максимального правдоподобия, могут быть использованы для «корректировки» расстояний, что делает анализ «полупараметрическим».
Существует несколько простых алгоритмов построения дерева непосредственно из попарных расстояний, в том числе UPGMA и присоединение соседа (Нью-Джерси), но они не обязательно будут давать лучшее дерево для данных. Чтобы противостоять потенциальным осложнениям, упомянутым выше, и найти лучшее дерево для данных, дистанционный анализ может также включать протокол поиска по дереву, который стремится удовлетворить явному критерию оптимальности. К данным о расстоянии обычно применяются два критерия оптимальности: минимальная эволюция (Я и вывод методом наименьших квадратов. Метод наименьших квадратов является частью более широкого класса основанных на регрессии методов, сгруппированных здесь для простоты. Эти формулы регрессии минимизируют остаточные различия между путями-расстояниями вдоль дерева и попарными расстояниями в матрице данных, эффективно «подгоняя» дерево к эмпирическим расстояниям. В отличие от этого, ME принимает дерево с самой короткой суммой длин ветвей и, таким образом, минимизирует общий объем предполагаемой эволюции. ME тесно связан с экономичностью, и при определенных условиях ME-анализ расстояний, основанный на дискретном наборе данных, будет отдавать предпочтение тому же дереву, что и традиционный экономичный анализ тех же данных.
Оценка филогении с использованием дистанционных методов вызвала ряд противоречий. UPGMA предполагает ультраметрический дерево (дерево, в котором все длины путей от корня до кончиков равны). Если бы скорость эволюции была одинаковой во всех отобранных линиях (a молекулярные часы ), и если дерево было полностью сбалансировано (равное количество таксонов по обе стороны от любого раскола, чтобы противостоять эффект плотности узлов ), UPGMA не должна давать предвзятого результата. Эти ожидания не оправдываются большинством наборов данных, и хотя UPGMA в некоторой степени устойчив к их нарушениям, он обычно не используется для оценки филогении. Преимущество UPGMA в том, что он быстр и может обрабатывать множество последовательностей.
Соседство это форма звездное разложение и, как эвристический Метод, как правило, является наименее ресурсоемким из этих методов. Он очень часто используется сам по себе, и на самом деле довольно часто дает хорошие деревья. Однако в нем отсутствуют какой-либо вид поиска по дереву и критерий оптимальности, поэтому нет гарантии, что восстановленное дерево лучше всего соответствует данным. Более подходящей аналитической процедурой было бы использование NJ для создания начального дерева, а затем использование поиска по дереву с использованием критерия оптимальности, чтобы гарантировать, что лучшее дерево будет восстановлено.
Многие ученые избегают дистанционных методов по разным причинам. Часто упоминаемая причина заключается в том, что расстояния по своей природе фенетический скорее, чем филогенетический, в том, что они не различают родовое сходство (симплезиоморфия ) и производное подобие (синапоморфия ). Эта критика не совсем справедлива: в большинстве современных реализаций экономичности, вероятности и байесовского филогенетического вывода используются модели символов, обратимые во времени, и поэтому производным или наследственным состояниям символов не придается никакого особого статуса. Согласно этим моделям дерево оценивается без корней; укоренение и, следовательно, определение полярности проводится после анализа. Основное различие между этими методами и расстояниями состоит в том, что методы экономии, вероятности и байесовского метода соответствуют отдельным символам в дереве, тогда как методы расстояния соответствуют всем символам сразу. В этом подходе нет ничего менее филогенетического по своей сути.[нужна цитата ]
С практической точки зрения избегают дистанционных методов, потому что связь между отдельными символами и деревом теряется в процессе сокращения символов до расстояний. Эти методы не используют символьные данные напрямую, и информация, зафиксированная в распределении состояний символов, может быть потеряна при парных сравнениях. Кроме того, некоторые сложные филогенетические отношения могут приводить к смещению расстояний. На любой филограмме длины ветвей будут недооценены, потому что некоторые изменения вообще невозможно обнаружить из-за невозможности отбора проб некоторых видов из-за экспериментального плана или исчезновения (явление, называемое эффектом плотности узлов). Однако, даже если попарные расстояния от генетических данных «скорректированы» с использованием стохастических моделей эволюции, как упомянуто выше, их легче суммировать в другое дерево, чем в результате анализа тех же данных и модели с использованием максимальная вероятность. Это потому, что попарные расстояния не независимы; каждая ветвь дерева представлена в измерениях расстояний всех таксонов, которые она разделяет. Ошибка, возникающая из-за любой характеристики этой ветви, которая может мешать филогенезу (стохастическая изменчивость, изменение эволюционных параметров, аномально длинная или короткая длина ветви), будет распространяться через все соответствующие измерения расстояний. Результирующая матрица расстояний может лучше соответствовать альтернативному (предположительно менее оптимальному) дереву.
Несмотря на эти потенциальные проблемы, дистанционные методы чрезвычайно быстры и часто дают разумную оценку филогении. У них также есть определенные преимущества по сравнению с методами, использующими символы напрямую. Примечательно, что дистанционные методы позволяют использовать данные, которые нелегко преобразовать в символьные данные, например ДНК-ДНК гибридизация анализы. Они также позволяют проводить анализ, учитывающий возможность того, что скорость, с которой определенные нуклеотиды встраиваются в последовательности, может варьироваться по дереву, используя LogDet расстояния. Для некоторых методов оценки сети (особенно NeighborNet ), абстракция информации об отдельных символах в данных о расстоянии является преимуществом. Если рассматривать конфликт между персонажем и деревом из-за ретикуляции, его нельзя отличить от конфликта из-за гомоплазии или ошибки. Однако выраженный конфликт в данных о расстоянии, который представляет собой объединение многих символов, менее вероятен из-за ошибки или гомоплазии, если данные не сильно смещены, и, таким образом, с большей вероятностью является результатом ретикуляции.
Дистанционные методы популярны среди молекулярных систематиков, многие из которых почти всегда используют NJ без стадии оптимизации. С увеличением скорости анализа на основе символов некоторые преимущества дистанционных методов, вероятно, уменьшатся. Тем не менее, почти мгновенные реализации NJ, возможность включить эволюционную модель в быстрый анализ, расстояния LogDet, методы оценки сети и случайная необходимость суммировать взаимосвязи одним числом - все это означает, что методы расстояния, вероятно, останутся в мейнстриме для еще долго.
Смотрите также
использованная литература
- ^ а б c Крепление DM. (2004). Биоинформатика: анализ последовательности и генома 2-е изд. Пресса лаборатории Колд-Спринг-Харбор: Колд-Спринг-Харбор, Нью-Йорк.
- ^ а б Фельзенштейн Дж. (2004). Вывод филогении Sinauer Associates: Сандерленд, Массачусетс.
- ^ Fitch WM; Марголиаш Э. (1967). «Построение филогенетических деревьев». Наука. 155 (3760): 279–284. Bibcode:1967Научный ... 155..279F. Дои:10.1126 / science.155.3760.279. PMID 5334057.
- ^ День, WHE (1986). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии. 49 (4): 461–7. Дои:10.1016 / с0092-8240 (87) 80007-1. PMID 3664032.