Вывод траектории - Trajectory inference

Вывод траектории, реализованный в Slingshot для (а) смоделированного двухмерного набора данных и (б) а одноклеточная РНК-seq набор данных обонятельный эпителий.

Вывод траектории или же псевдовременное упорядочение вычислительный метод, используемый в одноклеточная транскриптомика для определения модели динамического процесса, переживаемого клетками, а затем упорядочить клетки в зависимости от их продвижения в процессе. Одноячеечные протоколы имеют гораздо более высокий уровень шума, чем массовые РНК-последовательность,[1] поэтому обычным шагом в рабочем процессе одноклеточной транскриптомики является кластеризация ячеек на подгруппы.[2] Кластеризация может бороться с этим присущим изменением, комбинируя сигнал от многих ячеек, позволяя при этом идентифицировать типы ячеек.[3] Однако есть некоторые отличия в экспрессия гена между ячейками являются результатом динамических процессов, таких как клеточный цикл, дифференциация клеток, или ответ на внешние раздражители. Вывод о траектории направлен на то, чтобы охарактеризовать такие различия, размещая клетки вдоль непрерывного пути, который представляет эволюцию процесса, а не разделяя клетки на дискретные кластеры.[4] В некоторых методах это делается путем проецирования ячеек на ось, называемую псевдовремени, которая представляет прогрессию в процессе.[5]

Методы

С 2015 года создано более 50 алгоритмов вывода траектории.[6] Несмотря на то, что используемые подходы разнообразны, методы имеют некоторые общие черты. Обычно этапы алгоритма состоят из уменьшение размерности для уменьшения сложности данных построение траектории для определения структуры динамического процесса и проекция данных на траекторию таким образом, чтобы ячейки располагались в соответствии с их эволюцией в процессе, а ячейки с аналогичными профилями экспрессии располагались рядом друг с другом.[6] Алгоритмы вывода траектории различаются конкретной процедурой, используемой для уменьшения размерности, видами структур, которые могут использоваться для представления динамического процесса, и предварительной информацией, которая требуется или может быть предоставлена.[7]

СПС многомерное распределение Гаусса. Показанные векторы - это первая (более длинный вектор) и вторая главные компоненты, которые указывают направления максимальной дисперсии.

Уменьшение размерности

Данные, полученные с помощью одноклеточной RNA-seq, могут состоять из тысяч клеток, каждая с уровнями экспрессии, записанными в тысячах генов.[8] Чтобы эффективно обрабатывать данные с такой высокой размерностью, многие алгоритмы вывода траектории используют процедуру уменьшения размерности, такую ​​как анализ главных компонент (PCA), независимый компонентный анализ (ICA), или же t-SNE как их первый шаг.[9] Цель этого шага - объединить многие характеристики данных в более информативную меру данных.[4] Например, координата, полученная в результате уменьшения размерности, может объединять уровни экспрессии многих генов, связанных с клеточным циклом, в одно значение, которое представляет положение клетки в клеточном цикле.[9] Такое преобразование соответствует уменьшению размерности в пространстве признаков, но уменьшение размерности также может применяться к пространству выборки путем кластеризации групп похожих ячеек.[1]

Построение траектории

Граф с шестью вершинами. Многие алгоритмы вывода траектории используют графы для построения траектории.

Многие методы представляют структуру динамического процесса через график основанный на подходе. При таком подходе вершины графика соответствуют состояниям в динамическом процессе, таким как типы клеток в дифференцировке клеток, а края между узлами соответствуют переходам между состояниями.[6] Построение графика траектории можно выполнить с помощью k-ближайшие соседи или же алгоритмы минимального остовного дерева.[10] Топология траектории относится к структуре графа, и различные алгоритмы ограничиваются созданием топологий графа определенного типа, таких как линейный, разветвление, или же циклический.[4]

Использование предыдущей информации

Некоторые методы требуют или позволяют вводить предварительную информацию, которая используется для управления построением траектории. Использование априорной информации может привести к более точному определению траектории, но плохие априорные значения могут сбить алгоритм или привести к смещению результатов в сторону ожиданий.[6] Примерами априорной информации, которая может быть использована при выводе траектории, являются выбор начальных ячеек, которые находятся в начале траектории, количество ветвей на траектории и количество конечных состояний траектории.[11]

Программного обеспечения

Монокль

Monocle сначала использует тест дифференциальной экспрессии, чтобы уменьшить количество генов, а затем применяет независимый компонентный анализ для дополнительного уменьшения размерности. Для построения траектории Monocle вычисляет минимальное остовное дерево, затем находит самый длинный связанный путь в том дереве. Клетки проецируются на ближайшую к ним точку на этом пути.[5]

p-Creode

p-Creode находит наиболее вероятный путь через скорректированный по плотности граф k-ближайших соседей. Графики из ансамбля оцениваются с помощью метрики сходства графов для выбора наиболее представительной топологии. p-Creode был протестирован на ряде одноклеточных платформ, включая массовая цитометрия, мультиплексная иммунофлуоресценция,[12] и одноклеточные РНК-последовательность. Никакой предварительной информации не требуется.[13]

Рогатка

Slingshot принимает метки кластеров в качестве входных данных, а затем упорядочивает эти кластеры в родословные, создавая минимальное остовное дерево. Пути по дереву сглаживаются путем подбора одновременных главных кривых, а значение псевдовремени ячейки определяется ее проекцией на одну или несколько из этих кривых. Предварительная информация, такая как начальный и конечный кластеры, не является обязательной.[11]

TSCAN

TSCAN выполняет уменьшение размерности, используя Анализ главных компонентов и группирует ячейки с помощью модель смеси. А минимальное остовное дерево рассчитывается с использованием центров кластеров и траектория определяется как наибольшая связанный путь этого дерева. TSCAN - это без присмотра алгоритм, не требующий предварительной информации.[14]

Страсть к путешествиям / Wishbone

Wanderlust был разработан для анализа массовая цитометрия данных, но адаптирован для одноклеточная транскриптомика Приложения. А алгоритм k-ближайших соседей используется для построения графа, который соединяет каждую ячейку с ячейкой, ближайшей к ней по отношению к метрика Такие как Евклидово расстояние или же косинусное расстояние. Wanderlust требует ввода начальной ячейки в качестве предварительной информации.[15]

Wishbone построен на Wanderlust и допускает бифуркацию в топологии графа, тогда как Wanderlust создает линейный график. Wishbone сочетает в себе анализ основных компонентов и карты диффузии для достижения уменьшения размерности также создает KNN график.[16]

Водопад

Водопад выполняет уменьшение размерности через Анализ главных компонентов и использует алгоритм k-средних найти кластеры клеток. А минимальное остовное дерево строится между центрами кластеров. Waterfall полностью неконтролируемый, не требует предварительной информации и производит линейный траектории.[17]

Рекомендации

  1. ^ а б Бачер, Ронда; Кендзёрски, Кристина (2016-04-07). «Дизайн и вычислительный анализ экспериментов по секвенированию одноклеточной РНК». Геномная биология. 17 (1): 63. Дои:10.1186 / s13059-016-0927-у. ISSN  1474-760X. ЧВК  4823857. PMID  27052890.
  2. ^ Хван, Бёнджин; Ли, Джи Хён; Банг, Духи (2018-08-07). «Технологии секвенирования одноклеточной РНК и конвейеры биоинформатики». Экспериментальная и молекулярная медицина. 50 (8): 96. Дои:10.1038 / s12276-018-0071-8. ISSN  2092-6413. ЧВК  6082860. PMID  30089861.
  3. ^ Стегл, Оливер; Тайхманн, Сара А .; Мариони, Джон К. (28 января 2015 г.). «Вычислительные и аналитические проблемы в одноклеточной транскриптомике». Природа Обзоры Генетика. 16 (3): 133–145. Дои:10.1038 / nrg3833. ISSN  1471-0056. PMID  25628217. S2CID  205486032.
  4. ^ а б c Каннудт, Робрехт; Saelens, Wouter; Саис, Иван (19 октября 2016 г.). «Вычислительные методы для вывода траектории из одноклеточной транскриптомики». Европейский журнал иммунологии. 46 (11): 2496–2506. Дои:10.1002 / eji.201646347. ISSN  0014-2980. PMID  27682842. S2CID  19562455.
  5. ^ а б Трапнелл, Коул; Каччиарелли, Давиде; Гримсби, Джонна; Покхарел, Прапти; Ли, Шуцян; Морс, Майкл; Леннон, Найл Дж. Ливак, Кеннет Дж; Миккельсен, Тарьей С (23 марта 2014 г.). «Динамика и регуляторы решений клеточной судьбы выявляются псевдовременным упорядочением отдельных клеток». Природа Биотехнологии. 32 (4): 381–386. Дои:10.1038 / nbt.2859. ISSN  1087-0156. ЧВК  4122333. PMID  24658644.
  6. ^ а б c d Saelens, Wouter; Каннудт, Робрехт; Тодоров, Елена; Саис, Иван (4 января 2019 г.). «Сравнение методов вывода траектории одной ячейки». Природа Биотехнологии. 37 (5): 547–555. Дои:10.1038 / s41587-019-0071-9. PMID  30936559. S2CID  89616753.
  7. ^ Bang, Duhee; Ли, Джи Хён; Хван, Бёнджин (2018-08-07). «Технологии секвенирования одноклеточной РНК и конвейеры биоинформатики». Экспериментальная и молекулярная медицина. 50 (8): 96. Дои:10.1038 / s12276-018-0071-8. ISSN  2092-6413. ЧВК  6082860. PMID  30089861.
  8. ^ Конеса, Ана; Мадригал, Педро; Таразона, Соня; Гомес-Кабреро, Дэвид; Сервера, Алехандра; Макферсон, Эндрю; Щесняк, Михал Войцех; Гаффни, Дэниел Дж .; Эло, Лаура Л. (26 января 2016 г.). «Обзор лучших практик анализа данных RNA-seq». Геномная биология. 17 (1): 13. Дои:10.1186 / s13059-016-0881-8. ISSN  1474-760X. ЧВК  4728800. PMID  26813401.
  9. ^ а б Йосеф, Нир; Регев, Авив; Вагнер, Аллон (ноябрь 2016 г.). «Выявление векторов клеточной идентичности с помощью одноклеточной геномики». Природа Биотехнологии. 34 (11): 1145–1160. Дои:10.1038 / nbt.3711. ISSN  1546-1696. ЧВК  5465644. PMID  27824854.
  10. ^ Кахан, Патрик; Тан, Юци; Кумар, Павитра (01.01.2017). «Понимание развития и стволовых клеток с использованием анализа экспрессии генов на основе отдельных клеток». Разработка. 144 (1): 17–32. Дои:10.1242 / dev.133058. ISSN  1477-9129. ЧВК  5278625. PMID  28049689.
  11. ^ а б Стрит, Келли; Риссо, Давиде; Флетчер, Рассел Б .; Дас, Дийа; Нгаи, Джон; Йосеф, Нир; Пурдом, Элизабет; Дудуа, Сандрин (2018-06-19). «Рогатка: происхождение клеток и псевдодинамический вывод для одноклеточной транскриптомики». BMC Genomics. 19 (1): 477. Дои:10.1186 / s12864-018-4772-0. ЧВК  6007078. PMID  29914354.
  12. ^ Гердес, М. Дж .; Севинский, К. Дж .; Sood, A .; Адак, С .; Bello, M.O .; Bordwell, A .; Может, А .; Corwin, A .; Динн, С. (01.07.2013). «Высоко мультиплексный одноклеточный анализ фиксированной формалином и залитой парафином раковой ткани». Труды Национальной академии наук. 110 (29): 11982–11987. Bibcode:2013ПНАС..11011982Г. Дои:10.1073 / pnas.1300136110. ISSN  0027-8424. ЧВК  3718135. PMID  23818604.
  13. ^ Lau, Ken S .; Коффи, Роберт Дж .; Гердес, Майкл Дж .; Лю, Ци; Франклин, Джеффри Л .; Роланд, Джозеф Т .; Пинг, Джи; Симмонс, Алан Дж .; МакКинли, Элиот Т. (24 января 2018 г.). «Неконтролируемый анализ траектории одноклеточной РНК-секвенирования и данных визуализации показывает альтернативное происхождение клеток пучка в кишечнике». Сотовые системы. 6 (1): 37–51.e9. Дои:10.1016 / j.cels.2017.10.012. ISSN  2405-4712. ЧВК  5799016. PMID  29153838.
  14. ^ Цзи, Чжичэн; Цзи, Хункай (13 мая 2016 г.). «TSCAN: Псевдовременная реконструкция и оценка в одноклеточном анализе последовательностей РНК». Исследования нуклеиновых кислот. 44 (13): e117. Дои:10.1093 / нар / gkw430. ISSN  0305-1048. ЧВК  4994863. PMID  27179027.
  15. ^ Бендалл, Шон С.; Дэвис, Кара Л .; Амир, Эль-ад Давид; Тадмор, Мишель Д .; Саймондс, Эрин Ф .; Чен, Тиффани Дж .; Шенфельд, Даниэль К .; Нолан, Гарри П .; Пе'Эр, Дана (24 апреля 2014 г.). «Обнаружение траектории отдельных клеток раскрывает прогрессию и регулятивную координацию в развитии В-клеток человека». Клетка. 157 (3): 714–725. Дои:10.1016 / j.cell.2014.04.005. ISSN  0092-8674. ЧВК  4045247. PMID  24766814.
  16. ^ Сетти, Ману; Тадмор, Мишель Д.; Райх-Зелигер, Шломит; Ангел, Омер; Саламе, Томер Меир; Катайль, Пуджа; Чой, Кристи; Бендалл, Шон; Фридман, Нир (2016-05-02). «Wishbone идентифицирует раздвоенные траектории развития на основе данных одной клетки». Природа Биотехнологии. 34 (6): 637–645. Дои:10.1038 / nbt.3569. ISSN  1087-0156. ЧВК  4900897. PMID  27136076.
  17. ^ Шин, Джэхун; Berg, Daniel A .; Чжу, Юньхуа; Шин, Джозеф Y .; Песня, Хуан; Bonaguidi, Michael A .; Ениколопов, Григорий; Науэн, Дэвид В .; Christian, Kimberly M .; Мин, Го-ли; Сон, Хунцзюнь (2015-09-03). «Последовательность одноклеточной РНК с водопадом выявляет молекулярные каскады, лежащие в основе нейрогенеза взрослых». Стволовая клетка клетки. 17 (3): 360–372. Дои:10.1016 / j.stem.2015.07.013. ISSN  1934-5909. PMID  26299571.

внешняя ссылка