Дуплексное секвенирование - Википедия - Duplex sequencing

Рисунок 2) Обзор дуплексного секвенирования: Библиотеки с дуплексной меткой, содержащие адаптеры для секвенирования, амплифицируются, и в результате получают два типа продуктов, каждый из которых происходит из одной цепи ДНК. После секвенирования продуктов ПЦР сгенерированные считывания разделяются на семейства тегов в зависимости от положения в геноме, дуплексных тегов и соседнего адаптера секвенирования. Обратите внимание, что тег последовательности α является обратным дополнением тега последовательности β и наоборот.

Дуплексное секвенирование это библиотека метод подготовки и анализа для секвенирование следующего поколения (NGS) платформы, использующие случайную маркировку двухцепочечных ДНК для обнаружения мутаций с более высокой точностью и меньшим количеством ошибок. Этот метод использует вырожденные молекулярные метки в дополнение к адаптерам секвенирования для распознавания считываний, исходящих от каждой цепи ДНК. Затем сгенерированные чтения секвенирования будут проанализированы с использованием двух методов: сборка однонитевых консенсусных последовательностей (SSCS) и дуплексных консенсусных последовательностей (DCS). Теоретически дуплексное секвенирование может обнаруживать мутации с частотой от 5 x 10.⁻⁸ это более чем в 10 000 раз выше по точности по сравнению с традиционными методами секвенирования нового поколения.^[1]^[2]

Расчетная частота ошибок стандартных платформ секвенирования следующего поколения составляет 10⁻² - 10⁻³ за вызов базы. При такой частоте ошибок миллиарды базовых вызовов, производимые NGS, приведут к миллионам ошибок. Ошибки вносятся во время подготовки проб и секвенирования, например: полимеразной цепной реакции, ошибки последовательности и анализа изображений. Хотя частота ошибок платформ NGS допустима для некоторых приложений, таких как обнаружение клональные варианты, это главный предел для приложений, требующих более высокой точности для обнаружения низкочастотных вариантов, таких как обнаружение внутриорганических мозаика, субклональные варианты в генетически гетерогенный рак или циркулирующая опухолевая ДНК.^[3]^[4]^[5]

Было разработано несколько стратегий подготовки библиотек, которые повышают точность платформ NGS, таких как молекулярное штрих-кодирование и метод циклического консенсусного секвенирования.^[6]^[7]^[8]^[9] Данные, полученные этими методами, такими же, как и на платформах NGS, происходят из одной цепи ДНК и, следовательно, ошибки, которые вносятся во время ПЦР-амплификация, обработка тканей, Извлечение ДНК, гибридизация-захват (если используется) или Секвенирование ДНК сам по себе еще можно выделить как истинный вариант. Метод дуплексного секвенирования решает эту проблему, используя преимущества комплементарной природы двух цепей ДНК и подтверждая только варианты, которые присутствуют в обеих цепях ДНК. Поскольку вероятность двух дополнительных ошибок, возникающих в одном и том же месте в обеих цепях, чрезвычайно мала, дуплексное секвенирование значительно повышает точность секвенирования.^[1]^[6]^[8]^[10]

Экспериментальный рабочий процесс

Адаптеры с тегами дуплексного секвенирования могут использоваться в сочетании с большинством адаптеров NGS. В разделе рисунков и рабочего процесса этой статьи адаптеры секвенирования Illumina используются в качестве примера в соответствии с исходным опубликованным протоколом.^[1]^[2]

Рисунок 1) Рабочий процесс подготовки библиотеки дуплексного секвенирования: Два адаптера-олиго проходят несколько этапов (отжиг, синтез, dT-хвост) для создания двухцепочечных уникальных тегов с 3'-dT-выступами. Затем адаптеры дуплексной метки лигируют с матрицами двухцепочечной ДНК. Наконец, адаптеры секвенирования Illumina вставляются во фрагменты меченой ДНК и образуют конечные библиотеки, содержащие адаптеры DS, адаптеры секвенирования Illumina и матричную ДНК.

Отжиг адаптера

На этом этапе используются два олигонуклеотида (Рисунок 1: Адаптерные олигонуклеотиды). Один из олигонуклеотидов содержит одноцепочечную случайную последовательность меток из 12 нуклеотидов, за которой следует фиксированная 5'-нуклеотидная последовательность (последовательность черного на фиг. 1). На этом этапе олигонуклеотиды находятся отожженный в дополнительной области путем инкубации в необходимых временных условиях.^[1]^[2]

Синтез адаптера

Адаптеры, которые отожженный успешно расширены и синтезированы ДНК-полимераза для завершения двухцепочечного адаптера, содержащего дополнительные теги (рисунок 1).^[1]^[2]

3’-dT-хвост

Удлиненные двухцепочечные адаптеры расщеплены HpyCH4III на конкретном сайт ограничения расположен на 3 ’стороне последовательности тега и приведет к выступу 3’-dT, который будет лигирован с выступом 3’-dA на библиотеках ДНК в адаптере перевязка шаг (рисунок 1).^[1]^[2]

Подготовка библиотеки

Двухцепочечная ДНК стрижен используя один из способов: Обработка ультразвуком, ферментативное пищеварение или распыление. Размер фрагментов подбирается с помощью бусинок Ampure XP. Гель отбор по размеру не рекомендуется для этого метода, так как он может вызвать плавление двойных цепей ДНК и повреждение ДНК в результате УФ-облучение. Отобранные по размеру фрагменты ДНК подвергаются 3’-концу dA-хвоста.^[1]^[2]

Перевязка адаптера

На этом этапе два помеченных адаптера лигируют от 3’-dT-хвостов к 3’-dA-хвостам на обеих сторонах фрагментов библиотеки двухцепочечной ДНК. В результате этого процесса получаются двухцепочечные фрагменты библиотеки, содержащие два случайных тега (α и β) на каждой стороне, которые являются обратными дополнениями друг друга (рис. 1 и 2). Отношение «ДНК: адаптер» имеет решающее значение для определения успеха лигирования.^[1]^[2]

Вставка адаптеров секвенирования в библиотеки с тегами

На последнем этапе подготовки библиотеки дуплексного секвенирования адаптеры секвенирования Illumina добавляются к помеченным двухцепочечным библиотекам путем ПЦР-амплификации с использованием праймеров, содержащих адаптеры секвенирования. Во время ПЦР амплификации обе комплементарные цепи ДНК амплифицируются и генерируют два типа продуктов ПЦР. Продукт 1 происходит из цепи 1, которая имеет уникальную последовательность тегов (обозначенную α на рисунке 2) рядом с адаптером Illumina 1 и продукт 2, у которого есть уникальный тег (называемый β на рисунке 2) рядом с адаптером Illumina 1. (Пожалуйста обратите внимание, что в каждой цепи тег α является обратным дополнением тега β и наоборот). Библиотеки, содержащие дуплексные теги и адаптеры Illumina, секвенируются с помощью системы Illumina TruSeq. Считывания, исходящие от каждой отдельной цепи ДНК, образуют группу считываний (семейств тегов), которые используют один и тот же тег. Обнаруженные семейства считываний будут использоваться на следующем этапе для анализа данных секвенирования.^[1]^[2]

Соображения

Эффективность перевязки адаптера

Эффективность лигирования адаптера очень важна для успешного дуплексного секвенирования. Избыточное количество библиотек или адаптеров может повлиять на баланс ДНК: адаптер и, следовательно, привести к неэффективному лигированию и избыточному количеству димеров праймеров соответственно. Поэтому важно поддерживать молярную концентрацию ДНК: адаптер на оптимальном соотношении 0,05.^[2]

Размер семейства тегов

Эффективность дуплексного секвенирования зависит от конечного количества DCS, которое напрямую связано с количеством считываний в каждом семействе (размером семейства). Если размер семейства слишком мал, то DCS не может быть собран, и если слишком много операций чтения используют один и тот же тег, объем данных будет низким. Размер семьи определяется количеством ДНК-матрицы для ПЦР-амплификации и выделенной фракции секвенирования. Оптимальный размер семейства тегов составляет от 6 до 12 членов. Для получения оптимального размера семьи необходимо отрегулировать количество ДНК-матрицы и выделенную фракцию секвенирования. Следующая формула учитывает наиболее важные переменные, которые могут влиять на глубину охвата (N = 40DG ÷ R), где «N» - количество считываний, «D» - желаемая глубина охвата, «G» - размер ДНК-мишени в basepair, а «R» - окончательная длина чтения.

Вычислительный рабочий процесс

Фильтрация и обрезка

Каждое считывание дуплексного секвенирования содержит фиксированную 5-нуклеотидную последовательность (показанную цифрами черным цветом), расположенную вверх по течению 12-нуклеотидной последовательности метки. Считывания отфильтровываются, если они не имеют ожидаемой 5-нуклеотидной последовательности или имеют более девяти идентичных или неоднозначных оснований в каждом теге. Два 12-нуклеотидных тега на каждом конце чтения объединяются и перемещаются в заголовок чтения. Формируются два семейства считываний, которые происходят из двух цепей ДНК. Одно семейство содержит чтения с заголовком αβ, происходящим из цепи 1, а второе семейство содержит чтения с заголовком βα, происходящим из цепи 2 (рисунок 2). Затем считывания обрезаются путем удаления фиксированной последовательности в 5 п.н. и 4 нуклеотидов, подверженных ошибкам, расположенных в местах лигирования и репарации концов.^[1]^[2] Остальные чтения собираются в консенсусные последовательности с использованием сборки одноцепочечных консенсусных последовательностей (SSCS) и сборки дуплексных консенсусных последовательностей (DCS).

Сборка SSCS

Обрезанные последовательности из предыдущего шага выровнен к эталонный геном с помощью Выравниватель Берроуза-Уиллера (BWA) и несопоставленные чтения удаляются. Выровненные считывания, которые имеют одинаковую последовательность тега длиной 24 п.н. и геномную область, обнаруживаются и группируются вместе (семейства αβ и βα на рисунке 2). Каждая группа представляет собой «семейство тегов». Семейства тегов, содержащие менее трех членов, удаляются из анализа. Чтобы удалить ошибки, возникающие во время амплификации или секвенирования ПЦР, мутации, которые поддерживаются менее чем 70% членов (считываний), отфильтровываются из анализа. Затем для каждого семейства генерируется консенсусная последовательность с использованием идентичных последовательностей в каждой позиции оставшихся считываний. Консенсусная последовательность называется однонитевой консенсусной последовательностью (SSCS). Метод SSCS увеличивает точность NGS примерно в 20 раз, однако этот метод полагается на информацию о секвенировании из отдельных цепей ДНК и, следовательно, чувствителен к ошибкам, вызванным в первом раунде или перед амплификацией ПЦР.^[1]^[2]

Сборка DCS

Считывания с последнего шага перестраиваются в эталонный геном. В этом методе пары семейств SSCS, которые имеют дополнительные теги, будут сгруппированы вместе (семейства αβ и βα на рисунке 2). Эти чтения происходят из двух комплементарных цепей ДНК. Последовательности с высокой степенью достоверности выбираются на основе идеально согласованных базовых требований каждой семьи. Последняя последовательность называется дуплексной консенсусной последовательностью (DCS). Истинные мутации - это те мутации, которые идеально соответствуют комплементарным SSCS. На этом этапе отфильтровываются оставшиеся ошибки, возникшие во время первого раунда амплификации ПЦР или во время подготовки образца.^[1]^[2]

Преимущества

Уменьшение количества ошибок при секвенировании

Высокая частота ошибок (0,01–0,001) стандартных платформ NGS, которые вводятся во время подготовки образцов или секвенирования, является основным ограничением для обнаружения вариантов, присутствующих в небольшой части клеток. Благодаря системе дуплексной маркировки и использованию информации в обеих цепях ДНК, дуплексное секвенирование значительно снизило частоту ошибок при секвенировании примерно в 10 миллионов раз с использованием как метода SSCS, так и метода DCS.^[1]^[2]^[10]

Повышение точности вызова вариантов

Сложно точно идентифицировать редкие варианты с использованием стандартных методов NGS с частотой мутаций (10⁻² - 10⁻³). Ошибки, возникающие на ранних этапах подготовки проб, можно определить как редкие варианты. Пример таких ошибок: C> A / G> T трансверсия которые обнаруживаются на низких частотах с использованием данных глубокого секвенирования или целевого захвата и возникают в результате окисления ДНК во время подготовки образца.^[11] Эти типы ложноположительных вариантов отфильтровываются методом дуплексного секвенирования, поскольку мутации должны быть точно сопоставлены в обеих цепях ДНК, чтобы их можно было подтвердить как истинные мутации. Дуплексное секвенирование теоретически может обнаруживать мутации с частотой до 10⁻⁸ сравнить с 10⁻² скорость стандартных методов NGS.^[1]^[2]^[10]

Применимо к большинству платформ NGS

Еще одним преимуществом дуплексного секвенирования является то, что его можно использовать в сочетании с большинством платформ NGS без внесения значительных изменений в стандартные протоколы.

Ограничения

Расходы

Поскольку дуплексное секвенирование обеспечивает значительно более высокую точность секвенирования и использует информацию в обеих цепях ДНК, этот метод требует гораздо большей глубины секвенирования и, следовательно, является дорогостоящим подходом. Высокая стоимость дуплексного секвенирования ограничивает его применение в настоящее время для целевого секвенирования и секвенирования ампликонов и не будет применяться для подходов к секвенированию всего генома. Однако с уменьшением стоимости NGS применение дуплексного секвенирования для более крупных ДНК-мишеней станет более осуществимым.

Практическое применение

Дуплексное секвенирование - новый метод, эффективность которого изучалась в ограниченных приложениях, таких как обнаружение точечные мутации с использованием целевого секвенирования захвата.^[12] Необходимо провести дополнительные исследования, чтобы расширить применение и возможность дуплексного секвенирования для более сложных образцов с большим количеством мутаций, инделений и варианты числа копий.

Приложения

Обнаружение вариантов с низкими частотами

Дуплексное секвенирование и значительное повышение точности секвенирования оказывают важное влияние на такие приложения, как обнаружение редких генетических вариантов человека, обнаружение субклональных мутаций, связанных с механизмами устойчивости к терапии при генетически гетерогенных раковых опухолях, скрининг вариантов циркулирующей опухолевой ДНК в качестве неинвазивного метода. биомаркер и пренатальный скрининг для выявления генетических аномалий у плода.

Определение номера копии

Другое предлагаемое применение дуплексного секвенирования - определение числа копий ДНК / РНК путем оценки относительной частоты вариантов. Метод подсчета шаблонных молекул ПЦР с приложением к секвенированию следующего поколения.^[1]

Анализ и программное обеспечение

Список необходимых инструментов и пакетов для анализа SSCS и DCS можно найти в пакет программного обеспечения.