Вариант формата вызова - Variant Call Format
Разработан | VCFtools |
---|---|
Тип формата | Биоинформатика |
Расширен с | Значения, разделенные табуляцией |
Открытый формат ? | да |
Интернет сайт | github |
В Вариант формата вызова (VCF) определяет формат текстового файла, используемого в биоинформатика для хранения последовательность гена вариации. Формат был разработан с появлением масштабных генотипирование и Секвенирование ДНК проекты, такие как Проект 1000 геномов. Существующие форматы генетических данных, такие как Общий формат функции (GFF) хранит все генетические данные, большая часть которых является избыточной, потому что они будут совместно использоваться в геномах. При использовании формата вызова вариантов необходимо хранить только варианты вместе со ссылочным геномом.
Стандарт в настоящее время находится в версии 4.3,[1][2] Хотя Проект 1000 геномов разработала собственную спецификацию для структурных изменений, таких как дублирование, которые нелегко встроить в существующую схему.[3] Также есть Геномный VCF (gVCF) расширенный формат, который включает дополнительную информацию о «блоках», соответствующих справочнику, и их качествам.[4] Также доступен набор инструментов для редактирования и управления файлами.[5] [6]
Пример
## fileformat = VCFv4.3 ## fileDate = 20090805 ## source = myImputationProgramV3.1 ## reference = file: ///seq/references/1000GenomesPilot-NCBI36.fasta##contig=## phasing = partial ## INFO = ## INFO = ## INFO = # # INFO = ## INFO = ## INFO = ## FILTER = ## FILTER = ## FORMAT = ## FORMAT = ## FORMAT = ## FORMAT = # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,. 20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 320 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2: 0: 18,2 2/2: 35: 420 1230237. Т. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 220 1234567 microsat1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3
Заголовок VCF
Заголовок начинает файл и предоставляет метаданные описание тела файла. Строки заголовков начинаются с #. Специальные ключевые слова в заголовке обозначаются ##. Рекомендуемые ключевые слова включают формат файла, fileDate и ссылка.
Заголовок содержит ключевые слова, которые необязательно семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. Ниже).
Столбцы VCF
Тело VCF следует за заголовком и представляет собой табуляцию, разделенную на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые могут использоваться для записи другой информации об образце (ах). Когда используются дополнительные столбцы, первый дополнительный столбец используется для описания формата данных в следующих столбцах.
Имя | Краткое описание (подробности см. В спецификации). | |
---|---|---|
1 | CHROM | Имя последовательности (обычно хромосомы), в которой вызывается вариация. Эта последовательность обычно известна как «эталонная последовательность», то есть последовательность, относительно которой изменяется данный образец. |
2 | POS | Позиция вариации данной последовательности, отсчитываемая от 1. |
3 | Я БЫ | Идентификатор вариации, например а dbSNP rs идентификатор, или, если неизвестно, ".". Несколько идентификаторов следует разделять точкой с запятой без пробелов. |
4 | REF | Справочная база (или базы в случае индель ) в данной позиции на заданной контрольной последовательности. |
5 | ALT | Список альтернативных аллели на этой позиции. |
6 | QUAL | Оценка качества, связанная с выводом данных аллелей. |
7 | ФИЛЬТР | Флаг, указывающий, какой из заданного набора фильтров отклонение прошло. |
8 | ИНФОРМАЦИЯ | Расширяемый список пар (полей) "ключ-значение", описывающих вариант. Ниже приведены некоторые общие поля. Несколько полей разделяются точкой с запятой с необязательными значениями в формате: <ключ> = <данные> [, данные] . |
9 | ФОРМАТ | (Необязательно) расширяемый список полей для описания образцов. Ниже приведены некоторые общие поля. |
+ | ОБРАЗЦЫ | Для каждого (необязательного) образца, описанного в файле, указаны значения для полей, перечисленных в FORMAT |
Общие поля INFO
Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны)[1]:
Имя | Краткое описание |
---|---|
AA | наследственный аллель |
AC | количество аллелей в генотипах для каждого аллеля ALT в том же порядке, что и перечисленные |
AF | частота аллелей для каждого аллеля ALT в том же порядке, что и в списке (используйте это при оценке на основе первичных данных, а не генотипов) |
AN | общее количество аллелей в названных генотипах |
BQ | Базовое качество RMS на этой позиции |
СИГАРА | цепочка сигар, описывающая, как выровнять альтернативный аллель с эталонным аллелем |
БД | членство в dbSNP |
DP | комбинированная глубина по выборкам, например DP = 154 |
КОНЕЦ | конечная позиция варианта, описанного в этой записи (для использования с символическими аллелями) |
H2 | членство в hapmap2 |
H3 | членство в hapmap3 |
MQ | Качество отображения RMS, например MQ = 52 |
MQ0 | Количество чтений MAPQ == 0, покрывающих эту запись |
NS | Количество образцов с данными |
SB | смещение пряди в этой позиции |
СОМАТИЧЕСКИЙ | указывает, что запись является соматической мутацией, для геномики рака |
ПРОВЕРЕНО | подтверждено последующим экспериментом |
1000 г | членство в 1000 геномов |
Общие поля FORMAT
Имя | Краткое описание |
---|---|
ОБЪЯВЛЕНИЕ | Глубина чтения для каждого аллеля |
АПД | Считайте глубину для каждого аллеля на прямой цепи |
ADR | Считайте глубину для каждого аллеля на обратной цепи |
DP | Глубина чтения |
ЕС | Ожидаемое количество альтернативных аллелей |
FT | Фильтр, указывающий, был ли этот генотип «вызван» |
GL | Вероятность генотипа |
GP | Условное качество генотипа |
GQ | Условное качество генотипа |
GT | Генотип |
HQ | Качество гаплотипа |
MQ | Качество отображения RMS |
PL | Вероятность генотипа по шкале Phred с округлением до ближайшего целого числа |
PQ | Качество фазировки |
PS | Набор фаз |
Смотрите также
- В FASTA формат, используемый для представления последовательностей генома.
- В FASTQ формат, используемый для представления считываний секвенатора ДНК вместе с оценками качества.
- В СЭМ формат, используемый для представления считываний секвенсора генома, которые были выровнены с последовательностями генома.
- В GVF формат (Genome Variation Format), расширение, основанное на GFF3 формат.
Спецификация VCF больше не поддерживается Проектом 1000 Genomes. Группа, возглавляющая управление и расширение формата, - это Глобальный альянс за геномику и здоровье (GA4GH) Команда разработчиков форматов файлов Large Scale Genomics Work Stream[7], http://ga4gh.org/#/fileformats-team
внешняя ссылка
- Объяснение формата в виде изображения
- Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК». IEEE Spectrum. Получено 22 марта 2015.
Рекомендации
- ^ а б «Спецификация VCF» (PDF). Получено 20 октября 2016.
- ^ «Спецификации SAM / BAM и связанных с ними форматов файлов секвенирования с высокой пропускной способностью». Получено 24 июн 2014.
- ^ «Кодирование структурных вариантов в VCF (Variant Call Format) версия 4.0 | 1000 геномов». Получено 20 октября 2016.
- ^ «GVCF - формат вызова геномного варианта». ГАТК. Институт Броуда.
- ^ "VCFtools от Github.io". Получено 20 октября 2016.
- ^ «BCFtools».
- ^ «Мир Био-ИТ». www.bio-itworld.com. Получено 2018-10-26.