BED (формат файла) - BED (file format)
Расширение имени файла | .постель |
---|---|
Тип интернет-СМИ | текст / x-кровать |
Тип формата | Текстовый файл |
В ПОСТЕЛЬ (Расширяемые данные браузера) формат является текстовый файл формат, используемый для хранения геномный регионы как координаты и связанные аннотации. Данные представлены в виде столбцов, разделенных пробелами или табуляциями. Этот формат был разработан во время Проект генома человека[1] а затем приняты другими проектами секвенирования. В результате этого все более широкого использования этот формат стал де-факто стандарт в биоинформатика без получения официальных спецификаций.
Одним из преимуществ этого формата является манипуляция координатами вместо нуклеотидные последовательности, что оптимизирует мощность и время вычислений при сравнении всех или части геномов. Кроме того, его простота позволяет легко манипулировать и читать (или разбор ) координаты или аннотации с использованием обработка текста и языки сценариев такие как Python, Рубин или Perl или более специализированные инструменты, такие как BEDИнструменты.
История
В конце ХХ века появились первые проекты последовательность полный геномы. Среди этих проектов Проект генома человека был самым амбициозным в то время, стремясь впервые секвенировать геном нескольких гигабазы. Это потребовало от центров секвенирования основных методологических разработок, чтобы автоматизировать обработку последовательностей и их анализ. Таким образом, было создано множество форматов, таких как FASTQ,[2] GFF или КРОВАТЬ.[1] Однако официальных спецификаций опубликовано не было, что повлияло на некоторые форматы, такие как FASTQ, когда секвенирование проектов приумножилась в начале 21 века.
Его широкое использование в браузеры генома позволил определить этот формат относительно стабильным способом, поскольку это описание используется многими инструментами.
Формат
Формат BED не имеет официальных спецификаций. Однако описание, предоставленное Браузер генома UCSC[3] широко используется.
Описание
Файл BED состоит как минимум из трех столбцов, к которым можно добавить девять дополнительных столбцов, всего двенадцать столбцов. Первые три столбца содержат имена хромосомы или строительные леса, координаты начала и конца рассматриваемых последовательностей. Следующие девять столбцов содержат аннотации, относящиеся к этим последовательностям. Эти столбцы должны быть разделены пробелы или вкладки Последний рекомендуется из соображений совместимости между программами.[4] Каждая строка файла должна иметь одинаковое количество столбцов. Необходимо соблюдать порядок столбцов: если используются столбцы с большими числами, столбцы с промежуточными числами должны быть заполнены.
Номер столбца | заглавие | Определение |
---|---|---|
1 | хром | Хромосома (например, chr3, chrY, chr2_random) или строительные леса (например, scaffold10671) имя |
2 | chromStart | Координата начала на хромосоме или каркасе для рассматриваемой последовательности (первое основание на хромосоме имеет номер 0) |
3 | chromEnd | Конечная координата на хромосоме или каркасе для рассматриваемой последовательности. Эта позиция не включает в себя, в отличие от chromStart. |
4 | имя | Название строки в BED файле |
5 | Гол | Оценка от 0 до 1000 |
6 | прядь | Ориентация цепи ДНК (положительная [«+»] или отрицательная [«-»] или «.», Если цепи нет) |
7 | толстый | Начальная координата, с которой аннотация отображается более толстым образом на графическом представлении (например: начало кодон из ген ) |
8 | толстый конец | Конечные координаты, начиная с которых аннотация больше не отображается более толстым образом на графическом представлении (например: стоп-кодон гена) |
9 | itemRgb | RGB значение в форме R, G, B (например, 255,0,0), определяющее цвет отображения аннотации, содержащейся в файле BED |
10 | blockCount | Количество блоков (например, экзоны ) в строке файла BED |
11 | blockSizes | Список значений, разделенных запятые соответствующий размеру блоков (количество значений должно соответствовать количеству "blockCount") |
12 | blockStarts | Список значений, разделенных запятыми, соответствующих начальным координатам блоков, координат, вычисленных относительно тех, которые присутствуют в столбце chromStart (количество значений должно соответствовать количеству значений в "blockCount") |
Заголовок
Файл BED может дополнительно содержать заголовок. Однако официального описания формата шапки нет. Он может содержать одну или несколько строк и обозначаться разными словами или символами,[4] в зависимости от его функциональной роли или просто описательный. Таким образом, строка заголовка может начинаться с этих слов или символов:
- "браузер": функциональный заголовок, используемый Браузер генома UCSC установить параметры, связанные с ним,
- "track": функциональный заголовок, используемый браузеры генома чтобы указать параметры отображения, связанные с ним,
- «#»: описательный заголовок для добавления комментариев, таких как имя каждого столбца.
Система координат
в отличие от система координат используется другими стандартами, такими как GFF, система, используемая в формате BED, основана на нуле для начала координат и на единице для конца координат.[4] Таким образом нуклеотид с координатой 1 в геноме будет иметь значение 0 в столбце 2 и значение 1 в столбце 3.
Этот выбор оправдан методом расчета длин рассматриваемых областей генома, этот расчет основан на простом вычитании конечных координат (столбец 3) на координаты начала (столбец 2): . Когда система координат основана на использовании 1 для обозначения первой позиции, расчет становится немного более сложным: . Эта небольшая разница может иметь относительно большое влияние на время вычислений, когда наборы данных используются от нескольких тысяч до сотен тысяч строк.
Примеры
Вот минимальный пример:
chr7 127471196 127472363chr7 127472363 127473530chr7 127473530 127474697
Вот типичный пример с девятью столбцами из Браузер генома UCSC:
позиция браузера chr7: 127471196-127495720browser hide alltrack name = "ItemRGBDemo" description = "Демонстрация RGB элемента" видимость = 2 itemRgb = "On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0chr7 127472363 127473530 Pos2 0 + 12730 25563 , 0,0chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255chr7 127477031,247819 127477031g247819 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Расширение файла
В настоящее время нет стандарта расширение файла для файлов BED, но чаще всего используется расширение ".bed". Иногда количество столбцов указывается в расширении файла, например: «.bed3», «.bed4», «.bed6», «.bed12».[5]
Применение
Использование файлов BED быстро распространилось с появлением новые методы секвенирования и манипулирование все большим и большим последовательность файлы. Сравнение геномных последовательностей или даже целых геномов путем сравнения самих последовательностей может быстро потребовать значительных вычислительных ресурсов и занять много времени. Обработка файлов BED делает эту работу более эффективной за счет использования координат для извлечения интересующих последовательностей из наборов секвенирования или для прямого сравнения и управления двумя наборами координат.
Для выполнения этих задач можно использовать различные программы для работы с файлами BED, включая, помимо прочего, следующие:
- Браузеры генома: из файлов BED позволяет визуализировать и извлекать последовательности геномов млекопитающих, секвенированные в настоящее время (например, функция Manage Custom Tracks in Браузер генома UCSC ).[3]
- Галактика : Интернет Платформа.[5]
- Инструменты командной строки:
- BEDTools: программа, позволяющая управлять наборами координат и извлекать последовательности из файла BED.[4]
- BEDOPS: набор инструментов для быстрых логических операций с файлами BED.[6]
- BedTk: более быстрая альтернатива BEDTools для ограниченного и специализированного набора операций.[7]
- covtobed: инструмент для преобразования файла BAM в трек покрытия BED.[8]
использованная литература
- ^ а б Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. И Хаусслер Д. (2002). "Браузер генома человека в UCSC". Геномные исследования. 12 (6): 996–1006. Дои:10.1101 / гр.229102. ISSN 1088-9051. ЧВК 186604. PMID 12045153.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Петух П.Дж., Филдс С.Дж., Гото Н., Хойер М.Л. И рис PM. (2010). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ». Исследования нуклеиновых кислот. 38 (6): 1767–71. Дои:10.1093 / нар / gkp1137. ISSN 1362-4962. ЧВК 2847217. PMID 20015970.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ а б «Часто задаваемые вопросы: форматы файлов данных. Формат BED». Браузер генома UCSC. Институт геномики Калифорнийского университета в Санта-Крус. Получено 2 октября 2019.
- ^ а б c d Куинлан, АР; Холл, И.М. (21 сентября 2010 г.). Руководство BEDTools (PDF). Получено 3 октября 2019.
- ^ а б "Типы данных". Центр сообщества Galaxy. Получено 3 октября 2019.
- ^ Неф, S; Куен, MS; Рейнольдс, AP; Haugen, E; Турман RE; Джонсон, AK; Райнс, Э; Maurano, MT; Vierstra, J; Томас, S; Sandstrom, R; Humbert, R; Стаматояннопулос, Дж. А. (15 июля 2012 г.). «BEDOPS: высокопроизводительные операции с геномными функциями». Биоинформатика (Оксфорд, Англия). 28 (14): 1919–20. Дои:10.1093 / биоинформатика / bts277. ЧВК 3389768. PMID 22576172.
- ^ Ли, Хэн. «БедТк». GitHub. Получено 22 июля 2020.
- ^ Бироло, Джованни; Телатин, Андреа (6 марта 2020 г.). «covtobed: простой и быстрый инструмент для извлечения треков покрытия из файлов BAM». Журнал открытого программного обеспечения. 5 (47): 2119. Дои:10.21105 / joss.02119.