Общий формат функции - General feature format
Расширения имени файла | .gff |
---|---|
Тип интернет-СМИ | текст / x-gff3 |
Разработан | Центр Сэнгера (версия 2), Проект онтологии последовательности (версия 3) |
Тип формата | Биоинформатика |
Расширен с | Значения, разделенные табуляцией |
Открытый формат ? | да |
Интернет сайт | github |
В биоинформатика, то общий формат функции (формат поиска генов, общий формат функции, GFF) это формат файла используется для описания гены и другие особенности ДНК, РНК и белок последовательности.
Версии GFF
Существуют следующие версии GFF:
- Общий формат функций Версия 2, как правило, не рекомендуется
- Формат переноса генов 2.2, производная, используемая Ensembl
- Универсальный формат функций версии 3
- Формат вариации генома, с дополнительными прагмами и атрибутами для функций sequence_alteration
GFF2 / GTF имеет ряд недостатков, в частности, то, что он может представлять только двухуровневую иерархию признаков и, таким образом, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.
В GTF идентичен GFF версии 2.[1]
Общая структура GFF
Все форматы GFF (GFF2, GFF3 и GTF) являются вкладка с разделителями по 9 полей в строке. Все они имеют одинаковую структуру для первых 7 полей, но отличаются содержанием и форматом девятое поле. Общая структура следующая:
Индекс позиции | Название должности | Описание |
---|---|---|
1 | последовательность | Название последовательности, в которой расположен объект. |
2 | источник | Ключевое слово, определяющее источник функции, например программу (например, Август или же RepeatMasker ) или организации (например, ТАИР ). |
3 | особенность | Название типа функции, например «ген» или «экзон». В хорошо структурированном файле GFF все дочерние функции всегда следуют за своими родителями в едином блоке (поэтому все экзоны транскрипции помещаются после характерной строки их родительской «транскрипции» и перед любой другой родительской строкой транскрипции). В GFF3 все функции и их отношения должны быть совместимы с стандарты, выпущенные проектом Sequence Ontology. |
4 | Начните | Геномное начало признака с 1-базовое смещение. Это контрастирует с другими полуоткрытыми форматами последовательностей с нулевым смещением, такими как КРОВАТЬ. |
5 | конец | Геномный конец признака с 1-базовое смещение. Это та же конечная координата, что и в полуоткрытых форматах последовательности с нулевым смещением, например КРОВАТЬ.[нужна цитата ] |
6 | счет | Числовое значение, которое обычно указывает на достоверность источника аннотированного объекта. Значение "." (точка) используется для определения нулевого значения. |
7 | прядь | Один символ, обозначающий прядь особенности; он может принимать значения «+» (положительный, или 5 '-> 3'), «-», (отрицательный, или 3 '-> 5'), «.» (не определено). |
8 | фаза | фаза функций CDS; это может быть одно из значений 0, 1, 2 (для функций CDS) или "." (для всего остального). См. Раздел ниже для подробного объяснения. |
9 | атрибуты | Вся остальная информация, относящаяся к этой функции. Формат, структура и содержание этого поля больше всего различаются между тремя конкурирующими форматами файлов. |
Восьмое поле: этап возможностей CDS
Проще говоря, CDS означает «последовательность кодирования». Точное значение термина определяется онтологией последовательностей (SO). Согласно GFF3 Технические характеристики:[2][3]
Для признаков типа «CDS» фаза указывает, где признак начинается со ссылкой на рамку считывания. Фаза - это одно из целых чисел 0, 1 или 2, указывающее количество оснований, которые должны быть удалены из начала этого признака, чтобы достичь первого основания следующего кодона.
Мета-директивы
В файлы GFF может быть включена дополнительная метаинформация, которая следует за директивой ##. Эта метаинформация может содержать подробные сведения о версии GFF, регионе последовательности или виде (полный список типов метаданных можно найти на Спецификации онтологии последовательности ).
Программное обеспечение GFF
Серверы
Серверы, которые генерируют этот формат:
Сервер | Пример файла |
---|---|
UniProt | [1] |
Клиенты
Клиенты, использующие этот формат:
Имя | Описание | Ссылки |
---|---|---|
GBrowse | Программа просмотра генома GMOD | GBrowse |
IGB | Встроенный браузер генома | Встроенный браузер генома |
Jalview | Редактор и просмотрщик множественного выравнивания последовательностей | Jalview |
РЕМЕНЬ | Подчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2] | [3] |
JBrowse | JBrowse - это быстрый встраиваемый геномный браузер, полностью построенный на JavaScript и HTML5. | JBrowse.org |
ЗЕНБУ | Совместная система интеграции данных и интерактивной визуализации omics | [4] |
Проверка
В modENCODE проект проводит онлайн-инструмент проверки GFF3 с щедрыми лимитами 286,10 МБ и 15 млн строк.
Коллекция программного обеспечения Genome Tools содержит gff3validator инструмент, который можно использовать в автономном режиме для проверки и, возможно, очистки файлов GFF3. An сервис онлайн-проверки также доступен.
Смотрите также
Рекомендации
- ^ Информация о GFF / GTF, из Ансамбль
- ^ «Спецификация GFF3». 2018-11-24.
- ^ «Gff3 - Gmod».