Формат химического файла - Chemical file format
В этой статье обсуждаются некоторые общие молекулярные форматы файлов, включая использование и преобразование между ними.
Отличительные форматы
Химическая информация обычно предоставляется в виде файлы или же потоки было создано множество форматов с различной степенью документации. Формат указывается тремя способами (см. Химический раздел MIME)
- расширение файла (обычно 3 буквы). Это широко используется, но ненадежно, поскольку такие общие суффиксы, как «.mol» и «.dat», используются во многих системах, включая нехимические.
- файлы с самоописанием где информация о формате включена в файл. Примеры - CIF и CML.
- химический / MIME-тип добавлен химически осведомленным сервером.
Язык химической разметки
Язык химической разметки (CML) - это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях «Инструменты для работы с языком химической разметки» и «XML для химии и биологических наук» CML рассматривается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint, Jmol, XDrawChem и MarvinView.
Формат банка данных белков
В Формат банка данных белков обычно используется для белков, но может использоваться и для других типов молекул. Первоначально он был разработан и остается форматом с фиксированной шириной столбца и, таким образом, официально имеет встроенное максимальное количество атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Однако многие инструменты могут читать файлы, превышающие эти ограничения. Например, E. coli 70S рибосома в 2009 году был представлен в виде 4 файлов PDB: 3I1M, 3I1N, 3I1O и 3I1P. В 2014 году они были объединены в один файл, 4V6C.
Некоторые файлы PDB содержат необязательный раздел, описывающий связь атома, а также положение. Поскольку эти файлы иногда используются для описания макромолекулярных сборок или молекул, представленных в явный растворитель, они могут вырасти очень большими и часто сжимаются. Некоторые инструменты, такие как Jmol и KiNG,[1] может читать файлы PDB в формате gzip. WwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 г. произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0) и устранены многие проблемы с файлами в существующей базе данных.[2] Типичное расширение файла для файла PDB: .pdb, хотя в некоторых старых файлах используется .ent или же .brk. Некоторые инструменты молекулярного моделирования записывают нестандартные файлы в стиле PDB, которые адаптируют базовый формат к своим потребностям.
Формат GROMACS
Семейство форматов файлов GROMACS было создано для использования с программным пакетом молекулярного моделирования. GROMACS. Он очень похож на формат PDB, но был разработан для хранения вывода из молекулярная динамика моделирования, поэтому он обеспечивает дополнительную числовую точность и опционально сохраняет информацию о частицах скорость а также положение в заданной точке траектории моделирования. Он не позволяет хранить информацию о подключении, которая в GROMACS получается из отдельных файлов молекулы и системной топологии. Типичное расширение файла для файла GROMACS: .gro.
Формат CHARMM
В Очарование пакет молекулярной динамики[3] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF (структура белка file) в основном уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбца, напоминает формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и требуется перед началом моделирования. Типичные используемые расширения файлов: .crd и .psf соответственно.
Формат GSD
Формат файлов общих данных моделирования (GSD), созданный для эффективного чтения / записи общих имитаций частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-синий. Пакет также содержит модуль python, который считывает и записывает файлы gsd схемы hoomd с простым в использовании синтаксисом. [1]
Формат файла Ghemical
В Химический программное обеспечение может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию он использует формат GPR. Этот файл состоит из нескольких частей, разделенных тегом (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges и! End).
Предлагаемый тип MIME для этого формата: применение / x-ghemical.
Обозначение линии SYBYL
Обозначение линии SYBYL (SLN) - это химическое строчная запись. Основанный на SMILES, он включает полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет указывать Структура Маркуша запросы. Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.
Примеры SLN
Описание | SLN строка |
---|---|
Бензол | C [1] H: CH: CH: CH: CH: CH: @ 1 |
Аланин | NH2C [s = n] H (CH3) C (= O) OH |
Запрос, показывающий боковую цепочку R | R1 [hac> 1] C [1]: C: C: C: C: C: @ 1 |
Запрос на амид / сульфамид | NHC = M1 {M1: O, S} |
Улыбки
В Sподразумевается Mглазной яnput Lине Eпопытка Sспецификация (Улыбается) это строчная запись для молекул. Строки SMILES включают связь, но не включают 2D или 3D координаты.
Атомы водорода не представлены. Другие атомы представлены символами их элементов B, C, N, O, F, P, S, Cl, Br и I. Символ «=» представляет двойные связи, а «#» представляет тройные связи. Ветвление обозначено (). Кольца обозначаются парами цифр.
Некоторые примеры
Имя | Формула | SMILES строка |
---|---|---|
Метан | CH4 | C |
Этиловый спирт | C2ЧАС6О | CCO |
Бензол | C6ЧАС6 | C1 = CC = CC = C1 или c1ccccc1 |
Этилен | C2ЧАС4 | C = C |
XYZ
В Формат файла XYZ - это простой формат, который обычно дает количество атомов в первой строке, комментарий ко второй, за которым следует количество строк с атомными символами (или атомными числами) и декартовыми координатами.
Номер в леях
Номер MDL содержит уникальный идентификационный номер для каждой реакции и вариации. Формат - RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.
Другие распространенные форматы
Одним из наиболее широко используемых отраслевых стандартов являются файл химической таблицы форматы, такие как Формат данных структуры (SDF) файлы. Это текстовые файлы, которые соответствуют строгому формату для представления нескольких записей химической структуры и связанных полей данных. Формат был первоначально разработан и опубликован Molecular Design Limited (MDL). MOL - это еще один формат файлов от MDL. Это описано в главе 4 Форматы CTfile.[4]
PubChem также имеет форматы файлов XML и ASN1, которые представляют собой параметры экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (чаще всего ASN1 - это двоичный формат).
В таблице ниже перечислено большое количество других форматов.
Преобразование между форматами
OpenBabel и JOELib являются свободно доступными инструментами с открытым исходным кодом, специально разработанными для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.
babel -i input_format input_file -о Формат вывода выходной файл
Например, чтобы преобразовать файл epinephrine.sdf из SDF в CML, используйте команду
babel -i sdf epinephrine.sdf -o cml epinephrine.cml
В результате получается файл epinephrine.cml.
Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, могут читать файлы в нескольких форматах и записывать их в других форматах. Инструменты JChemPaint (на основе Комплект для разработки химии ), XDrawChem (на основе OpenBabel ), Перезвон, Jmol, Мол2моль[5][нужна цитата ] и Discovery Studio вписываются в эту категорию.
Химический проект MIME
«Химический MIME» - это фактический подход к добавлению MIME типы к химическим потокам.
Этот проект стартовал в январе 1994 г. и впервые был объявлен на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРНе в мае 1994 г. ... Первая версия проекта в Интернете была опубликована в мае – октябре 1994 г., а вторая пересмотренная версия в период с апреля по сентябрь 1995 г. Документ, представленный CPEP (Комитету по печатным и электронным публикациям) на заседании IUPAC в августе 1996 г., доступен для обсуждения.[6]
В 1998 г. работа была официально опубликована в JCIM.[7]
Расширение файла | MIME Тип | Правильное имя | Описание |
---|---|---|---|
алк | химическая / x-алхимия | Формат Алхимии | |
CSF | химический / x-cache-csf | CAChe MolStruct CSF | |
cbin, cascii, ctab | химический / x-cactvs-binary | Формат CACTVS | |
cdx | химический / x-cdx | Файл обмена ChemDraw | |
Cer | химический / x-cerius | Формат MSI Cerius II | |
c3d | химический / x-chem3d | Формат Chem3D | |
чм | химический / x-chemdraw | ChemDraw файл | |
cif | химический / x-cif | Кристаллографический информационный файл, Кристаллографическая информационная структура | Опубликован Международным союзом кристаллографии |
cmdf | химический / x-cmdf | Формат данных CrystalMaker | |
cml | химический / x-cml | Язык химической разметки | XML основан Язык химической разметки. |
cpa | химический / х-компас | Компасная программа Такахаши | |
bsd | химический / x-crossfire | Файл Crossfire | |
csm, csml | химический / x-csml | Язык разметки химического стиля | |
ctx | химический / x-ctx | Формат файлов CTX группы Gasteiger | |
cxf, cef | химический / x-cxf | Формат химического обмена | |
emb, embl | химический / x-embl-dl-нуклеотид | Формат нуклеотидов EMBL | |
spc | химический / x-galactic-spc | Формат SPC для спектральных и хроматографических данных | |
inp, gam, gamin | химический / x-gamess-input | GAMESS Формат ввода | |
fch, fchk | химический / x-gaussian-checkpoint | Гауссовский Формат контрольной точки | |
детеныш | химический / x-gaussian-cube | Гауссовский Формат куба (волновая функция) | |
gau, gjc, gjf, com | химический / x-gaussian-input | Гауссовский Формат ввода | |
gcg | химический / x-gcg8-последовательность | Формат белковой последовательности | |
ген | химический / x-genbank | Формат ToGenBank | |
istr, ist | химический / x-isostar | Библиотека межмолекулярных взаимодействий IsoStar | |
jdx, dx | химический / x-jcamp-dx | JCAMP Формат обмена спектроскопическими данными | |
родня | химический / x-kinemage | Кинетические (структура белка) изображения; Кинемаг | |
мкм | химическая / х-макмолекула | Формат файла MacMolecule | |
ммд, ммод | химический / x-макромодель-ввод | Макромодель Молекулярная механика | |
моль | химический / x-mdl-molfile | MDL Molfile | |
улыбки, улыбки | химические / x-дневные улыбки | Упрощенная спецификация ввода строки молекулярного ввода | Линейное обозначение молекул. |
sdf | химический / x-mdl-sdfile | Файл данных структуры | |
эль | химический / x-sketchel | SketchEl Molecule | |
ds | химический / х-лист данных | Таблица данных SketchEl XML | |
инчи | химический / x-inchi | Международный химический идентификатор ИЮПАК | |
jsd, jsdraw | химический / x-jsdraw | Собственный формат файла JSDraw | |
штурвал, ихельм | химикат / x-helm | Пистойя Альянс ШЛЕМ нить | Линейное обозначение биологических молекул |
xhelm | химический / x-xhelm | XML-файл Pistoia Alliance XHELM | XML основан ШЛЕМ включая определения мономеров |
Поддерживать
Для Linux / Unix файлы конфигурации доступны как "химические-мим-данные"пакет в .deb, Об / мин и форматы tar.gz для регистрации химических типов MIME на веб-сервере.[8][9] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или процессора для этих форматов, чтобы была доступна полная поддержка химических типов MIME.
Источники химических данных
Вот краткий список источников свободно доступных молекулярных данных. В Интернете гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.
- Соединенные штаты Национальный институт здоровья PubChem база данных - это огромный источник химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
- Всемирный банк данных о белках (wwPDB )[10] является отличным источником данных о координатах молекул белков и нуклеиновых кислот. Данные трехмерны и представлены в формате Protein Data Bank (PDB).
- eMolecules - коммерческая база данных молекулярных данных. Данные включают двухмерную структурную схему и строку улыбок для каждого соединения. eMolecules поддерживает быстрый поиск субструктур на основе частей молекулярной структуры.
- ChemExper коммерческая база данных молекулярных данных. Результаты поиска включают двухмерную структурную схему и файл кротов для многих соединений.
- Нью-Йоркский университет Библиотека трехмерных молекулярных структур.
- В Агентство по охране окружающей среды США Сеть баз данных распределенной структуры с возможностью поиска токсичности (DSSTox) - это проект программы EPA по вычислительной токсикологии. База данных содержит молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.
Смотрите также
- Формат файла
- OpenBabel, JOELib, OELib
- Комплект для разработки химии
- Язык химической разметки
- Программное обеспечение для молекулярного моделирования
- NCI / CADD преобразователь химических идентификаторов
Рекомендации
- ^ Chen, V.B .; и другие. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации». Белковая наука. 18 (11): 2403–2409. Дои:10.1002 / pro.250. ЧВК 2788294. PMID 19768809.
- ^ Хенрик, К .; и другие. (2008). «Восстановление архива банка данных белков». Исследования нуклеиновых кислот. 36 (Проблема с базой данных): D426 – D433. Дои:10.1093 / нар / гкм937. ЧВК 2238854. PMID 18073189.
- ^ Brooks, B.M .; и другие. (1983). «CHARMM: программа для расчета энергии макромолекул, минимизации и динамики». J. Comput. Chem. 4: 187–217. Дои:10.1002 / jcc.540040211.
- ^ Информационные системы MDL 2005
- ^ Домашняя страница Mol2mol
- ^ Домашняя страница химической MIME (Проверено 24 января 2013 г.)
- ^ Rzepa, H. S .; Murray-Rust, P .; Уитакер, Б. Дж. (1998). "Применение химических многоцелевых расширений электронной почты в Интернете (химическое MIME) Интернет-стандартов для электронной почты и обмена информацией в Интернете". Журнал химической информации и моделирования. 38 (6): 976. Дои:10.1021 / ci9803233.
- ^ http://packages.debian.org/search?keywords=chemical-mime
- ^ http://downloads.sourceforge.net/chemical-mime/
- ^ Berman, H.M .; и другие. (2003). «Представляем всемирный банк данных о белках». Структурная биология природы. 10 (12): 980. Дои:10.1038 / nsb1203-980. PMID 14634627.
внешняя ссылка
- Информационные системы МДЛ (Июнь 2005 г.), CTFile Форматы (PDF), Сан-Леандро, Калифорния, США: Информационные системы МДЛ, заархивировано из оригинал (PDF) 30 июня 2007 г.
- «Разрешить структурный идентификатор как SDF, CML, MRV, PDB». NCI. Национальные институты здравоохранения США: CADD Group Chemoinformatics Tools and User Services (CACTUS). Июль 2009 г.