Файл химической таблицы - Chemical table file
Файл химической таблицы (CT File) - семейство текстовых форматы файлов химических веществ описывающие молекулы и химические реакции. Один формат, например, перечисляет каждый атом в молекуле, координаты x-y-z этого атома и связи между атомами.
Форматы файлов
В семействе есть несколько форматов файлов.
Форматы были созданы Информационные системы MDL (MDL), который был приобретен Symyx Technologies затем слился с Accelrys Corp., которая сейчас называется BIOVIA, дочерняя компания Dassault Systemes of Dassault Group[1]
CT-файл - это открытый формат, BIOVIA публикует свою спецификацию.[2]
Molfile
Расширение имени файла | .mol |
---|---|
Тип интернет-СМИ | химический / x-mdl-molfile |
Тип формата | формат химического файла |
An MDL Molfile - это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.
Molfile состоит из некоторой информации заголовка, таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.
Молфил достаточно распространен, чтобы большинство, если не все, хеминформатика программные системы / приложения могут читать формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica.
Электрический ток де-факто стандартная версия - molfile V2000; хотя в последнее время формат V3000 получил достаточно широкое распространение, чтобы представить потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.
L-аланин | Строка заголовка (может быть пустым, но строка должна существовать) | Блок заголовка (3 строки) |
---|---|---|
ABCDEFGH09071717443D | Строка отметки времени программы / файла (Название исходной программы и отметка времени файла) | |
Экспортировано | Строка комментария (может быть пустым, но строка должна существовать) | |
6 5 0 0 1 0 3 В2000 | Линия счета | Таблица подключений |
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0-0,7207 2,0817 0,0000 C 1 0 0 0 0 0-1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 0 0 0 | Блок атома (1 строка для каждого атома): x, y, z (в ангстремы ), элемент и т. д. | |
1 2 1 0 0 01 3 1 1 0 01 4 1 0 0 02 5 2 0 0 02 6 1 0 0 0 | Блок облигаций (1 строка для каждой связи): 1-й атом, 2-й атом, тип и т. Д. | |
M CHG 2 4 1 6 -1M ISO 1 3 13 | Блок свойств | |
M КОНЕЦ | Конец строки (ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед M END) | КОНЕЦ |
Линия счета
Строка Original Counts имеет следующую спецификацию.
Ценить | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Описание | количество атомов | количество облигаций | номер списка атомов | Хиральный флаг, 1 = хиральный; 0 = не хиральный | количество записей stext | количество строк дополнительные свойства | моль версия |
Тип | [Generic] | [Generic] | [Запрос] | [Generic] | [ISIS / Desktop] | [Generic] |
Расширенная таблица подключений (V3000)
Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует единственное molfile-приложение, которое содержит тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфил.
Обратите внимание, что «без структуры» помечается меткой «V3000» вместо метки версии «V2000». Помимо версии в шапке есть еще два изменения:
- Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие считыватели проигнорируют счет и остановятся на M END.)
- «Размерный код» поддерживается более явно. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены ненулевые Z-координаты.
В отличие от molfile V2000, расширенный molfile V3000 Rgroup имеет тот же формат заголовка, что и molfile не-Rgroup.
L-аланин | Описание | Блок заголовка |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 | Заголовок с отметкой времени | |
Рисунок 1, J. Chem. Инф. Comput. Sci., Том 32, № 3., 1992 | Строка комментария | |
0 0 0 0 0 999 V3000 | Линия совместимости с V2000 | |
M V30 НАЧАТЬ CTAB | Таблица подключений | |
M V30 СЧЕТА 6 5 0 0 1 | Линия счета | |
M V30 НАЧАЛО АТОММ V30 1 C -0,6622 0,5342 0 0 CFG = 2M V30 2 C 0,6622 -0,3 0 0M V30 3 C -0,7207 2,0817 0 0 МАССА = 13M V30 4 N -1,8622 -0,3695 0 0 CHG = 1M V30 5 O 0,622 -1,8037 0 0M V30 6 O 1,9464 0,4244 0 0 CHG = -1M V30 КОНЕЦ АТОМ | Блок атома | |
M V30 BEGIN BONDM V30 1 1 1 2M V30 2 1 1 3 CFG = 1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6M V30 END BOND | Блок облигаций | |
M V30 END CTABM END |
Линия счета
Строка подсчета обязательна, и она должна быть первой. Он определяет количество атомов, связей, 3D-объектов и S-групп. Он также указывает, установлен ли флаг CHIRAL. По желанию, в строке счетчиков можно указать молрегно. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счета:
M V30 СЧЕТА | на | nb | нсг | n3d | хиральный | [REGNO = regno] |
M V30 СЧЕТА | 6 | 5 | 0 | 0 | 1 | |
SDF
Расширение имени файла | .sd, .sdf |
---|---|
Тип интернет-СМИ | химический / x-mdl-sdfile |
Тип формата | формат химического файла |
SDF - это один из семейства форматов файлов с химическими данными, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает файл структурных данных, а файлы SDF фактически обертывают molfile (MDL Molfile ) формат. Множественные соединения ограниченный строками, состоящими из четырех знаков доллара ($$$$). Особенностью формата SDF является его способность включать связанные данные.
Связанные элементы данных обозначаются следующим образом:
> <Unique_ID>XCA3464366> <ClogP>5.825> <Vendor>Сигма> <Molecular Weight>499.611
Также поддерживаются многострочные элементы данных. Спецификация MDL SDF-формата требует, чтобы был вставлен символ жесткого возврата каретки, если одна строка любого текстового поля превышает 200 символов. На практике это требование часто нарушается, так как многие Улыбки и ИнЧИ строки превышают эту длину.
Другие форматы семьи
Существуют и другие, менее часто используемые форматы семейства:
- RXNFile - для представления единой химической реакции;
- RDFile - для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
- RGFile - для представления Структуры Маркуша (не рекомендуется, Molfile V3000 может представлять структуры Маркуша);
- XDFile - для представления химической информации в XML формат.
Смотрите также
Рекомендации
- ^ Dalby, A .; Nourse, J. G .; Hounshell, W. D .; Gushurst, A. K. I .; Grier, D. L .; Leland, B.A .; Лауфер, Дж. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Журнал химической информации и моделирования. 32 (3): 244. Дои:10.1021 / ci00007a012.
- ^ Биовия (июнь 2014 г.), Форматы файлов CT, Биовия. Определения формата CTFile доступны по запросу (требуется регистрация).
внешняя ссылка
- SDF Toolkit бесплатное программное обеспечение для обработки файлов SD (SDF).
- NCI / CADD преобразователь химических идентификаторов генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ....
- KNIME бесплатное программное обеспечение для обработки данных и анализа данных, а также может читать и записывать файлы SD (SDF).
- Панель сравнительной токсикологии служба, предоставляемая Агентством по охране окружающей среды (EPA), которая генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ...