Международный химический идентификатор - International Chemical Identifier

ИнЧИ
Разработчики)ИнЧИ Траст
изначальный выпуск15 апреля 2005 г. (2005-04-15)[1][2]
Стабильный выпуск
1.05 / март 2017; 3 года назад (2017-03)
Операционная системаМайкрософт Виндоус и Unix-подобный
ПлатформаIA-32 и x86-64
Размер4.3 МБ
Доступно ванглийский
ЛицензияЛицензия IUPAC / InChI Trust
Интернет сайтhttps://www.inchi-trust.org/

В ИЮПАК Международный химический идентификатор (ИнЧИ /ˈɪпя/ В-чи или же /ˈɪŋkя/ ING-ки ) является текстовым идентификатор за химические субстанции, разработанный для обеспечения стандартного способа кодирования молекулярной информации и облегчения поиска такой информации в базах данных и в Интернете. Первоначально разработан IUPAC (Международный союз теоретической и прикладной химии) и NIST (Национальный институт стандартов и технологий) с 2000 по 2005 год, формат и алгоритмы не являются собственностью.

Постоянное развитие стандарта поддерживается с 2010 г. некоммерческой организацией ИнЧИ Траст, членом которой является ИЮПАК. Текущая версия программного обеспечения - 1.05, выпущенная в январе 2017 года.

До версии 1.04 программное обеспечение было свободно доступно под Открытый исходный код LGPL лицензия,[3]но теперь он использует специальную лицензию под названием IUPAC-InChI Trust License.[4]

Обзор

Идентификаторы описывают химические вещества с точки зрения слои информации - атомы и их связь, таутомерный Информация, изотоп Информация, стереохимия и электронная информация о плате.[5]Не все слои должны быть предоставлены; например, слой таутомера можно опустить, если этот тип информации не имеет отношения к конкретному приложению.

ИнЧИ отличаются от широко используемых Регистрационные номера CAS в трех отношениях: во-первых, они могут свободно использоваться и не являются собственностью; во-вторых, они могут быть рассчитаны на основе структурной информации и не должны назначаться какой-либо организацией; и в-третьих, большая часть информации в InChI доступна для чтения человеком (с практикой).

Таким образом, InChI можно рассматривать как сродни общей и чрезвычайно формализованной версии Имена ИЮПАК. Они могут выражать больше информации, чем более простые Улыбки нотации и отличаются тем, что каждая структура имеет уникальную строку InChI, что важно для приложений баз данных. Информация о 3-х мерных координатах атомов в InChI не представлена; для этой цели такой формат, как PDB может быть использован.

Алгоритм InChI преобразует входную структурную информацию в уникальный идентификатор InChI в трехэтапном процессе: нормализация (для удаления избыточной информации), канонизация (для создания уникальной цифровой метки для каждого атома) и сериализация (для получения строки символов). .

InChIKey, иногда называемый хешированным InChI, представляет собой сжатое цифровое представление InChI фиксированной длины (27 символов), которое не доступно для понимания человеком. Спецификация InChIKey была выпущена в сентябре 2007 года для облегчения поиска в Интернете химических соединений, поскольку это было проблематично с полноразмерным InChI.[6] В отличие от InChI, InChIKey не уникален: хотя коллизии можно рассчитать как очень редкие, они случаются.[7]

В январе 2009 года была выпущена последняя версия 1.02 программного обеспечения InChI. Это предоставило средства для генерации так называемого стандартного InChI, который не позволяет пользователю выбирать параметры при работе со стереохимией и таутомерными слоями строки InChI. Стандартный InChIKey тогда является хешированной версией стандартной строки InChI. Стандартный InChI упростит сравнение строк и ключей InChI, сгенерированных разными группами и впоследствии доступных через различные источники, такие как базы данных и веб-ресурсы.

Формат и слои

Формат InChI
Тип интернет-СМИ
химический / x-inchi
Тип форматаформат химического файла

Каждый InChI начинается со строки «InChI =», за которой следует номер версии, в настоящее время 1. За ней следует буква S для стандартные инЧИ, который представляет собой полностью стандартизированный вариант InChI, сохраняющий тот же уровень внимания к деталям структуры и те же правила восприятия рисования. Остальная информация структурирована как последовательность уровней и подуровней, каждый из которых предоставляет один определенный тип информации. Слои и подслои разделяются разделителем «/» и начинаются с характерной буквы префикса (за исключением подслоя химической формулы основного слоя). Шесть слоев с важными подслоями:

  1. Основной слой
    • Химическая формула (без префикса). Это единственный подслой, который должен встречаться в каждом InChI.
    • Атомные соединения (префикс: "c"). Атомы в химической формуле (кроме атомов водорода) пронумерованы последовательно; этот подслой описывает, какие атомы связаны связями с другими.
    • Водород атомы (префикс: "h"). Описывает, сколько атомов водорода связано с каждым из остальных атомов.
  2. Обвинять слой
    • подслой протонов (префикс: «p» для «протонов»)
    • подслой заряда (префикс: "q")
  3. Стереохимический слой
    • двойные связи и кумулены (префикс: "b")
    • тетраэдрическая стереохимия атомов и алленов (префиксы: «т», «м»)
    • тип стереохимической информации (префикс: "s")
  4. Изотопический слой (префиксы: «i», «h», а также «b», «t», «m», «s» для изотопной стереохимии)
  5. Слой с фиксированным H (префикс: "f"); содержит некоторые или все вышеперечисленные типы слоев, за исключением соединений атомов; может заканчиваться подслоем «o»; никогда не входил в стандартный ИнХИ
  6. Повторно подключенный слой (префикс: «r»); содержит весь InChI структуры с пересоединенными атомами металла; никогда не входил в стандартный ИнХИ

Формат префикса-разделителя имеет то преимущество, что пользователь может легко использовать подстановочный знак поиск, чтобы найти идентификаторы, которые совпадают только в определенных слоях.

Примеры
Структурная формуластандартный InChI
InChI = 1S / C2H6O / c1-2-3 / h3H, 2H2,1H3
InChI = 1S / C6H8O6 / c7-1-2 (8) 5-3 (9) 4 (10) 6 (11) 12-5 / h2,5,7-8,10-11H, 1H2 / t2-, 5 + / m0 / s1

InChIKey

Сжатый, 27 символов InChIKey это хешированный версия полной ИнХИ (с использованием SHA-256 алгоритм), предназначенный для упрощения поиска химических соединений в Интернете.[6] В стандартный InChIKey является хешированным аналогом стандартный InChI. Большинство химических структур в Интернете до 2007 г. были представлены как Файлы GIF, которые не доступны для поиска по химическому содержанию. Полный InChI оказался слишком длинным для удобного поиска, поэтому был разработан InChIKey. Существует очень малая, но отличная от нуля вероятность того, что две разные молекулы имеют один и тот же InChIKey, но вероятность дублирования только первых 14 символов оценивается как только одно дублирование в 75 базах данных, каждая из которых содержит один миллиард уникальных структур. Поскольку все базы данных в настоящее время имеют менее 50 миллионов структур, такое дублирование в настоящее время представляется маловероятным. Недавнее исследование более подробно изучает частоту столкновений, обнаруживая, что экспериментальная частота столкновений соответствует теоретическим ожиданиям.[8]

InChIKey состоит из трех частей, разделенных дефисом, по 14, 10 и одного символа (ов) соответственно, например XXXXXXXXXXXXXX-YYYYYYYYYY-Z. Первые 14 символов являются результатом хэша информации о подключении InChI. Вторая часть состоит из 8 символов, являющихся результатом хеширования оставшихся слоев InChI, одного символа, указывающего тип InChIKey, и одного символа, указывающего версию используемого InChI. Наконец, один символ указывает протонирование.[9]

Пример

Структура морфина

Морфий имеет структуру, показанную справа. Стандартный InChI для морфина: InChI = 1S / C17H19NO3 / c1-18-7-6-17-10-3-5-13 (20) 16 (17) 21-15-12 (19) 4-2-9 (14 (15) 17) 8-11 (10) 18 / ч2-5,10-11,13,16,19-20H, 6-8H2,1H3 / t10-, 11 +, 13-, 16-, 17- / м0 / с1а стандартный InChIKey для морфина - BQJCRHHNABKAKU-KBQPJGBKSA-N.[10]

Резолверы InChI

Поскольку InChI не может быть реконструирован из InChIKey, InChIKey всегда должен быть связан с исходным InChI, чтобы вернуться к исходной структуре. InChI Resolvers действуют как служба поиска для создания этих ссылок, а услуги прототипов доступны по адресу Национальный институт рака, то Сервис UniChem на Европейский институт биоинформатики, и PubChem. ChemSpider имел резольвер до июля 2015 года, когда он был выведен из эксплуатации.[11]

Имя

Первоначально формат назывался IChI (химический идентификатор IUPAC), затем в июле 2004 г. был переименован в INChI (химический идентификатор IUPAC-NIST) и снова переименован в ноябре 2004 г. в InChI (международный химический идентификатор IUPAC), товарный знак IUPAC.

Постоянное развитие

Научное руководство стандартом InChI осуществляется Подкомитетом IUPAC Division VIII, а финансирование подгрупп, исследующих и определяющих расширение стандарта, осуществляется обеими сторонами. ИЮПАК и ИнЧИ Траст. InChI Trust финансирует разработку, тестирование и документирование InChI. Текущие расширения определяются для обработки полимеры и смеси, Структуры Маркуша, реакции[12] и металлоорганические соединения, и после принятия Подкомитетом Отдела VIII будет добавлен в алгоритм.

Принятие

InChI был принят во многих больших и малых базах данных, в том числе ChemSpider, ЧЭМБЛ, База данных метаболома Голма, OpenPHACTS, и PubChem.[13] Однако принятие не является простым, и многие базы данных показывают несоответствие между химическими структурами и InChI, которые они содержат, что является проблемой для связывания баз данных.[14]

Смотрите также

Примечания и ссылки

  1. ^ "Страница проекта Международного химического идентификатора ИЮПАК". ИЮПАК. Архивировано из оригинал 27 мая 2012 г.. Получено 5 декабря 2012.
  2. ^ Heller, S .; McNaught, A .; Stein, S .; Чеховской, Д .; Плетнев, И. (2013). «InChI - всемирный стандарт определения химической структуры». Журнал химинформатики. 5 (1): 7. Дои:10.1186/1758-2946-5-7. ЧВК  3599061. PMID  23343401.
  3. ^ Макнот, Алан (2006). «Международный химический идентификатор ИЮПАК: InChl». Chemistry International. 28 (6). ИЮПАК. Получено 2007-09-18.
  4. ^ http://www.inchi-trust.org/download/104/LICENCE.pdf
  5. ^ Heller, S.R .; McNaught, A .; Плетнев, И .; Stein, S .; Чеховской Д. (2015). «InChI, международный химический идентификатор ИЮПАК». Журнал химинформатики. 7: 23. Дои:10.1186 / s13321-015-0068-4. ЧВК  4486400. PMID  26136848.
  6. ^ а б «Международный химический идентификатор (InChI) ИЮПАК». ИЮПАК. 5 сентября 2007 г. Архивировано с оригинал 30 октября 2007 г.. Получено 2007-09-18.
  7. ^ E.L. Виллигхаген (17 сентября 2011 г.). "Столкновение InChIKey: копии / пасты своими руками". Получено 2012-11-06.
  8. ^ Плетнев, И .; Erin, A .; McNaught, A .; Блинов, К .; Чеховской, Д .; Хеллер, С. (2012). «Устойчивость к столкновению InChIKey: экспериментальная проверка». Журнал химинформатики. 4 (1): 39. Дои:10.1186/1758-2946-4-39. ЧВК  3558395. PMID  23256896.
  9. ^ «Технический FAQ - ИнЧИ Траст». inchi-trust.org. Получено 14 апреля 2018.
  10. ^ «InChI = 1 / C17H19NO3 / c1-18 ...» Chemspider. Получено 2007-09-18.
  11. ^ InChI Resolver, 27 июля 2015 г., http://www.chemspider.com/InChiResolverDecommissioned.aspx
  12. ^ Грет, Гюнтер; Бланке, Герд; Краут, Ганс; Гудман, Джонатан М. (9 мая 2018 г.). «Международный химический идентификатор реакций (РИнЧИ)». Журнал химинформатики. 10 (1): 45. Дои:10.1186 / s13321-018-0277-8. ЧВК  4015173. PMID  24152584.
  13. ^ Уорр, W.A. (2015). «Множество инЧи и немало подвигов». Журнал компьютерного молекулярного дизайна. 29 (8): 681–694. Bibcode:2015JCAMD..29..681W. Дои:10.1007 / s10822-015-9854-3. PMID  26081259.
  14. ^ Akhondi, S.A .; Kors, J. A .; Муресан, С. (2012). "Согласованность систематических химических идентификаторов в базах данных малых молекул и между ними". Журнал химинформатики. 4 (1): 35. Дои:10.1186/1758-2946-4-35. ЧВК  3539895. PMID  23237381.

внешняя ссылка