Identificador químico internacional

El Identificador Químico Internacional IUPAC (InChI, pronunciado o) es un identificador textual para sustancias químicas, diseñadas para proporcionar una manera estándar y humana y legible de codificar la información molecular y facilitar la búsqueda de tal información en bases de datos y en la red. Al principio desarrollado por IUPAC y NIST durante 2000–2005, el formato y los algoritmos son no patentados y el software está libremente disponible bajo la fuente abierta la licencia de LGPL.

El desarrollo persistente del estándar ha sido apoyado desde 2010 por la Confianza de InChI sin fines de lucro, de la cual IUPAC es un miembro. La versión actual es 1.04 y se soltó en el septiembre de 2011.

Descripción

Los identificadores describen sustancias químicas en términos de capas de la información — los átomos y su conectividad de la obligación, tautomeric información, información del isótopo, stereochemistry, e información del precio electrónica.

No todas las capas se tienen que proporcionar; por ejemplo, la capa tautomer se puede omitir si ese tipo de la información no es relevante para la aplicación particular.

InChIs se diferencian de los números de registro CAS de uso común en tres respetos:

son

InChIs se puede así ver como parecido a una versión general y sumamente formalizada de nombres de IUPAC. Pueden expresar más información que la nota de SONRISAS más simple y diferenciarse en que cada estructura hace InChI único ensartar, que es importante en aplicaciones de base de datos. La información sobre las coordenadas de 3 dimensiones de átomos no se representa en InChI; para este fin un formato como el PDB se puede usar.

Los conversos del algoritmo de InChI introducen la información estructural en un identificador de InChI único en un proceso de tres pasos: normalización (para quitar información redundante), canonicalization (para generar una etiqueta del número única para cada átomo), y adaptación (para dar una serie de caracteres).

InChIKey, a veces referido como InChI desmenuzado, es una longitud fija (25 carácter) condensó la representación digital de InChI que no es comprensible por el humano. La especificación de InChIKey se soltó en el septiembre de 2007 a fin de facilitar búsquedas en la web para compuestos químicos, ya que éstos eran problemáticos con InChI de cuerpo entero.

En el enero de 2009 la 1.02 versión final del software InChI se soltó. Esto proporcionó un medio de generar InChI estándar llamado, que no tiene al usuario en cuenta opciones seleccionables en relación con el stereochemistry y las capas tautomeric de la cuerda de InChI. InChIKey estándar es entonces la versión desmenuzada de la cuerda de InChI estándar. InChI estándar simplificará la comparación de cuerdas de InChI y llaves generadas por grupos diferentes, y posteriormente tuvo acceso vía fuentes diversas como recursos de web y bases de datos.

Formato y capas

Cada InChI comienza con la cuerda "InChI =" seguido del número de versión, actualmente 1. Esto es seguido de la carta S para InChIs estándar. La información restante se estructura como una secuencia de capas y subcapas, con cada capa que proporciona un tipo concreto de la información. Las capas y las subcapas son separadas por el delimiter "/" y comienzan con una carta del prefijo característica (excepto la subcapa de la fórmula química de la capa principal). Las seis capas con subcapas importantes son:

  1. Capa principal
  2. * fórmula Química (ningún prefijo). Esto es la única subcapa que debe ocurrir en cada InChI.
  3. * conexiones del Átomo (prefijo: "c"). Los átomos en la fórmula química (excepto hydrogens) se numeran en la secuencia; esta subcapa describe qué átomos son relacionados por obligaciones con cual otro.
  4. * átomos de Hidrógeno (prefijo: "h"). Describe cuantos átomos de hidrógeno se relacionan con cada uno de los otros átomos.
  5. Capa del precio
  6. * subcapa del precio positiva (prefijo: "p" para "protones")
  7. * subcapa del precio negativa (prefijo: "q")
  8. Capa de Stereochemical
  9. * doblan obligaciones (prefijo: "b")
  10. * tetrahedral stereochemistry (prefijos: "t", "m")
  11. * tipo de información stereochemistry (prefijo: "s")
  12. Capa de Isotopic (prefijos: "yo", "h", así como "b", "t", "m", "s" para isotopic stereochemistry)
  13. Capa fija-H
  14. Capa relacionada de nuevo

El formato del delimiter-prefijo tiene la ventaja que un usuario puede usar fácilmente una búsqueda del comodín para encontrar identificadores que sólo hacen juego en ciertas capas.

Ejemplos

InChIKey

El condensado, 27 estándar de carácter InChIKey es una versión desmenuzada de InChI estándar lleno (usando el algoritmo SHA-256), diseñado para tener búsquedas en la web fáciles en cuenta de compuestos químicos. La mayor parte de estructuras químicas en la Red hasta 2007 se han representado como archivos de GIF, que no son disponibles para buscar para el contenido químico. InChI lleno resultó ser demasiado larguísimo para la busca fácil, y por lo tanto InChIKey se desarrolló. Hay una posibilidad muy pequeña, pero finita de dos moléculas diferentes que tienen mismo InChIKey, pero la probabilidad para la copia de sólo los 14 primeros caracteres se ha estimado como sólo una copia en 75 bases de datos cada uno que contiene mil millones de estructuras únicas. Con todas las bases de datos que actualmente tienen debajo de 50 millones de estructuras, tal copia parece improbable actualmente.

InChIKeys consisten en 14 caracteres que resultan de un picadillo de la información de la conectividad de InChI, seguido de un guión, seguido de 9 caracteres que resultan de un picadillo de las capas restantes de InChI, seguido de una indicación de carácter sola la versión de InChI usado, otro guión, seguido del carácter de la suma de control solo.

Ejemplo: la Morfina hace mostrar la estructura en el derecho. InChI estándar para la morfina es

e InChIKey estándar para la morfina es BQJCRHHNABKAKU-KBQPJGBKSA-N.

Nuevos solucionistas de InChI

Como InChI no se puede reconstruir de InChIKey, InChIKey siempre se tiene que unir a InChI original para regresar a la estructura original. Los Nuevos solucionistas de InChI sirven de un servicio de consulta para hacer estas relaciones, y los servicios del prototipo están disponibles de NCI y ChemSpider

Nombre

El formato al principio se llamó IChI (IUPAC Identificador Químico), luego se renombró en el julio de 2004 a INChI (IUPAC-NIST Identificador Químico) y se renombró otra vez en el noviembre de 2004 a InChI (IUPAC Identificador Químico Internacional), una marca registrada de IUPAC.

Seguir desarrollo

La dirección científica del estándar de InChI es realizada por la División IUPAC VIII Subcomité, y la financiación de investigación de subgrupos y definición de la extensión del estándar se realiza tanto por IUPAC como por la Confianza de InChI. Los Fondos fiduciarios de InChI el desarrollo, pruebas y documentación de InChI. Las extensiones corrientes se están definiendo para manejar polímeros y mezclas, estructuras de Markush, reacciones y organometallics, y una vez aceptadas por la División VIII Subcomité se añadirá al algoritmo.

Véase también

Enlaces externos

Documentación y presentaciones

Software y servicios



Buscar