rdkit & nlp | Incrustación de palabras para sonrisas químicas

Segmentación de expresiones químicas de sonrisas

Los datos del corpus chino son un lote de textos cortos o textos largos, como una colección de oraciones, resúmenes de artículos, párrafos o el artículo completo. Generalmente, las palabras y palabras entre oraciones y párrafos son continuas y tienen ciertos significados. Al realizar minería y análisis de texto, esperamos que la unidad de granularidad más pequeña del procesamiento de texto sean palabras o palabras, por lo que en este momento, se necesita la segmentación de palabras para segmentar todo el texto.

De manera similar, al procesar texto químico, el tamaño de partícula unitario más pequeño que queremos procesar es el elemento o enlace
 

def smi_tokenizer(smi):
    """
    Tokenize a SMILES molecule or reaction
    """
    import re
    pattern =  "(\[[^\]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|\(|\)|\.|=|#|-|\+|\\\\|\/|:|~|@|\?|>|\*|\$|\%[0-9]{2}|

Supongo que te gusta

Origin blog.csdn.net/weixin_43236007/article/details/111241642
Recomendado
Clasificación