Segmentación de expresiones químicas de sonrisas
Los datos del corpus chino son un lote de textos cortos o textos largos, como una colección de oraciones, resúmenes de artículos, párrafos o el artículo completo. Generalmente, las palabras y palabras entre oraciones y párrafos son continuas y tienen ciertos significados. Al realizar minería y análisis de texto, esperamos que la unidad de granularidad más pequeña del procesamiento de texto sean palabras o palabras, por lo que en este momento, se necesita la segmentación de palabras para segmentar todo el texto.
De manera similar, al procesar texto químico, el tamaño de partícula unitario más pequeño que queremos procesar es el elemento o enlace
def smi_tokenizer(smi):
"""
Tokenize a SMILES molecule or reaction
"""
import re
pattern = "(\[[^\]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|\(|\)|\.|=|#|-|\+|\\\\|\/|:|~|@|\?|>|\*|\$|\%[0-9]{2}|