笑顔の化学表現のセグメンテーション
中国語のコーパスデータは、文のコレクション、記事の要約、段落、または記事全体など、短いテキストまたは長いテキストのバッチです。一般に、文と段落の間の単語と単語は連続しており、特定の意味を持っています。テキストマイニングと分析を実行する場合、テキスト処理の最小単位の粒度が単語または単語であることが望まれるため、現時点では、すべてのテキストをセグメント化するために単語のセグメント化が必要です。
同様に、化学テキストを処理する場合、処理する最小単位粒子サイズは元素または結合です。
def smi_tokenizer(smi):
"""
Tokenize a SMILES molecule or reaction
"""
import re
pattern = "(\[[^\]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|\(|\)|\.|=|#|-|\+|\\\\|\/|:|~|@|\?|>|\*|\$|\%[0-9]{2}|