herramienta de segmentación de corriente a jieba encabezado Resumen

Herramientas artículos

La siguiente columna de algunas de las herramientas más habituales de segmentación (en orden alfabético, todos a tratar), papel relacionado en su número de suscripción "vender Meng Yao Xi pequeña casa" respuesta backstage [Chino] palabra de recepción .

1 Jieba

Cuando se trata de la palabra herramienta primer pensamiento es, sin duda conocido "tartamudeo" palabra china, el algoritmo principal se basa en el camino más corto se mencionó anteriormente palabra gráfica segmentación estadística, también recientemente construyó un Baidu modelo de pre-entrenamiento a gran escala mosca propulsor + vanguardia de modelo de segmentación destilada.

github proyecto Dirección: https://github.com/fxsjy/jieba

 

2 THULAC (JUE Analizador Léxico para el chino)

Procesamiento del Lenguaje Lab lanzó por el desarrollo de Tsinghua cálculo natural y social y humano de un conjunto de herramientas de análisis léxico chino, la segmentación de palabras chino y función de etiquetado POS. El modelo de herramienta de segmentación empleado fue un perceptrón estructurado. Para más detalles, consulte algoritmo proyecto github y leer el original en papel.

github proyecto Dirección: https://github.com/thunlp/THULAC

Documentos de Enlace: https://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35403

Ejemplo de uso:

#THULAC
#pip install thulac
import thulac

sentence = "不会讲课的程序员不是一名好的算法工程师"
thu1 = thulac.thulac(seg_only=True)  #只分词
text = thu1.cut(sentence, text=True)  #进行一句话分词
print("THULAC: " + text)

#output
#Model loaded succeed
#THULAC: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程师

 

Palabra de sistema 3-NLPIR ICTCLAS china

Masiva de procesamiento de información de la lengua y la nube de computación de Beijing Instituto de Tecnología de Ingeniería Centro de Investigación de Búsqueda de Datos y Minería Laboratorio de liberación (Big Data Search y Minería Lab.BDSM@BIT). HMM se basa en el nivel de sub-tesauro, la palabra, POS, NER se incorporan en el marco de un nivel de formación conjunta HMM get.

Inicio: http://ictclas.nlpir.org/github

Dirección del proyecto: https://github.com/tsroten/pynlpir

Ejemplo de uso:

#NLPIR-ICTCLAS
#pip install pynlpir
import pynlpir

sentence = "不会讲课的程序员不是一名好的算法工程师"
pynlpir.open()
tokens = [x[0] for x in pynlpir.segment(sentence)]
print("NLPIR-TCTCLAS: " + " ".join(tokens))
pynlpir.close()

#output
#NLPIR-TCTCLAS: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程

 

4 LTP

HIT producido, como THULAC, LTP también se basa en la estructura de Perceptron (Structured Perceptron, SP), modelo de segmentación para estudiar las pautas de máxima entropía.

Proyecto Inicio: https://www.ltp-cloud.com/github

Dirección del proyecto: https://github.com/HIT-SCIR/ltp

Documentos de Enlace: http://jcip.cipsc.org.cn/CN/abstract/abstract1579.shtml

Ejemplo de uso: es necesario descargar el modelo de segmentación (antes de su uso http://ltp.ai/download.html )

 

5 HanLP

HanLP es con el "Procesamiento del Lenguaje Natural Getting Started" serie de la biblioteca de soporte algoritmos de PNL de código abierto. Además de la clásica fuera de la versión 1.x iteración constante actualización, este año también se lanzó una nueva versión 2.0. 1.x versiones tienen un diccionario de palabras y herramientas modelo de segmentación de palabras basado en el CRF. La versión 2.0 de la herramienta de segmentación de código abierto basado en el algoritmo de aprendizaje profundidad.

versión 1.x

github proyecto Dirección: https://github.com/hankcs/pyhanlp

versión 2.0

github Dirección: https://github.com/hankcs/HanLP/tree/doc-zh

Ejemplo de uso: Uso las reivindicaciones anteriores Python 3.6

#HanLP
#v2.0
#pip install hanlp
import hanlp

sentence = "不会讲课的程序员不是一名好的算法工程师"
tokenizer = hanlp.load('PKU_NAME_MERGED_SIX_MONTHS_CONVSEG')
tokens = tokenizer(sentence)
print("hanlp 2.0: " + " ".join(tokens))
#output
#hanlp 2.0: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程

 

6 Stanford CoreNLP

Stanford introdujo la herramienta de segmentación de palabras que puede soportar múltiples idiomas. El algoritmo de núcleo se basa en el modelo de CRF.

github proyecto Dirección: https://github.com/Lynten/stanford-corenlp

Documentos de Enlace: https://nlp.stanford.edu/pubs/sighan2005.pdf

Ejemplo de uso: Necesidad de comenzar la web oficial de Stanford para descargar modelo de segmentación de palabra china ( https://stanfordnlp.github.io/CoreNLP/ )

###stanford CoreNLP
#pip install stanfordcorenlp
from stanfordcorenlp import StanfordCoreNLP

sentence = "不会讲课的程序员不是一名好的算法工程师"
with StanfordCoreNLP(r'stanford-chinese-corenlp-2018-10-05-models', lang='zh') as nlp:
    print("stanford: " + " ".join(nlp.word_tokenize(sentence)))

Publicado 33 artículos originales · ganado elogios 0 · Vistas 3261

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/105036938
Recomendado
Clasificación