python小试中文分词（并解决编码问题）

其他 2018-07-26 21:59:59 阅读次数: 0

pip安装thulac

pip install thulac

写一个test.py文件，内容如下：

#coding=utf-8
import thulac   

thu1 = thulac.thulac()  #默认模式
text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
print(text)

在cmd中运行该文件：

python test.py

但是发现一个问题，cmd编码为ASCII，中文为GBK，cmd命令行运行出来是乱码，为了在命令行正常显示，将文件内容改为：

#coding=utf-8

import thulac 
thu1 = thulac.thulac()  #默认模式

str="马老师是好同志"
def u2g(str):
    str_utf8=str.decode("UTF-8")
    str_gbk = str_utf8.encode("gbk")
    return str_gbk

print(u2g("马老师是好同志"))
text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
print(u2g(text))

参考：

http://thulac.thunlp.org/#%E7%BC%96%E8%AF%91%E5%92%8C%E5%AE%89%E8%A3%85

https://www.cnblogs.com/jxzheng/p/5186490.html

https://www.cnblogs.com/raphael5200/p/5998818.html

猜你喜欢

转载自blog.csdn.net/dongyuguoai/article/details/80963522

python小试中文分词（并解决编码问题）

Python中解决中文解码编码问题

python中文编码&json中文输出问题与解决

# python 中文编码问题

Python - 中文编码问题

Python中文编码问题

Python 中文编码问题

Python的中文编码问题

解决python的中文字符编码问题

paip 日志中文编码原理问题本质解决python

Python 解决地址栏中文编码问题

【爬虫】python解决QQ邮箱查询接口的中文编码问题

python 设置requests 编码，完美解决中文乱码问题

Python显示中文时间编码问题解决

Python中的中文编码问题及解决方案

解决爬虫中文的编码问题

MySQL解决中文编码问题

Python 怎么解决中文编码

python中文编码乱码问题

python里面中文编码的问题

python requests 中文编码问题

问题2：python中文编码

Python发送Http请求时，提交中文或者符号中文编码问题的解决方法

Python 中文分词

python实现中文分词

python之中文分词

python的中文分词

Python中的编码问题，中文乱码问题

解决NLPIR中文分词系统Lisence过期问题

jsp之解决中文编码问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)