【Python】使用jieba对文本进行分词

【参考】

https://blog.csdn.net/u011402896/article/details/79652042

jieba分词的三种模式

  

# -*- coding:utf-8 -*-
import jieba

import sys
reload(sys)
sys.setdefaultencoding('utf8')

char_x2="考勤机分两大类:第一类是简单打印类,打卡时,原始记录数据通过考勤机直接打印在卡片上,卡片上的记录时间即为原始的考勤信息,对初次使用者无需做任何事先的培训即可立即使用;第二类是存储类,打卡时,原始记录数据直接存储在考勤机内,然后通过计算机采集汇总,再通过软件处理,最后形成所需的考勤信息或查询或打印,其考勤信息灵活丰富,对初次使用者需做一些事先培训才能逐渐掌握其全部使用功能。"
test1 = jieba.cut(char_x2, cut_all=True)
print("全模式: " + "| ".join(test1))

test2 = jieba.cut(char_x2, cut_all=False)
print("精确模式: " + "| ".join(test2))

test3= jieba.cut_for_search(char_x2)
print("搜索引擎模式:" + "| ".join(test3))

  【打印结果】

全模式: 考勤| 考勤机| 分| 两大类| 大类| | | 第一| 第一类| 一类| 是| 简单| 单打| 打印| 类| | | 打卡| 时| | | 原始| 原始记录| 记录| 数据| 数据通| 通过| 考勤| 考勤机| 直接| 打印| 在| 卡片| 上| | | 卡片| 上| 的| 记录| 记录时间| 时间| 即为| 原始| 的| 考勤| 信息| | | 对| 初次| 使用| 使用者| 用者| 无需| 做| 任何| 何事| 事先| 的| 培训| 即可| 立即| 即使| 使用| | | 第二| 第二类| 二类| 是| 存储| 类| | | 打卡| 时| | | 原始| 原始记录| 记录| 数据| 直接| 存储| 在| 考勤| 考勤机| 机内| | | 然后| 通过| 计算| 计算机| 算机| 采集| 汇总| | | 再| 通过| 软件| 处理| | | 最后| 形成| 所需| 的| 考勤| 信息| 或| 查询| 或| 打印| | | 其| 考勤| 信息| 灵活| 丰富| | | 对| 初次| 使用| 使用者| 用者| 需| 做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 用功| 功能| | 

精确模式: 考勤机| 分| 两大类| :| 第一类| 是| 简单| 打印| 类| ,| 打卡| 时| ,| 原始记录| 数据| 通过| 考勤机| 直接| 打印| 在| 卡片| 上| ,| 卡片| 上| 的| 记录时间| 即| 为| 原始| 的| 考勤| 信息| ,| 对| 初次| 使用者| 无需| 做| 任何| 事先| 的| 培训| 即可| 立即| 使用| ;| 第二类| 是| 存储| 类| ,| 打卡| 时| ,| 原始记录| 数据| 直接| 存储| 在| 考勤机| 内| ,| 然后| 通过| 计算机| 采集| 汇总| ,| 再| 通过| 软件| 处理| ,| 最后| 形成| 所| 需| 的| 考勤| 信息| 或| 查询| 或| 打印| ,| 其| 考勤| 信息| 灵活| 丰富| ,| 对| 初次| 使用者| 需做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 功能| 。

搜索引擎模式:考勤| 考勤机| 分| 大类| 两大类| :| 第一| 一类| 第一类| 是| 简单| 打印| 类| ,| 打卡| 时| ,| 原始| 记录| 原始记录| 数据| 通过| 考勤| 考勤机| 直接| 打印| 在| 卡片| 上| ,| 卡片| 上| 的| 记录| 时间| 记录时间| 即| 为| 原始| 的| 考勤| 信息| ,| 对| 初次| 使用| 用者| 使用者| 无需| 做| 任何| 事先| 的| 培训| 即可| 立即| 使用| ;| 第二| 二类| 第二类| 是| 存储| 类| ,| 打卡| 时| ,| 原始| 记录| 原始记录| 数据| 直接| 存储| 在| 考勤| 考勤机| 内| ,| 然后| 通过| 计算| 算机| 计算机| 采集| 汇总| ,| 再| 通过| 软件| 处理| ,| 最后| 形成| 所| 需| 的| 考勤| 信息| 或| 查询| 或| 打印| ,| 其| 考勤| 信息| 灵活| 丰富| ,| 对| 初次| 使用| 用者| 使用者| 需做| 一些| 事先| 培训| 才能| 逐渐| 掌握| 其| 全部| 使用| 功能| 。

【待补充】

扫描二维码关注公众号,回复: 5615303 查看本文章

猜你喜欢

转载自www.cnblogs.com/anno-ymy/p/10578655.html