Python_jieba库

jieba库是Python中一个重要的第三方中文分词函数库，能够将一段中文文本分隔成中文词语序列，就像人结巴时说话一样。

实例1：

import jieba  #

f = open('data.txt','r')   # 导入文本数据
lines = f.readlines()
f.close()
f = open('out.txt','r+')  # 使用r+模式读取和写入文件
for line in lines:     
    line=  line.strip()         # 删除每行首尾可能出现的空格
    wordList = jieba.lcut(line)         # 用结巴分词，对每行内容进行分词
    f.writelines('\n'.join(wordList))  # 将分词结果存到文件out.txt中
f.seek(0)
txt = f.read()
print(txt)
f.close()

lcut() 是jieba库中常用的函数，精确模式分词，返回一个列表类型

输出：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.931 seconds.
Prefix dict has been built successfully.
内容简介
编辑整个
故事
在
东汉
末年
至
西晋
初
的
历史
大
背景
下
展开
。
东汉
末年
，

实例2：

import jieba

f1 = open('data.txt','r')
data = f1.read()
f1.close()
f = open('out1.txt','w+')
data1 = jieba.lcut(data)
d = []
for x in data1:
    if len(x) >= 3 and x not in d:  # 统计字长不小于3个字的词语
        f.write(x+'\n')
        d.append(x)
f.seek(0)
txt = f.read()
print(txt)
f.close()

data.txt文本内容：

人工智能、机器学习和深度学习之间的区别和联系
有人说，人工智能（AI）是未来，人工智能是科幻，人工智能也是我们日常生活中的一部分。这些评价可以说都是正确的，就看你指的是哪一种人工智能。
今年早些时候，Google DeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。在媒体描述DeepMind胜利的时候，将人工智能（AI）、机器学习（machine learning）和深度学习（deep learning）都用上了。这三者在AlphaGo击败李世乭的过程中都起了作用，但它们说的并不是一回事。

今天我们就用最简单的方法——同心圆，可视化地展现出它们三者的关系和应用。

人工智能、机器学习和深度学习之间的区别和联系

如上图，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。

五十年代，人工智能曾一度被极为看好。之后，人工智能的一些较小的子集发展了起来。先是机器学习，然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。
| 从概念的提出到走向繁荣

1956年，几个计算机科学家相聚在达特茅斯会议（Dartmouth
Conferences），提出了“人工智能”的概念。其后，人工智能就一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化。之后的几十年，人工智能一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里。坦白说，直到2012年之前，这两种声音还在同时存在。

过去几年，尤其是2015年以来，人工智能开始大爆发。很大一部分是由于GPU的广泛应用，使得并行计算变得更快、更便宜、更有效。当然，无限拓展的存储能力和骤然爆发的数据洪流（大数据）的组合拳，也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。

扫描二维码关注公众号，回复： 9552734 查看本文章

让我们慢慢梳理一下计算机科学家们是如何将人工智能从最早的一点点苗头，发展到能够支撑那些每天被数亿用户使用的应用的。

| 人工智能（Artificial Intelligence）——为机器赋予人的智能

人工智能、机器学习和深度学习之间的区别和联系

早在1956年夏天那次会议，人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。这就是我们现在所说的“强人工智能”（General
AI）。这个无所不能的机器，它有着我们所有的感知（甚至比人更多），我们所有的理性，可以像我们一样思考。

人们在电影里也总是看到这样的机器：友好的，像星球大战中的C-3PO；邪恶的，如终结者。强人工智能现在还只存在于电影和科幻小说中，原因不难理解，我们还没法实现它们，至少目前还不行。

我们目前能实现的，一般被称为“弱人工智能”（Narrow
AI）。弱人工智能是能够与人一样，甚至比人更好地执行特定任务的技术。例如，Pinterest上的图像分类；或者Facebook的人脸识别。

这些是弱人工智能在实践中的例子。这些技术实现的是人类智能的一些具体的局部。但它们是如何实现的？这种智能是从何而来？这就带我们来到同心圆的里面一层，机器学习。

输出：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.947 seconds.
Prefix dict has been built successfully.
人工智能
日常生活
一部分
早些时候
Google
DeepMind
AlphaGo
machine
learning
deep
同心圆
可视化
展现出
如上图
五十年代
曾一度
前所未有
1956
计算机
科学家
达特茅斯
Dartmouth
Conferences
实验室
几十年
极反转
被称作
人类文明
垃圾堆
坦白说
2012
2015
GPU
广泛应用
并行计算
组合拳
一点点
Artificial
Intelligence
General
无所不能
星球大战
3PO
终结者
科幻小说
不难理解
Narrow
Pinterest
Facebook
人脸识别
在实践中
从何而来

示例3：

import jieba
f = open("data.txt",'r')
data = f.read()
f.close()
f = open("out2.txt",'w+')
d = {}
data2 = jieba.lcut(data)
for D in data2:
    if len(D) >= 3:
        d[D] = d.get(D, 0)+1  # dict.get(key, default=None) 
'''key -- 字典中要查找的键
   default -- 如果指定键的值不存在时，返回该默认值'''
ls = list(d.items())
ls.sort(key=lambda x:x[1], reverse=True) # 此行可以按照词频由高到低排序
for L in ls:
    f.write(L[0]+":"+str(L[1])+'\n')
f.seek(0)
txt = f.read()
print(txt)
f.close()

输出：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.906 seconds.
Prefix dict has been built successfully.
人工智能:24
同心圆:3
计算机:3
一部分:2
DeepMind:2
AlphaGo:2
learning:2
1956:2
科学家:2
日常生活:1
早些时候:1
Google:1
machine:1
deep:1
可视化:1
展现出:1
如上图:1
五十年代:1
曾一度:1
前所未有:1
达特茅斯:1
Dartmouth:1
Conferences:1
实验室:1
几十年:1
极反转:1
被称作:1
人类文明:1
垃圾堆:1
坦白说:1
2012:1
2015:1
GPU:1
广泛应用:1
并行计算:1
组合拳:1
一点点:1
Artificial:1
Intelligence:1
General:1
无所不能:1
星球大战:1
3PO:1
终结者:1
科幻小说:1
不难理解:1
Narrow:1
Pinterest:1
Facebook:1
人脸识别:1
在实践中:1
从何而来:1

Wayne帆

发布了16 篇原创文章 · 获赞 8 · 访问量 1826

私信关注

jieba库是Python中一个重要的第三方中文分词函数库，能够将一段中文文本分隔成中文词语序列，就像人结巴时说话一样。

lcut() 是jieba库中常用的函数，精确模式分词，返回一个列表类型

猜你喜欢