Python_jieba库


jieba Pythonライブラリの重要なサードパーティ製の中国語の単語のライブラリである、いくつかの中国のテキストがとき人々の吃音のように、シーケンス、ちょうど話に中国語の単語に分けることができます。


例1:

import jieba  #

f = open('data.txt','r')   # 导入文本数据
lines = f.readlines()
f.close()
f = open('out.txt','r+')  # 使用r+模式读取和写入文件
for line in lines:     
    line=  line.strip()         # 删除每行首尾可能出现的空格
    wordList = jieba.lcut(line)         # 用结巴分词,对每行内容进行分词
    f.writelines('\n'.join(wordList))  # 将分词结果存到文件out.txt中
f.seek(0)
txt = f.read()
print(txt)
f.close()

LCUT()ライブラリはjieba一般的に使用される機能、精密モードワードは、あるタイプのリストを返します

出力:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.931 seconds.
Prefix dict has been built successfully.
内容简介
编辑整个
故事
在
东汉
末年
至
西晋
初
的
历史
大
背景
下
展开
。
东汉
末年
,

例2:

import jieba

f1 = open('data.txt','r')
data = f1.read()
f1.close()
f = open('out1.txt','w+')
data1 = jieba.lcut(data)
d = []
for x in data1:
    if len(x) >= 3 and x not in d:  # 统计字长不小于3个字的词语
        f.write(x+'\n')
        d.append(x)
f.seek(0)
txt = f.read()
print(txt)
f.close()

data.txtをテキスト:

人工知能、機械学習と深い学習の違いとの接続
、いくつかの発言は、人工知能(AI)は、将来のある、人工知能はサイエンスフィクションである、人工知能は、私たちの日常生活の一部です。これらの評価は、あなたがどのような人工知能の意味を参照して、正しいことを言うことができます。
今年初め、AlphaGoのグーグルDeepMindはゴーカウの韓国の李世ドルのマスターを破りました。メディアはDeepMind勝利、人工知能(AI)、機械学習(機械学習)と深い学習(ディープラーニング)を記述する場合の両方を使用します。これら三つの過程でAlphaGoは李世ドルの者を倒す役割を果たしてきたが、彼らは同じことについて話されていません。

今日は、最も簡単な方法を使用する - 同心円は、視覚的な関係を示し、それら3を適用します。

人工知能、機械学習と深い学習の違いとの接続

上記のように、人工知能は、最も外側の同心円、早いと最大であり、機械学習に続いて、少し後、最も内側には、今日の人工知能の爆発のコアドライバを学習の深さです。

フィフティーズは、人工知能はかつて非常に良好でした。その後、人工知能のいくつかの小さなサブセットが一緒に開発しました。その後、まず、機械学習、学習の深さ。ディープ学習は機械学習のサブセットです。綿密な研究はこれまでに多大な影響をもたらしました。
|コンセプトから繁栄へ

1956年に、いくつかのコンピュータ科学者が会議ダートマス(ダートマスに集まっ
会議)の「人工知能」のコンセプト。その後、AIは人々の心に残るされてきた、と徐々に研究室で孵化します。数十年後、人工知能は、そうでない場合は、人間の文明の明るい将来の予測に言及、逆極でてきました。または、ゴミ箱に投げ込ま狂人の妄想技術として扱われます。率直に言っては、2012年までは、2人の声がまだ存在しています。

過去数年間、特に2015年以降、AIの流行が始まりました。並列計算高速で、より安価で効果的な製造GPUの大規模な使用に起因する大部分、。もちろん、無制限のストレージ容量とデータの洪水(ビッグデータ)ボクシングの組み合わせの突然の流行が拡大するだけでなく、画像データ、テキストデータ、トランザクションデータ、地図データ、総合的な質量の流行を作ります。

少しの最も初期の兆候からの人工知能は、これらのアプリケーションの開発をサポートすることができ、ユーザーの何百万、数百で毎日を使用する方法が何であるかをコンピュータ科学者からゆっくりソート私たちをみましょう。

| AI(人工知能) - インテリジェントマシンが人々に与えられています

人工知能、機械学習と深い学習の違いとの接続

初期の1956年その会議の夏のように、コンピュータを夢見人工知能のパイオニアは、ちょうど同じ特性と人間の知能機械の自然と、複雑な構築するために登場していました。これは、我々は今、「強いAI」(一般呼んで
AI)。すべての強力なマシンは、それが私たちの知覚(さらに多くの人々よりも)のすべて、私たちの合理性のすべてを持って、私たちのように考えることができます。

;悪、そのようなターミネーターのように優しい、スターウォーズのC-3POのような:人々は常に映画の中で、このような機械を参照してください。強いAIは今理由を理解しやすく、唯一の映画やSF小説に存在し、少なくとも今のところは十分ではありません、我々は、彼らの法律を達成していません。

私たちは、達成することができる、一般的に「弱いAI」(狭いとして知られている
AI)。弱いAIは、人々が技術の特定のタスクを実行するために、より良いよりも、人々のような、ことができます。例えば、画像分類Pinterestの、Facebookの、又は顔認識。

これらは、実際にはAIの例は弱いです。これらは、地元の人間の知性の特定の技術的な実装の一部です。しかし、彼らがどのように実現していますか?この知性から来ますか?これは、同心円の内側の層、機械学習に連れて行ってくれました。

出力:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.947 seconds.
Prefix dict has been built successfully.
人工智能
日常生活
一部分
早些时候
Google
DeepMind
AlphaGo
machine
learning
deep
同心圆
可视化
展现出
如上图
五十年代
曾一度
前所未有
1956
计算机
科学家
达特茅斯
Dartmouth
Conferences
实验室
几十年
极反转
被称作
人类文明
垃圾堆
坦白说
2012
2015
GPU
广泛应用
并行计算
组合拳
一点点
Artificial
Intelligence
General
无所不能
星球大战
3PO
终结者
科幻小说
不难理解
Narrow
Pinterest
Facebook
人脸识别
在实践中
从何而来

例3:

import jieba
f = open("data.txt",'r')
data = f.read()
f.close()
f = open("out2.txt",'w+')
d = {}
data2 = jieba.lcut(data)
for D in data2:
    if len(D) >= 3:
        d[D] = d.get(D, 0)+1  # dict.get(key, default=None) 
'''key -- 字典中要查找的键
   default -- 如果指定键的值不存在时,返回该默认值'''
ls = list(d.items())
ls.sort(key=lambda x:x[1], reverse=True) # 此行可以按照词频由高到低排序
for L in ls:
    f.write(L[0]+":"+str(L[1])+'\n')
f.seek(0)
txt = f.read()
print(txt)
f.close()

出力:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\蒙山知府\AppData\Local\Temp\jieba.cache
Loading model cost 0.906 seconds.
Prefix dict has been built successfully.
人工智能:24
同心圆:3
计算机:3
一部分:2
DeepMind:2
AlphaGo:2
learning:2
1956:2
科学家:2
日常生活:1
早些时候:1
Google:1
machine:1
deep:1
可视化:1
展现出:1
如上图:1
五十年代:1
曾一度:1
前所未有:1
达特茅斯:1
Dartmouth:1
Conferences:1
实验室:1
几十年:1
极反转:1
被称作:1
人类文明:1
垃圾堆:1
坦白说:1
2012:1
2015:1
GPU:1
广泛应用:1
并行计算:1
组合拳:1
一点点:1
Artificial:1
Intelligence:1
General:1
无所不能:1
星球大战:1
3PO:1
终结者:1
科幻小说:1
不难理解:1
Narrow:1
Pinterest:1
Facebook:1
人脸识别:1
在实践中:1
从何而来:1
公開された16元の記事 ウォンの賞賛8 ビュー1826

おすすめ

転載: blog.csdn.net/wayne6515/article/details/104456452