파이썬 jieba 라이브러리 사용과 단어 구름의 사용

첫째, 타사 라이브러리를 설치

jieba, 구름, 라이브러리와 라이브러리가 뛰어난 타사 라이브러리, 우리는 수동으로 라이브러리를 설치해야합니다.

열기 cmd를 각각 명령을 입력하고 라이브러리가 라이브러리 jieba을, 구름 설치

핍 jieba 설치
핍, 구름 설치

둘째, 문서 jieba 라이브러리의 사용을 분석

여기에서 나는 단어가 표시되는 빈도를 계산, 작가 키안 기사 "를 가장 큰 저항을 향한 경로"를 선택

다음과 같이 코드입니다 :

수입 jieba의 
TXT 오픈 ( "C를 \\ text.txt", "R"을, = "UTF-8"코딩) = () 판독. 
즉 = jieba.lcut (TXT) 
카운트 = {} 
즉 단어 : 
    만약 LEN (워드) == 1 : 
        계속 
    다른 : 
        계수 [워드 = counts.get (워드, 0) + 1 개 
아이템 목록 = (counts.items ()) 
items.sort (키, λ = X : X [1], ) 역방향 = TRUE 
범위 I에 대해 (15) 
    = 항목 [i]를 계산, 단어 
    (인쇄 "{0 <10} {1> 5}". 형식 (워드 카운트))

 다음과 같이 출력은 다음과 같습니다

 

 도 3에 도시 된 바와 같이 단어 빈도 어 (15)이 전 기사에서 볼.

셋째, 구름, 라이브러리의 사용

jieba 라이브러리는 주파수 통계가 나올 단어를 TXT 수 있습니다, 우리는에 따라 출력 형식을합니다. 그러나이 말은 구름, 구름, 도서관이 할 수있는 말과 출력 할 수 영상 모드를 형성한다.

여기에 난 여전히 단어 구름, 구름, 라이브러리를 형성하기 위해 위의 문서를 선택합니다.

다음과 같이 코드입니다 :

# GovRptWordCloudv1.py 
수입 jieba 
오기, 구름 
F = 개방 ( "C : \\ text.txt", "R", 인코딩 = "UTF-8") 
 
t = f.read () 
f.close () 
LS = jieba. lcut (t) 
 
".join (LS) TXT = ' 
(= wordcloud.WordCloud \ w 
    폭 = 1000, 높이 = 700 \ 
    흰색"BACKGROUND_COLOR = " 
    font_path ="msyh.ttc "     
    ) 
w.generate (TXT) 
w .to_file ( "grwordcloud.png")

 아래와 같이 단어 구름 :

 

추천

출처www.cnblogs.com/lulingboke/p/12657510.html