첫째, 타사 라이브러리를 설치
jieba, 구름, 라이브러리와 라이브러리가 뛰어난 타사 라이브러리, 우리는 수동으로 라이브러리를 설치해야합니다.
열기 cmd를 각각 명령을 입력하고 라이브러리가 라이브러리 jieba을, 구름 설치
핍 jieba 설치
핍, 구름 설치
둘째, 문서 jieba 라이브러리의 사용을 분석
여기에서 나는 단어가 표시되는 빈도를 계산, 작가 키안 기사 "를 가장 큰 저항을 향한 경로"를 선택
다음과 같이 코드입니다 :
수입 jieba의 TXT 오픈 ( "C를 \\ text.txt", "R"을, = "UTF-8"코딩) = () 판독. 즉 = jieba.lcut (TXT) 카운트 = {} 즉 단어 : 만약 LEN (워드) == 1 : 계속 다른 : 계수 [워드 = counts.get (워드, 0) + 1 개 아이템 목록 = (counts.items ()) items.sort (키, λ = X : X [1], ) 역방향 = TRUE 범위 I에 대해 (15) = 항목 [i]를 계산, 단어 (인쇄 "{0 <10} {1> 5}". 형식 (워드 카운트))
다음과 같이 출력은 다음과 같습니다
도 3에 도시 된 바와 같이 단어 빈도 어 (15)이 전 기사에서 볼.
셋째, 구름, 라이브러리의 사용
jieba 라이브러리는 주파수 통계가 나올 단어를 TXT 수 있습니다, 우리는에 따라 출력 형식을합니다. 그러나이 말은 구름, 구름, 도서관이 할 수있는 말과 출력 할 수 영상 모드를 형성한다.
여기에 난 여전히 단어 구름, 구름, 라이브러리를 형성하기 위해 위의 문서를 선택합니다.
다음과 같이 코드입니다 :
# GovRptWordCloudv1.py 수입 jieba 오기, 구름 F = 개방 ( "C : \\ text.txt", "R", 인코딩 = "UTF-8") t = f.read () f.close () LS = jieba. lcut (t) ".join (LS) TXT = ' (= wordcloud.WordCloud \ w 폭 = 1000, 높이 = 700 \ 흰색"BACKGROUND_COLOR = " font_path ="msyh.ttc " ) w.generate (TXT) w .to_file ( "grwordcloud.png")
아래와 같이 단어 구름 :