파이썬은 기사의 단어 구름을 생성

타사를 사용하기 전에 라이브러리 확인해야 그 다음의 설치 :

 jieba,, 구름, ImageIO에서, sklearn, CSV 

다음과 같이 ImageIO에서가, CSV 및 sklearn 아나콘다 기본 설치가 장착되어, 다른 두 라이브러리를 수동으로 설치해야, 설치는 다음과 같습니다

열기 아나콘다 프롬프트 사용 핍 설치합니다 :

jieba를 설치 PIP 
, 구름을 설치 PIP

우리는 자신이 좋아하는 기사 중 하나 선택하고 작업 디렉토리로, TXT로 저장합니다. : 나는 거의 개발구 슈 기사의 가을에서 선택한 기사에 대한 알 방법 재정적 인 자유를 달성하는 방법?

내가 작업 디렉토리에 "caifu.txt"로 그 내용을 저장합니다 다음 문서에서는 단어 구름 프로세스를 얻을 수 있습니다.

단어 구름 받기

에서 , 구름, 가져 오기 , 구름, 불용어
 에서 ImageIO에서 가져 오기 imread
 에서 sklearn.feature_extraction.text 가져 오기 CountVectorizer
 가져 오기 jieba
 가져 오기 CSV
 #의 GET 기사 내용 
열기 (와 " caifu.txt " ) F AS : 
    내용 = f.read ()
 인쇄 ( " 변수 내용 유형 : " , 유형 (내용))의 

#을 사용 jieba 단어, 단어 목록 가져 
contents_cut = jieba.cut을 (내용)
 인쇄 ( " contents_cut 변수 유형 :" , 유형 (contents_cut)) 중 
contents_list = "  " .join (contents_cut)
 인쇄 ( " 유형 contents_list 변수 : " 유형 (contents_list)) 

# 단어 구름을, collocations는 단어 구름의 정의 마스크, 단어 구름 단어의 반복을 피하기 모양, 배경 컬러 사진이 
WC = 구름, (불용어 = STOPWORDS.add ( " " Collocations은 =,) 거짓, 
               BACKGROUND_COLOR = " 화이트 " , 
               font_path = R " C : \ WINDOWS \ 글꼴 \ simhei.ttf을 " ,  = 400, 높이 = 300, 42 = random_state 인 ,
               마스크 = imread ( ' axis.png ' , pilmode = " RGB " )) 
wc.generate (contents_list) 
wc.to_file ( " ciyun.png " ) 

# 사용 CountVectorizer 단어 빈도 통계 
CV = CountVectorizer () 
contents_count = [(cv.fit_transform을 contents_list])
 #의 단어 
목록 1 = cv.get_feature_names ()는
 #의 주파수 단어 
목록 2 = contents_count.toarray (). ToList () [0] 
 # 단어 주파수에 대응 
contents_dict = (ZIP 딕셔너리 (List1이, 목록 2) )
 #의 출력 CSV 파일, 개행은 = ""CSV 출력 문제를 해결 인터레이스
연 상태 ( " caifu_output.csv " , " w " , 개행 = "" )와 같은 F : 
    라이터 = csv.writer (F)
     에 대한 키 값 contents_dict.items () 
        writer.writerow ([키 값])

위의 코드에서, 변수의 종류 다음 :

가변 콘텐츠를 입력 < 클래스  ' STR ' > 
contents_cut 입력 변수 : < 클래스  ' 발전기 ' > 
: contents_list 가변형 < 클래스  ' STR을 " >

단어 구름 모양 I는 다음과 같이 다른 하나는, 이미지 형식으로 저장의 PPT에 화살표를 그릴 직접입니다, 하나는 cat.png이며,이 시도 :

다음과 같이 두 단어 구름 배경의 결과가 발생합니다 :

우리는 더 적합한 사진, 우리는 자신을 PPT와 적절한 형상을 그릴 수있는 모양과 사진을 배경 이미지를 설정할 수 있습니다.

단어 주파수 목록을 가져 csv 파일로 저장

당신이 단어 빈도의 목록을 얻고 싶다면, 단어 빈도 통계는 물론 CountVectorizer의 sklearn을 사용할 수 있습니다, 당신은 당신의 자신의 기능을 달성하기 위해 쓸 수 있습니다. 코드 워드 주파수 출력 CSV 파일, 아래와 같이

 

참고 링크 :

[1]  https://zhuanlan.zhihu.com/p/68874733

추천

출처www.cnblogs.com/yunxiaofei/p/11111643.html