타사를 사용하기 전에 라이브러리 확인해야 그 다음의 설치 :
jieba,, 구름, ImageIO에서, sklearn, CSV
다음과 같이 ImageIO에서가, CSV 및 sklearn 아나콘다 기본 설치가 장착되어, 다른 두 라이브러리를 수동으로 설치해야, 설치는 다음과 같습니다
열기 아나콘다 프롬프트 사용 핍 설치합니다 :
jieba를 설치 PIP
, 구름을 설치 PIP
우리는 자신이 좋아하는 기사 중 하나 선택하고 작업 디렉토리로, TXT로 저장합니다. : 나는 거의 개발구 슈 기사의 가을에서 선택한 기사에 대한 알 방법 재정적 인 자유를 달성하는 방법?
내가 작업 디렉토리에 "caifu.txt"로 그 내용을 저장합니다 다음 문서에서는 단어 구름 프로세스를 얻을 수 있습니다.
단어 구름 받기
에서 , 구름, 가져 오기 , 구름, 불용어 에서 ImageIO에서 가져 오기 imread 에서 sklearn.feature_extraction.text 가져 오기 CountVectorizer 가져 오기 jieba 가져 오기 CSV #의 GET 기사 내용 열기 (와 " caifu.txt " ) F AS : 내용 = f.read () 인쇄 ( " 변수 내용 유형 : " , 유형 (내용))의 #을 사용 jieba 단어, 단어 목록 가져 contents_cut = jieba.cut을 (내용) 인쇄 ( " contents_cut 변수 유형 :" , 유형 (contents_cut)) 중 contents_list = " " .join (contents_cut) 인쇄 ( " 유형 contents_list 변수 : " 유형 (contents_list)) # 단어 구름을, collocations는 단어 구름의 정의 마스크, 단어 구름 단어의 반복을 피하기 모양, 배경 컬러 사진이 WC = 구름, (불용어 = STOPWORDS.add ( " " Collocations은 =,) 거짓, BACKGROUND_COLOR = " 화이트 " , font_path = R " C : \ WINDOWS \ 글꼴 \ simhei.ttf을 " , 폭 = 400, 높이 = 300, 42 = random_state 인 , 마스크 = imread ( ' axis.png ' , pilmode = " RGB " )) wc.generate (contents_list) wc.to_file ( " ciyun.png " ) # 사용 CountVectorizer 단어 빈도 통계 CV = CountVectorizer () contents_count = [(cv.fit_transform을 contents_list]) #의 단어 목록 1 = cv.get_feature_names ()는 #의 주파수 단어 목록 2 = contents_count.toarray (). ToList () [0] # 단어 주파수에 대응 contents_dict = (ZIP 딕셔너리 (List1이, 목록 2) ) #의 출력 CSV 파일, 개행은 = ""CSV 출력 문제를 해결 인터레이스 연 상태 ( " caifu_output.csv " , " w " , 개행 = "" )와 같은 F : 라이터 = csv.writer (F) 에 대한 키 값 에 contents_dict.items () writer.writerow ([키 값])
위의 코드에서, 변수의 종류 다음 :
가변 콘텐츠를 입력 < 클래스 ' STR ' > contents_cut 입력 변수 : < 클래스 ' 발전기 ' > : contents_list 가변형 < 클래스 ' STR을 " >
단어 구름 모양 I는 다음과 같이 다른 하나는, 이미지 형식으로 저장의 PPT에 화살표를 그릴 직접입니다, 하나는 cat.png이며,이 시도 :
다음과 같이 두 단어 구름 배경의 결과가 발생합니다 :
우리는 더 적합한 사진, 우리는 자신을 PPT와 적절한 형상을 그릴 수있는 모양과 사진을 배경 이미지를 설정할 수 있습니다.
단어 주파수 목록을 가져 csv 파일로 저장
당신이 단어 빈도의 목록을 얻고 싶다면, 단어 빈도 통계는 물론 CountVectorizer의 sklearn을 사용할 수 있습니다, 당신은 당신의 자신의 기능을 달성하기 위해 쓸 수 있습니다. 코드 워드 주파수 출력 CSV 파일, 아래와 같이
참고 링크 :