모듈 041 5 jieba 라이브러리를 사용하여

라이브러리에 A, jieba 기본적인 소개

1.1 jieba 도서관 개관

jieba 중국 타사 라이브러리의 훌륭한 단어입니다

  • 중국어 텍스트는 말씀으로 하나의 단어를 얻기 위해 필요
  • jieba 중국 타사 라이브러리의 훌륭한 단어, 추가 설치가 필요하다
  • jieba 라이브러리는 가장 쉬운 함수를 마스터하기 위해 세 가지 모드의 단어를 제공합니다

설치 1.2 jieba 라이브러리

pip install jiebaCMD (명령 라인)

5 jieba -01.jpg 041- 모듈 라이브러리를 사용하여? X-OSS 프로세스 = 스타일 / 워터 마크

의 원리 1.3 jieba 단어

Jieba은 중국어 단어의 동의어 사전에 의존

  • 중국 문자의 확률 사이의 상관 관계를 결정하기 위해 동의어 사전을 사용
  • 문구를 구성 대형 한자, 단어 형성의 결과의 확률 사이
  • 단어뿐만 아니라, 사용자는 사용자 문구를 추가 할 수 있습니다

두, jieba 라이브러리 지침

세 가지 모드의 2.1 jieba 단어

정밀 모드, 전체 모드, 검색 엔진 모드

  • 정밀 모드 : 텍스트 정확한 컷을 분리, 아니 중복 단어가 없다
  • 전체 모드 : 텍스트의 가능한 모든 단어를 중복 검사
  • 검색 엔진 모드 : 장기 재분할에 기초하여 정확한 모드

일반적으로 사용되는 기능 2.2 jieba 라이브러리

기능 기술
jieba.lcut (들) 정밀 모드와 단어 목록 형식의 결과를 반환
jieba.lcut (S, cut_all = 참) 전체 모드는, 분할 결과의 유형의 목록을 반환, 중복있다
jieba.lcut_for_sear의 CH (S) 검색 엔진 모드, 분할 결과의 유형의 목록을 반환, 중복있다
jieba.add_word (w) 사전 단어 w에 새 단어를 추가
import jieba

jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 1.174 seconds.
Prefix dict has been built succesfully.





['中国', '是', '一个', '伟大', '的', '国家']
jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
jieba.add_word("蟒蛇语言")

2.3 분사 점

jieba.lcut(s)

추천

출처www.cnblogs.com/nickchen121/p/11200531.html