디렉토리
라이브러리에 A, jieba 기본적인 소개
1.1 jieba 도서관 개관
jieba 중국 타사 라이브러리의 훌륭한 단어입니다
- 중국어 텍스트는 말씀으로 하나의 단어를 얻기 위해 필요
- jieba 중국 타사 라이브러리의 훌륭한 단어, 추가 설치가 필요하다
- jieba 라이브러리는 가장 쉬운 함수를 마스터하기 위해 세 가지 모드의 단어를 제공합니다
설치 1.2 jieba 라이브러리
pip install jieba
CMD (명령 라인)
의 원리 1.3 jieba 단어
Jieba은 중국어 단어의 동의어 사전에 의존
- 중국 문자의 확률 사이의 상관 관계를 결정하기 위해 동의어 사전을 사용
- 문구를 구성 대형 한자, 단어 형성의 결과의 확률 사이
- 단어뿐만 아니라, 사용자는 사용자 문구를 추가 할 수 있습니다
두, jieba 라이브러리 지침
세 가지 모드의 2.1 jieba 단어
정밀 모드, 전체 모드, 검색 엔진 모드
- 정밀 모드 : 텍스트 정확한 컷을 분리, 아니 중복 단어가 없다
- 전체 모드 : 텍스트의 가능한 모든 단어를 중복 검사
- 검색 엔진 모드 : 장기 재분할에 기초하여 정확한 모드
일반적으로 사용되는 기능 2.2 jieba 라이브러리
기능 | 기술 |
---|---|
jieba.lcut (들) | 정밀 모드와 단어 목록 형식의 결과를 반환 |
jieba.lcut (S, cut_all = 참) | 전체 모드는, 분할 결과의 유형의 목록을 반환, 중복있다 |
jieba.lcut_for_sear의 CH (S) | 검색 엔진 모드, 분할 결과의 유형의 목록을 반환, 중복있다 |
jieba.add_word (w) | 사전 단어 w에 새 단어를 추가 |
import jieba
jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 1.174 seconds.
Prefix dict has been built succesfully.
['中国', '是', '一个', '伟大', '的', '国家']
jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
jieba.add_word("蟒蛇语言")
2.3 분사 점
jieba.lcut(s)