分词工具Jieba使用过程记录

1、环境搭建

在window下开发工程,需要用到pycharm,安装包在165的ftp下,路径 /ambari/soft/pycharm

测试jieba的demo地址  https://github.com/WanZhang1/cars_jieba,下载后直接用pycharm打开即可

2、安装相关python包

在线安装

pip install jieba
pip install python-docx

离线安装

下载包

jieba jieba-0.39.zip
python-docx  python-docx-0.8.6.tar.gz
lxml lxml-2.3.4.tar.gz

安装

pip install jieba-0.39.zip
pip install python-docx-0.8.6.tar.gz
pip install lxml-2.3.4.tar.gz

3、开发RESTful接口

 安装python包

pip install flask

离线安装python包

下载flask包和相关依赖包,在 https://pypi.python.org/simple/ 可以找到

Flask-0.12.2.tar.gz  
click-2.0.tar.gz  
itsdangerous-0.21.tar.gz  
itsdangerous-0.21.tar.gz 
MarkupSafe-0.23.tar.gz  
MarkupSafe-0.23.tar.gz

安装
pip install click-2.0.tar.gz
pip install itsdangerous-0.21.tar.gz
pip install MarkupSafe-0.23.tar.gz
pip install Werkzeug-0.7.2.tar.gz
pip install Jinja2-2.4.1.tar.gz
pip install Flask-0.12.2.tar.gz

4、代码开发

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# by zhangw 2017/11/8
from flask import Flask, abort, request, jsonify
import jieba
 
app = Flask(__name__)
 
 
 
@app.route('/user_dict/', methods=['POST'])
def user_dict():
if not request.json or 'text' not in request.json:
abort(400)
text = request.json['text']
 
# 自定义词典
jieba.load_userdict("../../../file/user_dict.dat")
seg_list = jieba.cut(text, cut_all=False)
seg = " ".join(seg_list)
print(seg)
 
return jsonify({'result': seg})
 
if __name__ == "__main__":
# 将host设置为0.0.0.0,则外网用户也可以访问到这个服务
app.run(host="0.0.0.0", debug=True)

5、测试

POST http://127.0.0.1:5000/jieba_parse/

示例:

curl -l -H "Content-type: application/json" -X POST -d '{"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"}' http://0.0.0.0:5000/jieba_parse

猜你喜欢

转载自blog.csdn.net/zwahut/article/details/90635308