【Elasticsearch篇】wget方式爬虫及ik分词器的制作与使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/chenshi_2753/article/details/80243110

一、wget介绍

wget -o /tmp/wget.log -P /root/data –no-parent –no-verbose -m -D news.cctv.com -N –convert-links –random-wait -A html,HTML,shtml,SHTML http://news.cctv.com
部分参数 解释:-o:日志输出位置 -P:父级目录 -D:父级目录下的目录 -N:转换成链接就(就是把链接切成路径放对应的文件)-random-wait:设置随机等待时间(防止爬取过频繁ip被拉黑) -A:下载页面类型 最后是爬的路径

二、ES搭配ik分词器的使用 (version=1.8.0)
解压完成后调下版本号
elasticsearch.version=2.2.1
ik分词器要求版本对应。
配置完成后重启3个节点的es。
以下具体说明ik分词器的制作:
1.从地址https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch中文分词器
这里写图片描述
这里默认的是master的 但是master的项目需要用gradle编译,这里选择1.8.0版本。而且从下面的介绍可以知道1.8.0正好对应elasticsearch的2.2.0版本。
这里写图片描述
其是pom工程
分别执行如下命令:

mvn clean
mvn compile
mvn package

前面编译了插件以后会在target/releases目录下出现一个zip包。
在安装好的elasticsearch中在plugins目录下新建ik目录,将此zip包拷贝到ik目录下将权限修改为elasticsearch启动用户的权限,通过unzip命令解压缩
例如在plugins/ik目录下执行unzip elasticsearch-analysis-ik-1.8.0.zip

猜你喜欢

转载自blog.csdn.net/chenshi_2753/article/details/80243110
今日推荐