学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索 - 代码天地

学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索

其他 2018-12-17 08:50:58 阅读次数: 0

环境 centos7,solr7.5.0

1. 新建core

从 solr-7.5.0/example/files/conf 作为配置文件模板，创建core，名为mycore

2.下载分词器

从https://search.maven.org/search?q=g:com.github.magese 下载 ik-analyzer-7.5.0.jar

复制到 solr-7.5.0/server/solr-webapp/webapp/WEB-INF/lib 目录下

3. 修改 mycore/conf/managed-schema 文件，增加：

<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

并修改，原来的 text_simple 修改为新增的text_ik 即指定用新的分词器去对这几个字段内容分词。文本内容根据设置可存储在索引库，也可以不存储。

4.修改 mycore/conf/tika-data-config.xml 文件全文：

<dataConfig>
<dataSource type="BinFileDataSource"/>
<document>
<entity name="file" processor="FileListEntityProcessor" dataSource="null"
baseDir="${solr.install.dir}/example/exampledocs" fileName=".(pdf)|(doc)|(docx)"
rootEntity="false">

<field column="file" name="id"/>

<entity name="pdf" processor="TikaEntityProcessor"
url="${file.fileAbsolutePath}" format="text">

<field column="Author" name="author" meta="true"/>

<field column="title" name="title" meta="true"/>
<field column="dc:format" name="format" meta="true"/>

<field column="text" name="text"/>

</entity>
</entity>
</document>
</dataConfig>

注意 filename匹配或通配符指定扫描的文件类型，baseDir="${solr.install.dir}/example/exampledocs" 这个指定要导入的文件存放位置。

5. 测试

6.导入doc文档

把要导入的文档存放在指定目录，然后执行导入

7. 查询检查导入数据

猜你喜欢

转载自blog.csdn.net/oLinBSoft/article/details/85008308

学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索

学习笔记:从0开始学习大数据-30. solr通过java导入doc，pdf文档建立全文检索

Solr学习总结 IK 配置中文分词器

solr学习（五、IK分词器集成）

学习笔记:从0开始学习大数据-27. solr安装使用

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

学习笔记:从0开始学习大数据-28. solr存储数据在hdfs并从mysql导入数据

ElasticSearch学习笔记之三十三 IK分词器扩展字典及text全文类型数据分词聚合查询

创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

Solr 7.5配置、数据库连接、Java（学习篇（2）IK分词器配置）

淘淘商城22_全文检索_ik中文分词器02_solr的增删改查

JavaEE学习日志(一百一十二): lucene详解，ik中文分词器

ElasticSearch 学习8 ：ik分词器的扩展，及java调用ik分词器的analyzer

全文检索引擎ElasticSearch：文档管理、集成IK分词器

七、利用ik分词器 + kibana + logstash 向es 中导入mysql数据，并索引

【基础组件17】elasticsearch 入门（四） ik 中文分词器安装、数据类型、mapping

2018-11-09 Solr学习笔记(二)-Solr5.5.5服务器配置中文分词器

CentOS7下搭建solr6.6全文检索服务器及IK分词器配置

CentOS7下搭建Solr 6.6全文检索服务器及IK分词器配置

大数据求索（10）：解决ElasticSearch中文搜索无结果------ik分词器的安装与使用

Lucene学习（三）使用IK 分词器

ElasticSeach学习（三、IK分词器配置）

ElasticSearch 学习7 集成ik分词器

Solr技术配置，以及数据导入和分词器的使用

Solr学习总结（八）IK 中文分词的配置和使用

全文检索---分词器

Solr安装与IK Analyzer(中文分词器)

配置中文分词器 IK-Analyzer-Solr7

Solr - 中文分词器IK Analyzer的简介及配置

elasticsearch笔记之ik分词器详解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)