一．配置solr

1.配置

注意：要是想放到其它路径下，可以修改此路径下的web.xml配置文件

修改内容如下：

<env-entry>

<env-entry-name>solr/home</env-entry-name>

<env-entry-value>你的core的上级路径</env-entry-value>

<env-entry-type>java.lang.String</env-entry-type>

</env-entry>

2.点击tomcat的bin目录下的startup.bat启动

3.在浏览器上输入http://你的ip:8080/solr/index.html#/ 查看

4.选择test-core，执行查看

二．配置HanLP分词器

1. 配置配置文件

从下载的HanLP中获取hanlp.properties配置文件，放置到下面的路径中。

2. 导入HanLP词典

从下载的HanLP中拷贝data到下图目录下，该data包含Hanlp中提供的词库和模型。

3. 导入jar包

把HanLP中的hanlp-1.5.0.jar和hanlp-1.5.0.sources.jar放到tomcat的该目录下

4. 修改hanlp.properties中的，改成data的上级目录

一、配置HanLP分词器

1.配置分词器

在使用该分词器的core中的managed-schema文件中添加

<tokenizer class="com.hankcs.lucene.HanLPTokenizerFactory"

enableIndexMode="true" enablePlaceRecognize="true" enableOrganizationRecognize="true" customDictionaryPath="E:\search11\data\dictionary\custom\自定义词典.txt"/>

</analyzer>

<tokenizer class="com.hankcs.lucene.HanLPTokenizerFactory"

enableIndexMode="false" enablePlaceRecognize="true" enableOrganizationRecognize="true" customDictionaryPath="E:\search11\data\dictionary\custom\自定义词典.txt"/>

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

ignoreCase="true" expand="true"/>

</analyzer>

</fieldType>

2.修改使用该分词器的字段

3.结果

三．配置Tika文档提取器

1. 首先在core中添加tika文档搜索

<!-- All the main content goes into "text"... if you need to return

the extracted text or do highlighting, use a stored field. -->

<str name="lowernames">false</str>

<str name="uprefix">ignored_</str>

</lst>

</requestHandler>

2. 配置tika解析文档的分类字段

3. 修改tomcat的server.xml配置

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

maxHttpHeaderSize ="104857600" maxPostSize="0" />

注意：

maxHttpHeaderSize ：设置最大上传头大小

maxPostSize：解除post提交大小限制

4. 结果

四．配置HTML及相关样式过滤器

<charFilter class="solr.MappingCharFilterFactory"

mapping="mapping-FoldToASCII.txt"/>

</analyzer>

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

ignoreCase="true" expand="true"/>

</analyzer>

</fieldType>

五．配置MLT文档相识度搜索

1.添加配置

ZSYBS,ZSYWT,ZSYDA,ZSBS,XH,ZSDZT,CZRBS,ZZBM,DQBM,FJFZBS,

SCJBS,ZSYWB,YXQ,YDHS,GDMB,ZSLX,CZSJ,CJSJ</str>

ZSYWT^2.0 ZSYWB^1.0

</str>

<str name="mlt.fl">ZSYWT,ZSYWB</str>

<str name="df">ZSYBS</str>

</lst>

</requestHandler>

2.测试结果

六．配置SolrJ高亮展示

1. 高亮的默认配置

<str name="hl.fl">content features title name</str>

<str name="f.title.hl.alternateField">title</str>

<str name="f.content.hl.alternateField">content</str>

2. 启用高亮

SolrQuery solrQuery = new SolrQuery();

solrQuery.setQuery("ZSYWT:交易电价"); //设置查询关键字

solrQuery.setHighlight(true); //开启高亮

solrQuery.addHighlightField("ZSYWT"); //高亮字段

solrQuery.addHighlightField("ZSYWB"); //高亮字段

solrQuery.setHighlightSimplePre("<font color='red'>"); //高亮单词的前缀

solrQuery.setHighlightSimplePost("</font>"); //高亮单词的后缀

solrQuery.setParam("hl.fl", "ZSYWT");

七．配置搜索关键词自动补全（汉字，拼音）

添加配置

<str name="name">mySuggester</str>

<str name="lookupImpl">FuzzyLookupFactory</str>

<str name="dictionaryImpl">DocumentDictionaryFactory</str>

<str name="field">ZSYWT_PINYIN</str>

</lst>

</searchComponent>

<str name="suggest.dictionary">mySuggester</str>

</lst>

<str>suggest</str>

</arr>

</requestHandler>

2.设置搜索字段

<field name="ZSYWT_PINYIN" type="text_cn" indexed="true"

stored="true" multiValued="true"/>

3.测试结果

八．搜索关键词自动纠错

代码实现：

public Collection<List<String>> getAutomaticErrorCorrection(String content)

throws SolrServerException, IOException {

HttpSolrServer server = new HttpSolrServer(url);

SolrQuery params = new SolrQuery();

params.set("qt", "/suggest");

//全部转换为拼音

StringBuilder sb = new StringBuilder();

char[] array = content.toCharArray();

for(int j=0;j<array.length;j++){

if(isChineseByBlockStyle(array[j])){

List<Pinyin> pinyinMidList = HanLP.convertToPinyinList(""+array[j]);

for (Pinyin pinyin : pinyinMidList)

{

sb.append(pinyin.getPinyinWithoutTone());

}

}else{

sb.append(array[j]);

}

params.setQuery(sb.toString());

QueryResponse response = null;

response = server.query(params);

SuggesterResponse suggest = response.getSuggesterResponse();

Collection<List<String>> collection = suggest.getSuggestedTerms().values();

server.close();

return collection;

}

Solr5.5高级应用（基于tomcat9）

一．配置solr

1.配置

2.点击tomcat的bin目录下的startup.bat启动

3.在浏览器上输入http://你的ip:8080/solr/index.html#/ 查看

4.选择test-core，执行查看

二．配置HanLP分词器

1. 配置配置文件

2. 导入HanLP词典

3. 导入jar包

4. 修改hanlp.properties中的，改成data的上级目录

一、配置HanLP分词器

1.配置分词器

2.修改使用该分词器的字段

3.结果

三．配置Tika文档提取器

1. 首先在core中添加tika文档搜索

2. 配置tika解析文档的分类字段

3. 修改tomcat的server.xml配置

4. 结果

四．配置HTML及相关样式过滤器

五．配置MLT文档相识度搜索

1.添加配置

2.测试结果

六．配置SolrJ高亮展示

1. 高亮的默认配置

2. 启用高亮

七．配置搜索关键词自动补全（汉字，拼音）

添加配置

2.设置搜索字段

3.测试结果

八．搜索关键词自动纠错

代码实现：

猜你喜欢