一、实验目的
输入一段物业相关语料,系统给出跟本语料以及物业相关的政策法规。
二、实验数据
本次实验数据分为两部分,其中:
- 输入语料:聚投诉+黑猫投诉,采集物业相关的投诉总计293条;
- 政策法规:总计755条;
- 物业管理条例;
- 上海市住宅物业服务分等收费标准;
- 最高人民法院关于审理建筑物区分所有权纠纷案件具体应用法律若干问题的解释;
- 最高人民法院关于审理物业服务纠纷案件具体应用法律若干问题的解释;
- 中华人民共和国物权法(全文);
三、实验方案
3.1.方案设计
实验分以下步骤进行:
- 对输入的语料进行打标签;
- 对政策法规进行打标签;
- 对输入语料进行标签关键词提取;
- 对关键词进行同义词拓展;
- 根据拓展后的关键词,加上标签限制进行组合搜索;
3.1.1.打标签
主要分为提取特征,文本标注,模型训练。
3.1.1.1.提取特征
- 关键词:对输入语料进行词频统计,挑选出跟标签相关的特征关键词,校验;
- 正则表达式:对一些关键词不好表达的特征进行总结,用正则表达式来进行提取;
- 最后对特征进行合并,去重,剔除其中歧义较大的。
- 先对输入语料进行特征提取;
- 对有特征的标记的文本进行标注,是否含有某标签相关信息;
- 将标注好的语料进行随机分配,一部分为训练文本,一部分为测试文本;
对于输入的训练集,采用神经网络算法,定义好输入层、输出层等算法参数。
训练过程:
- 读入训练集,将训练集向量化,每个特征是一个维度,若是文本包含特征则为1,否则为0;
- 构造神经网络,设置参数配置;
- 进行迭代训练;
- 测试模型准确率召回率是否达标,若达标则进行下一步;
- 否则返回2调整参数配置;
- 保存模型。
3.1.2.政策法规进行打标签
政策法规库是搜索的来源,必须保证标签的绝对正确,因此,采用机器+人工校验的方式进行打标签:
- 利用标签模型对政策法规进行打标签;
- 逐条进行人工校对;
- 将人工校对结果入库;
3.1.3.标签关键词提取/拓展
直接利用标签进行搜索,会发现搜索出来的东西太多且跟输入语料关系不密切,但是直接利用输入语料进行搜索结果不会理想,因此需要对输入语料进行标签关键词提取。
标签 |
关键词 |
物业 |
承担 |
物业 |
催缴 |
物业 |
电费 |
物业 |
断电 |
物业 |
服务费 |
物业 |
服务费用 |
物业 |
供暖 |
物业 |
供暖费 |
物业 |
交纳 |
... |
... |
标签关键词提取出来后,需要进行同义词拓展,例如“开发商”、“建设单位”、“售楼中心”等,在系统中指得同一个实体,但由于政策法规库里面只有“建设单位”这个词,如果直接用“开发商”进行搜索就会发生搜索无结果的情况。
供暖 |
取暖 |
暖气 |
暖气费 |
取暖费 |
供电 |
停电 |
断电 |
|
|
供水 |
停水 |
断水 |
|
|
物业费 |
物管费 |
物业费用 |
物业服务费 |
物业服务费用 |
建设单位 |
开发商 |
售楼处 |
|
|
3.1.4.Lucene索引
对755条政策法规做Lucene索引,采用ANSJ分词器,Lucene版本为Lucene6.6.1
3.2.结果
对100条物业相关的投诉语料进行测试,以搜索出来的排名第一的结果作为搜索结果,发现准确率为78%
四、实验结论
从结果上来看,对投诉语料的关联不是很理想,当然这跟训练语料较少也有关系,投诉的语料本身适不适合应用到这个系统的场景也有待商榷,但整个实验步骤走下来证明,以标签对输入语料跟政策法规进行关联是可行的。
参考:https://blog.csdn.net/u012998680/article/details/108323507