Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

所有人物的相似图连接。

关系同上。展示形式为多中心结构

以张无忌的不同身份为中心的网络关系图。

一、分析结果

实体的不同属性(张无忌的总多马甲)

张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。

先来看看图:

无忌哥哥是过于亲密的名字,一般不喊。好似和这个词相似度高的都是比较奇怪的角色。

无忌是关系熟了以后,平辈或者长辈可以称呼的名字。还有周姑娘,殷姑娘等

数据预处理

  1. 文本文件转发成utf8(pandas)

  2. 文本文件分句,分词(Jieba)

  3. 文本文件分句,分词, 分析词性,主要是人名(Jieba)

  4. 更新自定义词典,重新分词(整个过程需要几遍,直至满意)

  5. 手工少量删除(分词出来的人名误判率不高,但是还是存在一些。例如:赵敏笑道,可以被识别的 一个叫 赵敏笑的人。 这部分工作还需要手工做。 除非有更好的分词工具,或者可以训练的分词工具,才能解决这一问题。

Word2Vec 训练模型。这个模型可以计算两个人之间的相似度

Word2Vec 向量化训练

建立实体关系矩阵

欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/

 欢迎大家加入万人交流学习,资源共享群:125240963

猜你喜欢

转载自www.cnblogs.com/sm123456/p/9052969.html
今日推荐