数据库特点:每条记录代表一个事件,包括事件的时间,人物和对应的官衔,有关地点,时间的关键词,共230k条记录
该可视化工具的特点:能够根据年限,主题名来查看人物之间的关系。其中关键词是经过聚类的。以力导向图的形式描绘人物之间的关系,节点表示人名,连线表示关系的紧密程度,连线颜色表示关系的性质。
提取过程如下:
一,提取人物关系网络
计算人物独立性的公式:
p与p'的独立意思是,某年的记录中p和p'同时出现的次数/p单独出现的次数,
如果pdy(p,p')>=a ,pdy(p',p)>=a (a=1)那么是相关的,p和p'双向连接。
如果pdy(p,p')>=b ,pdy(p',p)<=c (b=c=0.8)那么p到p'单向连接。
节点大小的计算公式:
意思是所有依附于p的节点的与p的独立性之和。
节点的颜色
• #In Link > #Out Link : dark purple
• #Out Link > #In Link : light purple
• #In Link = #Out Link : gray
边界线的长度公式为: pd y (p,p ′ ) − pd y (p ′ ,p)
意思是一个的独立性越强那么线越短,因为p独立性越强pd y (p,p ′ )值越小。
二,提取关系的属性
通过提取两个人之间的关键词作为标签,并对标签附加相应的颜色。因为标签过多,仅仅1560-1580之间就有3034个标签,因此将关键词进行聚类,大部分关键为战争和和平。最后将关键词总结为70个,使用最高频率的关键词作为标签。
聚类结果如下:
提取聚类之后的结果如下:
三,可视化
比较德川家康和织田信仁之间的关系,随着关键词和时间的变化的例子
织田信仁的网络图事例:
可视化人物之间关系随着时间变化而变化的规律,红色代表战争,蓝色代表友谊,灰色代表其他,白色代表未知。
未来展望:时间比较短,只有20年