作者:Dafna Shahaf
会议:ACM 2015.
研究大背景:自动化地从很大数据集中提取结构化的知识变得越来越难。在本篇文章中,我们将探索我们在文献中(1,2,3)中创立的方法来自动提取信息的“地铁地图”(metro maps)。
问题1: 什么是信息的地铁地图? 这是一个隐喻,信息就像地铁一样用直线表示,每一条线代表着一个故事;多条线可以代表多个故事,也可以代表一个故事从不同的方面来叙述。而每一个停站点,代表着文档集群。
问题2: 一个好的信息地铁图有哪些标准?很难说,但是想象以下,在实体世界,怎样的地铁规划算好呢? 尽可能的以较少的线路覆盖尽可能多的地点 --- 多样性(多个线路尽可能多的包含最重要的主题); 每一条线路都要尽可能有连贯性有意义(比如,地铁1号线主要是连接高铁站,机场,起着交通枢纽的作用;地铁2号线主要连接市区到市区,起着通勤日常起居作用)---- 每一条上的信息要有故事的连贯性; 线路跟线路之间要有合理的换乘站 ------ 故事与故事之间的关系和联系。
参考:https://cacm.acm.org/magazines/2015/11/193323-information-cartography/fulltext
文献1: "metro maps of science". SIGKDD.2012 Shahaf. D
文献2: "Trains of thought: Generating information maps." WWW. 2012. Shahaf.D
文献3: "Information cartography : Creating zoomable, large-scale maps of information" . SIGKDD. 2013. Shahaf.D
文献3: "