The new crown to fight pneumonia, how to map real-time dynamic timing modeling and analysis?

Author | Closed rain Zhe

Source | ThutmoseAI

Background

The new crown is a kind of pneumonia up to 24- Tian incubation period of new bursts of sexually transmitted diseases, epidemic prevention and control of such property to the tremendous challenge, with the amplified scale of infection, simple human governance has been less work, the use of " big data " technical means to assist the management of social help to people quickly and accurately locate the key questions to help decision makers make timely planning the next step.

 

This month will see the day in the major site updates the number of infected cases of stroke release and so on, but the Internet is not always catch up with updates masses eager little hands hands ...

technical background

Knowledge Mapping technology as a big step towards artificial intelligence data, which express the most complex social structures to fit the form of social behavior, is very suitable for the analysis of data in an associated relationship, using knowledge of technical analysis patterns of infection and the relationship between social movements is very conducive to the outbreak prevention and control, analysis of epidemiological studies also help. Although the current application of big data and artificial intelligence is still in its infancy, but the knowledge map as the core of research is bringing a wave of emerging technology trends.

 

The key technology behind the knowledge map " map database " :

Graphical database diagram theory is an application store complex entity between the relationship information, which uses " point " and " edge " in the form of stored data, the most common example is the relationship between the social network from person to person, positive It is a key clue in this outbreak.

 

Use of technology

本文使用图特摩斯科技自研的国内首个时序图谱平台AbutionGraph作为技术支撑,主要技术突破点为:静态图+动态图+时序图+多维的存储形式

 

解决问题:

  • 疫情实时统计:实时统计医院/城市/省份的确诊/疑似/死亡/接触人数等

  • 疫情实时分析:病例接触者人群溯源及时排查、高风险同行人群分析、城市区域风险等级计算等

  • 疫情数据研究:病毒传播渠道及路径、寻找疾病候选药物,提供相应的药物作用机制等

 

使用数据:

本次演示共使用5类实体数据:包括正常人、病例、地址、交通工具、医院等数据信息,以及各类实体之间的关联关系,如“某患者曾出现于某超市”等关系。我们使用AbutionGraph依据真实场景建模,由于详细数据不公开,本文中均使用模拟数据进行分析

与普通图存储的技术区别

在建模前,我们有必要先来理解一下多维、动态、时序这些在图谱存储中的新概念。

 

1一维图谱和多维图谱的区别

 

一维图谱:

(常见的图形存储结构,如:JanusGraphNeo4J等技术中使用)

多维图谱:

AbutionGraph独有的存储形式(实体属性细分,任意维度的数据包含,如张某某具有2个维度的数据,而李某某不患有疾病,可不包含“维度2”。)

2)“静态”、“动态”及“时序”图谱的区别

假定场景:实时统计每个人之间的交易总金额。

1.静态图谱:

静态图谱统计历史账单总金额方法:10+5+5=20元

(所有交易信息都查询出来,再逐个累加汇总)

 

2.动态图谱:

动态图谱统计历史账单总金额方法:数据产生后发生存储即实时自动汇总,及时查询得出20

 

3.动静结合:

静态图谱+动态图谱是AbutionGraph特有形式,即可以保持历史数据不变,又可无需人为干预实时根据历史数据统计出指标。

4.时序图谱

时序指标计算是动态图谱的特殊形式,即根据“事件”发生的时间线,使用划分的时间区间进行实时指标计算。

如场景~统计每个人之间每天的实时交易总金额统计每周(统计区间)实时新增病患

新冠肺炎数据建模

了解了图形的多种存储形式后,接下来我们使用模拟数据依次建模,并详细介绍每个实体与关系的数据映射关系。

当发生突发公共事件时,我们在正常时期的数据图谱之上进行多维扩展,以支持更多业务,灵活应对疫情。

一)节点“人”数据建模

正常人数据2维)

1.基本信息:性别、生日、籍贯等                     (数据来自身份证采集等渠道)

2.曾患病信息:疾病名称、发病时间、就诊医院等       (数据来自医院联网数据等渠道)

患病人数据3维)

1.基本信息:性别、生日、籍贯等     

2.曾患病信息:疾病名称、发病时间、就诊医院等  

3.患新冠肺炎:感染程度、诊断时间、感染原因、症状等 (数据来自各地医院实时上报等)

二) “人”-(收治于)->“医院”

 

实体医院数据2维)

1.基本信息:病床数、医护数、病人数等    (实时动态数据 来自医院资源管理系统等渠道)

2.病例信息:收治数、确诊数、疑似数、病亡数、治愈数等  (实时动态数据 来自医院联网实时上报等渠道)

 

关系收治于数据(1维):

1.收治信息:收治时间、收治原因    (数据 来自医院实时上报等渠道)

 

三) “人”-(住在、出现于、感染于)->“地址”

 

关系数据(3维边)

1.居住于:入住日期等  (历史数据 来自社区物业管理系统等渠道)

2.出现于:出现日期等  (历史数据 来自社区街道管理系统等渠道)

3.感染于:感染日期等  (实时数据 来自医院联网实时上报等渠道)

 

实体“地址”数据(1维):

1.地址:(无属性信息)

 

 

四) “人”-(乘坐)->“交通工具”

 

关系数据(1维)

1.乘坐:上车时间、上车地点、下车时间、下车地点、座位号等 (数据 来自交管部门管理系统等渠道)

 

实体“交通工具”数据(多维):

1.车基本信息:编号、座位数、交管局、投入时间、维修信息、描述信息 (数据 来自交管部门管理系统等)

2.高铁:司机、乘车人数、发车时间、始发站、终点站、途径站点等  (数据 来自交管部门管理系统等)

3.飞机:司机、登机人数、出发城市、到达城市、起飞时间等        (数据 来自航空公司管理系统等)

4.地铁:司机、车辆型号、发车时间、始发站、终点站、途径站点等  (数据 来自城市轨道管理系统等)

 

Ps:交通数据种类丰富, 有公交站点、地铁站点等静态数据,还有基于事件流的动态数据,例如,公交车进出站、地铁刷卡出行、出租车到达某一地理点等。

五) “人”-(接触、传染)->“人”

 

关系数据(1-2维):

1.接触:接触时间等      (数据 来自临时背调等渠道)

2.传染:无属性

 

实体“人”维度(多维可变):

健康人(未得过病)1个维度:“基本信息” 维度

亚健康(得过疾病)2个维度:“基本信息”、“曾患病信息” 维度

患病人(患新肺炎)3个维度:“基本信息”、“曾患病信息” 、“患新冠肺炎” 维度

    (各维度的属性信息前章节已给出)

 

未确诊前样例数据:

确诊后样例数据:

感染人群数据时间线:

2020-02-07:“赵六”(未发病)--探亲->“赵七”(健康)

2020-02-10:“赵六”(发病),确诊患新冠肺炎

2020-02-11:“赵七”(未发病),但为确诊病例“赵六”密切接触者,随后查出感染

“赵七”的密切接触者“张女士”即应进入医学观察期

 

六) “医院”-(归属于、上报)->“城市”

 

关系数据(2维)

1.上报:患者姓名、患者年龄、患者病情(危重/严重/轻症)、诊断情况(确诊/疑似)、上报时间、上报人员等   (数据 来自医院病患数据采集等)

2.归属于: (无属性信息)

实体“城市”数据(2维):

1.患者实时统计(动态):确诊总数、疑似总数、严重患者总数、轻症患者总数、时间区间-按天分区 (数据 来自市医院医护实时汇报等)

2.患者每日新增趋势统计(时序):确诊总数、疑似总数、严重患者总数、轻症患者总数、统计开始时间、结束时间等

) “城市”-(归属于、市上报)->“省份”

关系数据(2维)

1.市上报(按天):确诊总数、疑似总数、严重患者总数、轻症患者总数等 (数据 来自市级数据实时自动获取)

2.归属于: (无属性信息)

 

实体“省份”数据(2维):

1.省总患者统计(动态):确诊总数、疑似总数、严重患者总数、轻症患者总数等 (数据 来自市医院医护实时汇报等)

2.省每日新增患者统计(时序):确诊总数、疑似总数、严重患者总数、轻症患者总数、统计开始时间、结束时间等

至此,数据建模介绍完毕。如上,数据统计部分已经实现自动化,即查即用。接下来基于此设定数据集进行一些更上层的分析场景演示。

场景分析演示

PsAbutionGraph查询方式偏API,暂未实现GSQL,为了方便理解,查询语句均使用相应查询逻辑的伪代码方式演示。

 

场景1城市病例每日新增趋势查询(每日汇总)

查询:

vertex ["北京市""深圳市"]

use "市患者每日新增趋势统计"

select "开始时间" execute ">2019.01.20"  //<<--按天分区汇总(预聚合-即图库自动计算的)

select "结束时间" execute "<2020.01.24"

结果:

北京市(2020.01.20):2

北京市(2020.01.21):6

北京市(2020.01.22):13

北京市(2020.01.23):8

深圳市(2020.01.20):4

深圳市(2020.01.21):6

深圳市(2020.01.22):18

深圳市(2020.01.23):19

 

场景2城市病例分布情况查询(指定区间全量汇总)

查询:

vertex ["北京市""深圳市"]

use "市患者实时统计维度"

select "开始时间" execute ">2019.01.20"  //<<--按天分区汇总(后聚合)

select "结束时间" execute "<2020.02.24"  //<<--不指定区间即所有天数据汇总

groupBy [] ;

结果:

北京市(2020.01.20-2020.01.24):29

深圳市(2020.01.20-2020.01.24):47

  

场景3省份病例每日新增趋势查询(每日汇总)

查询:

vertex ["广西省"]

use "省每日新增患者统计维度"

select "开始时间" execute ">2019.02.10"

select "结束时间" execute "<2020.02.11"

count "确诊总数,疑似总数" ;

结果:

广西省(2020.02.10):

确诊总数:11

疑似总数:29

广西省(2020.02.11):

确诊总数:18

疑似总数:30

 

场景4城市病例的年龄段分布情况(3跳查询

查询:

vertex ["北京市"] toEdge [“院归属于”] toEntity ["市患者实时统计"] toEdge [“院上报”]

use ["院上报维度"] select [“患者年龄”] mean() ;

结果:

70~79岁:1

60~69岁:4

50~59岁:3

40~49岁:8

30~39岁:5

20~29岁:1

10~19岁:0

0~9岁:0

Ps:如上查询为3-跳查询,如需求固定可在建模时为此逻辑创建一个动态维度,实现自动化计算。

 

场景5、查出某病例确诊前3天接触过人群

查询:

Vertex [“梁某某”,“陈某”] toEntity [“患新冠肺炎”] select [“确诊时间”] toEdge [“接触”] by [“接触时间”>“确诊时间”-3]

use "基本信息维度;

结果:

梁某妹

梁某兄

陈某夫

场景6、找出所有超级传播者

Ps:假定传染人数超过4个即为超级传播者。

查询:

use ["患新冠肺炎"] toEdge [“传染”] count >= 5 ;

结果:

场景7、查找患者传播链

Ps:假定传染人数超过4个即为超级传播者。

查询:

 //<<--按患者传染的路径逐步遍历,直到终点实体无新冠肺炎维度

use ["患新冠肺炎"] for ( toEdge [“传染”] ) until ( toEdge [] Dimension !=“患新冠肺炎”) ;

结果:

总结

AbutionGraph是个年轻的图数据库系统,它可以满足永不掉线的实时指标计算任务以及历史数据分析,多维度的存储模式除文中介绍的场景外,我们也可以在实体上动态存储关系上的属性,反之亦然,比如:在实体张三的某个维度上实时统计它最近联系过的10个朋友的名字并不断更新与保存。

(*本文由AI科技大本营转载,转载请联系原作者)

【end】

精彩推荐

推荐阅读

    你点的每个“在看”,我都认真当成了AI

发布了1327 篇原创文章 · 获赞 1万+ · 访问量 582万+

Guess you like

Origin blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/104368310