谷歌GDELT数据说明

本文主要介绍GDELT数据以及对其58个字段进行说明,数据的下载代码会放在我的另一篇文章中,或者也可以直接在我的代码片中下载。


之前因为学习需要下载了谷歌的GDELT数据,在国内也叫疙瘩汤,GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,GDELT为全球提供了一个自由开放的计算平台。

GDELT2.0每隔15分钟提供全球事件数据。这些事件从1979年1月1日开始一直到今日。GDELT第一项服务就是免费的数据下载。同时GDELT还在谷歌的BigQuery上提供了数据API,这样您可以使用谷歌的分析工具进行分析。GDELT的数据除了事件数据外,还提供了GKG数据,也就是全球知识图(Global Knowledge Graph)的数据。在国内您也可以到疙瘩汤(www.gdelt.cn)上下载数据。

GDELT数据每条记录有58个字段,字段间以’\t’分割,在读取时需要注意,每个字段代表着不同的含义,有谷歌自动提取的时间有关的信息,事件有关对象、事件类型等,从2013.4.1开始提供新闻的网页地址,但是不提供网页内容,需要的可以通过链接自己下载,在2013.4.1之前的数据只能使用谷歌已经分析好的结果,个人觉得这个不太方便,缺少了网页原文,很多工作都做不了,而谷歌分析的结果又是相当简单和粗糙的,直接拿来使用价值有限。

在谷歌官网上有对这58个字段的说明,但是不全,看了提供的cookbook也不全,网上的各种资料都是对官网的内容的翻译,当时数了好几遍,确实很多字段是直接跳过没有说明的,所以下面就放上我根据自己的理解和猜测补全那些缺失的解释,不保证完全正确,权当参考。


通过上文链接可下载zip类型的gdelt数据压缩包,解压后为csv格式,每个csv文件内的数据均有58个字段(20133月以前的数据仅有57个字段,4月之后为58个字段,即多了url字段),这58个字段分为EVENTID AND DATE ATTRIBUTES,ACTOR ATTRIBUTES,EVENT ACTION ATTRIBUTES,EVENT GEOGRAPHY,DATA MANAGEMENT FIELDS这五部分。
---------------------------------------------------------------------------
EVENT AND DATE ATTRIBUTES
这一部分的字段记录了捕捉事件的全局唯一标识符号码,事件发生的日期和日期的不同版本格式,这有助于信息被记录在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:

A GlobalEventID:数据类型为整数型,它是一条记录的唯一标识符,通常它是递增标识的。

B Day:记录事件发生的日期,格式为YYYYMMDD

C MonthYear:记录事件发生的年月,格式为YYYYMM

D Year:记录事件发生的年份,格式为YYYY

E FractionDate:记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。

---------------------------------------------------------------------------
ACTOR ATTRIBUTES
这一部分字段描述了事件的两个参与者的CAMEO码、名称和特征属性。在复杂事件或仅有一个参与者的事件中另一个参与者的属性值可能为空,在gdelt系统无法识别参与者时参与者属性也可能为空。每个参与者的各项属性在缺省的情况下也会为空值。所包含的字段有:

F Actor1Code:参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。

G Actor1Name:参与者1的名称。对于政治领袖或组织,这将是领导人的正式名称(如乔治·W·布什、联合国);地理比赛将是该国或首都/主要城市名称。

H Actor1CountryCode:参与者1国家信息的CAMEO码(3字母缩写),它可能为Actor1Code中的CAMEO码,也可能为空。它标识了受到该事件影响的地理区域。

I Actor1KnownGroupCode:如果参与者1是一个已知的组织/非政府组织/反叛组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。

J 10 Actor1EthnicCode:如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。

K Actor1Religion1Code:如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。

L 12 Actor1Religion2Code:如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。

M 13 Actor1Type1Code:此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。特殊的代码如“温和的”和“激进的”可能指一组的操作策略。

N 14 Actor1Type2Code:如果参与者1具有多重角色,此处将包含其CAMEO码。

O 15 Actor1Type3Code:如果参与者1具有多重角色,此处将包含其CAMEO码。

参与者2将重复以上所有属性。 
P 16 Actor2Code
Q 17 Actor2Name
R 18 Actor2CountryCode
S 19 Actor2KnownGroupCode
T 20 Actor2EthnicCode
U 21 Actor2Religion1Code
V 22 Actor2Religion2Code
W 23 Actor2Type1Code
X 24 Actor2Type2Code
Y 25 Actor2Type3Code
---------------------------------------------------------------------------
EVENT ACTION ATTRIBUTES
这部分字段将包含事件行为(即参与者1对参与者2所做的事)的各类属性,并将提供几种机制来评估事件的重要性和其造成的短期影响。

Z 26 IsRootEvent:此字段标识了该事件在事件流中是否处于根节点位置。

AA 27 EventCode:此字段通过CAMEO码描述了事件参与者1对参与者2的行为。

AB 28 EventBaseCode:这里是一个三级分类法标识的CAMEO码。对于第三级的事件,此处包含其二级事件的叶节点。例如编码“0251”(“Appeal for easing of administrative sanctions”) ,此处即为“025” (“Appeal to yield”)。对于二级事件和一级事件,此处即为其EventCode。

AC 29 EventRootCode:与上面类似,此处标识了事件的根节点。 如“0251” (“Appeal for easing of administrative sanctions”) ,此处即为“02” (“Appeal”)。

AD 30 QuadClass:这个字段指定事件类型主要分类,所有事件将被划分为以下四个分类之一:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。

AE 31 GoldsteinScale:每个事件将被分配一个在-10到+10之间的数值,用以衡量理论上该事件对国家产生的潜在影响。 注意 :这个分数的判定是基于事件类型而非事件的细节,因此一个10人参与的暴乱与一个1000人参与的暴乱都将获得同样的分数。

AF 32 NumMentions:该属性值为数据库内所有文章提及该事件的次数。这可以用作评估事件的重要性的方法:讨论该事件越多,越有可能是重要的。如果新闻文章发表之后这个事件引发了讨论,该字段数值会进行更新(例如,一个事件在几周后的可能引发一个舆论热潮,会有无数的新闻文章发表提到原始新闻;在新的发展背景下,某一事件在一周年时可能会有进一步的报道)。

AG 33 NumSources:该属性值为所有提及该事件的数据源数值。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。

AH 34 NumArticles:该属性值为所有提及该事件的文章数。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。

AI 35 AvgTone:该属性值为所有文章提及该事件时“语气”的平均值。分数范围从-100(极其消极的)到+100(极积极的)。共同的价值观分数范围在-10和+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和其影响。例如,轻微负面语气的暴乱事件很可能是一个小事件,而如果是极其负面的语气,这表明可能是一个更严重的事件。而具有积极分数的暴乱事件则可能表明上下文中正在描述一个积极的事(如每天攻击的数量已经大大减少了)。
---------------------------------------------------------------------------

AJ 36 Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AK 37  Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

AL 38 Actor1Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。

AM 39 Actor1Geo_ADM2Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

AN 40 Actor1Geo_Lat:参与者1所处地理位置的纬度。

AO 41 Actor1Geo_Long:参与者1所处地理位置的经度。 

AP 42 Actor1Geo_FeatureID. :参与者1地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)

---------------------------------------------------------------------------
EVENT GEOGRAPHY
这一部分属性值描述了事件参与者与事件的地理位置信息,包含如下字段:

AQ 43 Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AR 44  Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

AS 45 Actor1Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。

AT 46 Actor1Geo_ADM2Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

AU 47 Actor1Geo_Lat:参与者1所处地理位置的纬度。

AV 48 Actor1Geo_Long:参与者1所处地理位置的经度。 

AW 49 Actor1Geo_FeatureID. :参与者1地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)

AX 50 Actor2Geo_Type  该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AY 51 Actor2Geo_Fullname  此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

AZ 52 Actor2Geo_ADM1Code  此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。

BA 53 Actor1Geo_ADM2Code  对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

BB 54 Actor2Geo_Lat

BC 55 Actor2Geo_Long

BD 56 Actor2Geo_FeatureID

---------------------------------------------------------------------------
DATA MANAGEMENT FIELDS
最后一组字段提供数据管理信息记录的事件记录。201341日之前的事件在这部分中只具有DATEADDED属性。

BE 57 DATEADDED:因为今天发布的新闻报道可以报道过去的事件,这将导致此字段和其他事件日期字段不一致。此字段记录的是该条数据被添加入数据库的日期,而第一部分的日期信息记录的是事件发生的时间。

BF 58 SOURCEURL:这个字段只存在201341日以后的文件中。通常记录事件的新闻文章的URL列表。如果事件是从BBC监测服务的文章中获得的,这个字段将包含“BBC Monitoring”。如果一个事件在多篇文章中被提及,只提供一个url。
---------------------------------------------------------------------------

参考资料:
[1] http://blog.csdn.net/u013562414/article/details/51679064
[2] http://www.th7.cn/web/js/201601/150627.shtml
[3] https://www.gdeltproject.org/data.html#rawdatafiles


以上,欢迎交流。如有问题,还望不吝赐教。

猜你喜欢

转载自blog.csdn.net/qq_23926575/article/details/78064093
今日推荐