MIMIC-IV v2.0数据库

0. 引言

回顾性收集的医疗数据有机会通过知识发现和算法开发来改善患者护理。为了最大的公共利益,广泛重复使用医疗数据是可取的,但数据共享必须以保护患者隐私的方式进行。重症监护医疗信息集市(MIMIC)-III数据库为进入贝斯以色列女执事医疗中心(BIDMC)重症监护室的40000多名患者提供了重症监护数据。重要的是,根据《健康保险可携带性和责任法案》(HIPAA)安全港规定,MIMIC-III被取消识别,患者标识符被删除。MIMIC-III在推动临床信息学、流行病学和机器学习方面的大量研究方面发挥了不可或缺的作用。在这里,我们介绍了MIMIC-IV,它是MIMIC-III的更新,它结合了当代数据并改进了MIMIC-IIII的许多方面。MIMIC-IV采用模块化数据组织方法,突出数据来源,促进不同数据源的单独和组合使用。MIMIC-IV旨在延续MIMIC-III的成功,并支持医疗保健领域的广泛应用。

1. 缩写含义

subject_id :每个患者有唯一的subject_id。

hadm_id:患者的每一次入院会有一个唯一的hadm_id。

transfer_id:患者每一次更换病房会有一个唯一的transfer_id。

stay_id:在相同类型病房内进行转移,则会更新一个transfer_id,但会有相同的stay_id,例如用ICU中的一个病房转移到另一个病房,则stay_id不变,transfer_id更新。

所有id的分配都是随机的,与时间先后无关。

date and time:后缀为date的,分辨率最低为天;后缀为timed的字段,分辨率最低为分钟。

charttime and storetime:分别是测量的记录时间与储存时间,通常以charttime为准。

d and icd:命名为d_开头,为编码表。d_icd开头,为icd编码表。icd结尾的表,为使用icd编码的记录表。

2. Tables

tables分为六个模块,分别为Core、Hosp、ICU、ED、CXR、Note。

2.1 Core

Core模块包含患者跟踪数据。这里描述了人口统计、入院信息和住院病房转院情况。

admission

患者入院信息,以每次入院为单位记录,每条记录有一个单独的hadm_id,hospital_expire_flag只当次住院是否院内死亡,部分院内死亡患者没有deathtime,可能是数据库本身的问题

Name

data type

Description

subject_id

INTEGER

患者id

hadm_id

INTEGER

住院id

admittime

TIMESTAMP(0)

入院时间

dischtime

TIMESTAMP(0)

出院时间

deathtime

TIMESTAMP(0)

死亡时间

admission_type

VARCHAR(40)

按入院紧迫性分为9种

admission_location

VARCHAR(60)

入院来源

discharge_location

VARCHAR(60)

出院去向

insurance

VARCHAR(255)

保险

language

VARCHAR(10)

语言

marital_status

VARCHAR(80)

婚姻

ethnicity

VARCHAR(80)

种族

edregtime

TIMESTAMP(0)

进急诊时间

edouttime

TIMESTAMP(0)

出急诊时间

hospital_expire_flag

SMALLINT

是否在住院期间内死亡,1为在入院期间内死亡

patient

患者信息

Name

data type

Description

subject_id

INTEGER

gender

VARCHAR(1)

性别

anchor_age

INTEGER

第一次入院年龄(若年龄小于18,则设置为0;大于89岁,则设置为91)

anchor_year

INTEGER

第一次入院年

anchor_year_group

VARCHAR(255)

大约真实的入院时间

dod

TIMESTAMP(0)

死亡时间(院内死亡时间与admission表相同,但包含部分院外死亡时间,参考意义不大)

transfers

病房转移信息

Name

data type

Description

subject_id

INTEGER

hadm_id

INTEGER

transfer_id

INTEGER

eventtype

VARCHAR(10)

转移事件描述

careunit

VARCHAR(255)

病房类型

intime

TIMESTAMP(0)

转入时间

outtime

TIMESTAMP(0)

转出时间

2.2 Hosp

Hosp模块涵盖的信息包括实验室测量,微生物学,药物管理,和收费诊断等

d_icd_diagnoses

包含国际疾病分类(ICD)第9版和第10版的诊断代码

Name

data type

Description

icd_code

VARCHAR(10)

ICD编码

icd_version

INTEGER

ICD版本

long_title

VARCHAR(300)

诊断名称

diagnoses_icd

患者诊断信息表。seq_num代表诊断的优先级,序号越靠前越重要,而低优先级的排序有时并不准确。

有情况一个Hadm_id对应有两套诊断,一套使用icd-9,一套使用icd-10,本质上相同,取一套使用即可

Name

data type

Description

subject_id

INTEGER

hadm_id

INTEGER

seq_num

INTEGER

诊断顺序

icd_code

CHAR(7)

诊断编码

icd_version

INTEGER

编码版本

drgcodes

也是与诊断相关的表,使用Diagnosis Related Group(DRG) code.编码,与diagnose表中的主要诊断相对应。

d_icd_procedures

Name

data type

Description

icd_code

VARCHAR(10)

ICD编码

icd_version

INTEGER

ICD版本

long_title

VARCHAR(300)

名称

procedures_icd

患者住院期间的手术信息,包括在ICU期间的信息。

Name

data type

Description

subject_id

INTEGER NOT NULL

hadm_id

INTEGER NOT NULL

seq_num

INTEGER NOT NULL

手术顺序

chartdate

DATE NOT NULL

手术时间

icd_code

CHAR(7)

编码

icd_version

INTEGER

编码版本

d_labitems

实验室检查定义表

Name

data type

Description

itemid

INTEGER

项目编码

label

VARCHAR(50)

项目名称

fluid

VARCHAR(50)

检测的液体 如尿液、血液等

category

VARCHAR(50)

项目类别,如血气、化学等

loinc_code

VARCHAR(50)

对应LOINC编码

labevents

病人实验室检查的记录

Name

data type

description

labevent_id

INTEGER NOT NULL

subject_id

INTEGER NOT NULL

hadm_id

INTEGER

specimen_id

INTEGER NOT NULL

检验样本编号,每人可以有多个样本;每个样本可以进行多个检验

itemid

INTEGER NOT NULL

项目编码

charttime

TIMESTAMP NOT NULL

检测时间

storetime

TIMESTAMP

记录时间

value

VARCHAR(200)

检测结果

valuenum

DOUBLE PRECISION

数值结果

valueuom

VARCHAR(20)

计量单位

ref_range_lower

DOUBLE PRECISION

最小正常参考值

ref_range_upper

DOUBLE PRECISION

最大正常参考值

flag

VARCHAR(10)

表明实验室指标是否正常

priority

VARCHAR(7)

项目优先级

comments

TEXT

相关自由文本

prescriptions

Name

data type

description

subject_id

INTEGER NOT NULL

hadm_id

INTEGER NOT NULL

pharmacy_id

INTEGER

与pharmacy表相连

starttime

TIMESTAMP

开始时间

stoptime

TIMESTAMP

结束时间

drug_type

VARCHAR(20) NOT NULL

药物所占的成分

drug

VARCHAR(255) NOT NULL

药物名称

gsn

VARCHAR(10)

The Generic Sequence Number (GSN)药物的编码

ndc

VARCHAR(20)

The National Drug Code (NDC)药物编码

prod_strength

VARCHAR(255)

处方自由文本说明

form_rx

VARCHAR(25)

药物容器

dose_val_rx

VARCHAR(100)

处方剂量

dose_unit_rx

VARCHAR(50)

剂量的单位

form_val_disp

VARCHAR(50)

单次处方药量

form_unit_disp

VARCHAR(50)

药量单位

doses_per_24_hrs

REAL

每24小时剂量

route

VARCHAR(50)

给药途径

pharmacy

药房数据表,以pharmacy_id字段与prescriptions表相关联,相当于对prescriptions表中各处方信息的补充。

此外,还有微生物培养、收费、订单等表格

2.3 ICU

包含从ICU内使用的临床信息系统收集的信息。记录在案的数据包括静脉给药、呼吸机设置和其他图表项目等。

每个患者每次入院可能有多次icu,每次icu对应一个stay_id。

d_items

包含ICU内发生的所有项目的编码,通过itemid字段与ICU模块内的其他表格关联。

Name

data type

description

itemid

INTEGER

项目编码

label

VARCHAR(200)

项目标签

abbreviation

VARCHAR(100)

项目缩写

linksto

VARCHAR(50)

连接到的表名

category

VARCHAR(100)

项目类型,如"Routine Vital Signs"

unitname

VARCHAR(100)

测量单位

param_type

VARCHAR(30)

数据类型,如时间、数字

lownormalvalue

FLOAT

正常值参考范围下限

highnormalvalue

FLOAT

正常值参考范围上限

ICU stays

入住ICU的时间信息

Name

Data type

description

subject_id

INT

hadm_id

INT

stay_id

INT

first_careunit

VARCHAR(20)

进入icu类型

last_careunit

VARCHAR(20)

离开icu类型

intime

TIMESTAMP(0)

进入icu时间

outtime

TIMESTAMP(0)

离开icu时间

los

DOUBLE PRECISION

icu天数

chartevents

Chartevents包含了一个病人可用的所有图表数据,有些lab数据与labevents表中的数据重复。

Name

Data type

description

subject_id

Integer

hadm_id

Integer

stay_id

Integer

charttime

Date with times

检查时间

storetime

Date with times

录入时间

itemid

Integer

项目id

value

Text

检查结果

valuenum

Decimal number

检查结果数字形式

valueuom

Text

单位

warning

Binary (0 or 1)

表示是否为手工记录

2.4 ED

急诊信息,包含急诊诊断,病人体征等信息。通过subject_id和hadm_id与其他模块相连接。急诊的患者如有hadm_id,则说明该患者住院治疗。ed患者不一定住院,住院的患者也不一定从急诊入院。

diagnosis table

诊断表为患者提供诊断列表。从急诊科出院后确定诊断。

edstays table

急诊科来访的主要跟踪表。它提供了病人进入急诊科和离开急诊科的时间

medrecon table

在进入急诊室时,工作人员会询问病人目前正在服用什么药物。这个过程被称为药物协调,医疗检查表存储了护理人员的调查结果

pyxis table

提供了通过pyxis系统配制药物的信息。

triage table

包含病人在急诊室第一次分诊时生命体征信息

vitalsign table

急诊室收治的病人常规的生命体征需要1-4小时。这些生命体征保存在生命体征表中

vitalsign_hl7 table

急诊收治的病人可通过遥测技术进行监测。每分钟的生命体征都被传送到医院的中央服务器,这些生命体征都被记录在这里。

2.5 CXR

X光胸片文件,源数据是dicom格式,但也提供了jpg格式的下载。包含了胸片及影像学报告。值得注意的是,存在有影像的患者没有住院记录的情况。

cxr-record-list

有一些图像按照路径没有找到,即有文本却找不到对应图像

影像与报告列表

Name

data type

description

subject_id

INTEGER

study_id

INTEGER

影像学报告编码

dicom_id

TEXT NOT NULL

图像编码

path

图像路径    例:

files/p10/p10000032/s50414267/02aa804e-bde0afdd-112c0b34-7bc16630-4e384014.dcm

cxr-study-list

Name

data type

description

subject_id

INTEGER

study_id

INTEGER

报告编码

path

报告路径   例:

files/p10/p10000032/s50414267.txt

mimic-cxr-2.0.0-chexpert

使用CheXpert labeler(基于影像学报告的非人工标注,斯坦福与麻省理工合作)标注了14个标签,标签如下表

各标签有四种值,

1:被正面提及  

0:被负面提及,如无肺不张   

-1:被提到但无法判断,或说法模棱两可

(空值):该特征没有被提到

Atelectasis

肺不张

Cardiomegaly

心脏肥大

Consolidation

变实

Edema

水肿

Enlarged Cardiomediastinum

纵隔扩大

Fracture

骨折

Lung Lesion

肺部病变

Lung Opacity

肺部浑浊

Pleural Effusion

胸腔积液

Pneumonia

肺炎

Pneumothorax

气胸

Pleural Other

胸膜其他

Support Devices

支持设备

No Finding

无发现(指13个描述性标签中的任何一个都没有出现)

mimic-cxr-2.0.0-split

提供了参考的训练集、验证集、测试集划分

2.6 Note

(NOT PUBLICLY AVAILABLE): 所有文本报告,出院、超声、新店、影像等报告

MIMIC-IV v2.0

主要变化

①移除了core模块,目前admissions, patients 和 transfers 表格存在hosp模块里;

②移除了新生儿数据,后续将与新生儿重症监护室的数据一起在其他项目中单独发布。

ICU模块

1. Icustays

由于patient表的变化,大约700个stayids(约1%)发生了改变。

2. chartevents, d_items

chartevents表中新增加了itemid=220001,以记录来自MetaVision 的1000多个问题 。大多数记录在案的问题与患者的护理计划有关,并在护士轮班期间(早上 7 点或晚上 7 点)记录在案。

3. ingredientevents
这是一个与 inputevents关联的新表。在 inputevents表中跟踪的每一次静脉给药都与一组成分相关。这些成分包括含水量、热量信息等。  inputevents表支持营养学相关研究,并通过对所有水成分求和以用于评估fluid input。目前,这些成分已从inputevents表中分离出来,添加至新表ingredientevents中。

4. Inputevents

仅删除了包含空值的列:cancelreason

5. procedureevents
删除了以下仅包含空值的列:totalamount, totalamountuom, cancelreason, comments_editedby, comments_canceledby, comments_date, secondaryordercategoryname.

Hops模块

1. Admissions

修复了患者通过急诊入院时缺少 edregtime 和 edouttime 的问题。

2. patients

①dod现在填充了来自州死亡记录的院外死亡。对于入住 ICU 的患者,这一变化已将死亡日期记录从 8,223 条增加到 23,844 条(即,2.0版本中另外有15621名ICU患者的院外死亡记录)。也就是说,2.0版本的mimic Ⅳ中有随访数据了!

②2.0版本中患者纳入MIMIC中的机制有所不同。很大程度上优化了合并同一患者多个医疗记录号码的逻辑。由于此更改,大多数表的数据内容都发生了变化。大约有1%的stays受到了影响。

3. Transfers

修复了hadm_id为NULL的 ED 患者(即只入ED没有入院的患者)的outtime问题。原先存在的问题导致transfers表中所有hadm_id为NULL的患者在院内停留时间是错误的。2.0版本中已经修正了outtime列的这个问题。

4. labevents, d_labitems

①更改了d_labitems表中的43项itemid。

②loinc_code列已被删除。将在官方git代码仓中协作开发,其初始值将来自医院系统。

③许多以前在comments字段中有值的实验室指标现在在value字段中也有值。

5. Microbiologyevents

microbiologyevents表中增加了新的病原体、检验、标本和抗生素。

6. omr 

omr是一个新添加的表。 此数据的来源是在线医疗记录,其中包含有个人健康状况的多种信息。从 v2.0 开始, omr 表具有以下信息:血压、身高、体重、BMI和估计肾小球滤过率 (eGFR)。这些值可从住院和门诊访问中获得,并且在许多情况下,患者住院前的“基线”值是可用的。

7. Prescriptions

formulary_drug_cd列已添加回来(以前在MIMIC-III中有)。此列与 emar_detail表中product_code列具有相同的值。

猜你喜欢

转载自blog.csdn.net/weixin_46163097/article/details/128748572