真实世界研究(RWS)之数据标准化

上篇文章中,我们介绍了在做真实世界研究中,非结构化文本的处理方法,通过该方法虽然可以把非结构化的数据转换为结构化的数据,但是距离能够直接进行统计的数据还有一定的距离。数据标准化对于真实世界研究非常重要。在RWS中,我们通常需要处理来自多个来源的数据,并且这些数据通常是非结构化或半结构化的。这意味着这些数据可能存在多个不同的格式和标准化方法。

如果我们不对这些数据进行标准化,则可能会导致数据的不准确性和不完整性。因此,数据标准化对于RWS建立高质量、可靠和可扩展的数据管道和分析非常重要,它是RWS研究的必要步骤之一。

今天我们就来介绍一下如何使用知否AI来对数据进行标准化处理。

这是一段摘自丁香园的病历文本,

患者男性,50岁,主因“意识障碍”入院。 患者26天前因急性早幼粒细胞白血病接受三氧化二砷(10 mg/d)治疗,现患者出现意识障碍。体格检查提示P 92次/分,BP 102/63 mmHg。入院心电图如图1。电解质:血钾为3.9 mmol/L,血镁为1.10mmol/L,血钙为2.5mmol/L。

我们按照分而治之的思想,由粗到细,逐层处理。

第一步,先提取出检验信息

很明显,血钾,血镁,和血钙,并不是标注化的名称。不同的医院和渠道会有不同的名称,下一步就需要对这些名称进行标准化处理。

第二步,对提取出的信息进行标准化处理

标准化化,所以代表“钾”的检验项会统一叫做“钾(K)”。

通过上面的例子,相信大家理解到了我们这一步要做的工作内容和方法,看似一个简单的功能,实际上会直接影响到数据质量的好坏,后面的统计工作能否顺利进行下去。

声明:本文图片中AI来源于知否AI问答,一款全方位智能问答知识获取内容生成系统。感兴趣可以关注公众号云智博瑞或者云智AI助手

猜你喜欢

转载自blog.csdn.net/cloudwizdom/article/details/130359530