基于深度生成学习的中医电子病历自动诊断

Deep Generative Learning for Automated EHR Diagnosis of Traditional Chinese Medicine

利用无监督深度学习模型，学习特征表示。
利用监督学习模型，对DBN进行学习。
两个数据集：一种是医学专家索引的纯文本数据集。另一个是原发性高血压的结构化数据集。

摘要

背景

计算机辅助医疗决策(CAMDM)是利用大量电子病历electronic medical
records （EMR）数据作为经验和证据支持医疗活动决策程序的方法。完善的信息基础设施，如医院信息系统和疾病监测系统，为CAMDM提供了丰富的数据。然而，由于EMR数据的复杂性和医学知识的抽象，使得传统的模型无法进行分析。为此，提出了一种基于深度信任网络(DBN)的信息分析模型，用于模拟医疗实践中的信息分析和决策过程。本文的目的是评估一个深度学习体系结构作为CAMDM的有效解决方案。

方法

本研究采用两步模型。第一步，采用优化的七层深度置信网络(DBN)作为无监督学习算法进行模型训练，获取特征表示。第二步采用支持向量机模型对DBN进行监督学习。实验中使用了两个数据集。一种是医学专家索引的纯文本数据集。另一个是原发性高血压的结构化数据集。将数据随机分割，生成无监督学习的训练集和有监督学习的测试集。通过对数据集的均值和方差的统计、平均精度和覆盖率来评价模型的性能。采用两种传统的浅层模型(支持向量机/支持向量机和决策树/ DT)进行比较，证明了本文方法的优越性。

结果

深度学习(DBN+SVM)模型在两个数据集上的评价指标均优于简单的支持向量机和DT，这证实了我们的动机，即在人工构建指标时，深度学习模型能够较好地捕捉关键特征，且依赖性较小。

结论

两步深度学习模型在医学信息检索方面优于传统的浅层模型。它能够捕获文本和EMR数据的高度结构化数据库的特征。深度学习模型的性能优于传统的浅层学习模型，如支持向量机和DT。它是一种适合电子病历系统信息检索的知识学习模型。因此，深度学习为提高CAMDM系统的性能提供了一个很好的解决方案。

方法

实验中的深度学习模型采用无监督特征学习和监督特征学习设计相结合的两步方法。首先对数据集进行无监督特征学习，以获得一些潜在的特征表示。经过无监督预处理后，数据被传递到一个七层DBN模型中进行进一步的特征分解。两步模型及相关算法的详细内容如下:

无监督的特征学习

为了实现无监督学习，采用DBN[17]优化版本作为学习模型的核心算法。利用深度学习模型作为原始数据样本的无监督概念提取器。如图3所示，DBN模型可以被视为具有各种隐藏层的神经网络。为了克服训练多层网络模型的困难，我们使用RBM进行分层训练[17]，这在之前的研究[23]中被证明是有效的。RBM的理论基础是观测变量与隐变量之间的玻尔兹曼分布，可以用贝叶斯方法[24]将玻尔兹曼分布推广为高斯分布。

有监督的深度学习

经过无监督学习过程后，DBN网络将被训练并获得各种特征表示。因此，网络参数将在监督的方式很好地调优。由于之前的无监督特征学习的结果，参数得到了改进，因此，尽管特征之间存在多层，但网络训练收敛速度更快。最后，它需要在最后的输出层中有一个分类器来接收隐藏层的编码特征，并以真实结果或1-of-K编码的形式呈现最终决策。在这种情况下，使用SVM(支持向量机)模型来计算每个类别的概率，作为BP训练过程的输入。