医疗健康大数据基础知识



1.大数据是指难以被传统数据管理系统有效且经济地存储,管理,处理的复杂数据集。

大数据以PB为单位,包含结构化,半结构化,无结构化数据,大数据给数据的采集,运输,加密,存储,分析和可视化带来了严峻的挑战。

2.大数据五个特性:Volume(数据规模巨大)

                                    Variety(数据类型繁多)

                                Velocity(数据产生的速度快)

                                    Veracity(分析结果取决于数据准确性)

                                    Value(包含重要价值)

3.大数据处理方法:关联规则学习(挖掘各个变量间的关系),

分类(通过训练已有数据来识别新的数据),

聚类分析(按数据相似程度将整个数据集分为多个小规模数据集),

数据融合(将多个数据源的信息整合分析以产生新的更加精确,连续,有价值的信息),

扫描二维码关注公众号,回复: 2192116 查看本文章

机器学习(一类算法的总称,关注设计算法自动识别数据中的复杂模式),

自然语言处理(关注计算机与自然语言的联系,帮助计算机识别人类语言),

回归(一组统计算法,用来判别因变量与自变量的关系,以帮助预测),信号处理(一组用来识别,分析,处理信号的技术),

仿真(模拟一个复杂系统行为的技术,经常被用来预测),

可视化(将数据处理为图像,图标,动画,以帮助人类直观了解数据)

4.大数据处理平台:MapReduce,其提供了一种分布式编程的抽象方法;

Hadoop,其包含了多个系统和工具以帮助完成大数据任务;

HDFS,其用来可靠地分布式存储数据;

Hive,其提供了Hadoop上的SQL支持;

HBase,它是基于HDFS的一种非关系型数据库;

Zookeeper,其提供了集群节点的一个管理方法。

5.医疗健康大数据特点:多态性指医师对病人的描述具有主观性而难以达到标准化

时效性指数据仅在一段时间内有用;

不完整性指医疗分析对病人的状态描述有偏差和缺失;

冗余性指医疗数据存在大量重复或无关的信息;

隐私性指用户的医疗健康数据具有高度的隐私性,泄漏信息会造成严重后果。

 

猜你喜欢

转载自blog.csdn.net/sky_rabbit94/article/details/52836767