认识大数据

“大数据”（BigData）是继云计算、物联网之后TI产业又一次颠覆性的技术变革。当今信息时代所产生的数据量已经大到无法用传统的工具进行采集、存储、管理和分析。全球产生的数据量，仅在2011就达到1ZB，且根据预测，未来十年全球数据存储量将增长50倍。大数据不是云计算，而是云计算的终极目标和升级方向；大数据只有当针对某个方面的应用，找出数据源，确定数据量，选择处理方法，并得出最终结果的过程才有意义。即：大数据=数据量+实际应用+处理方法。离开了一定的数据量，大数据就失去了灵魂；避开实际应用数据量再大也将毫无意义；没有正确的方法管理数据量，应用就成了无本之木。

而无论是分析专家还是数据科学家最终都会殊途同归的探索新的，无法想象的庞大数据集，以期发现一些有价值的趋势、形态和解决问题的方法。由于多大数据源都是半结构化或多结构化的，而不是非结构化的，因此处理数据不像处理传统结构化数据那么简单。而要处理半结构化的数据，不但需要花费很多时间，而且也很难找出解决问题的方法。这也是为什么人们很难就大数据给出一个即严格又准确的定义，而是用几乎玄学的说法去神话它的存在。这也是为什么大数据发展至今也没有建立起一套完整的理论体系的原因所在。对它的定义也多少有些牵强附会和模棱两可。

以企业为例，对企业内部的纷乱数据通过分析进行决策的目的就是帮助企业领导者更好的管理企业。一旦人们开始认识到数据的价值，那么驾驭和分析大数据仅仅是现在工作的扩展和延伸。要知道大数据并不是救世主，它不会带给我们翻天覆地的变化，更没有必要去畏惧它。大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

学习目标：

l 了解大数据的基本概念、特点和技术架构

l 了解大数据整体技术和关键技术

l 了解大数据处理分析的五种典型工具

l 了解大数据的应用案例和在医疗邻域中的应用

l 了解大数据未来的发展趋势

10.1 大数据技术概述

10.1.1大数据的基本概念

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件和硬件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

从技术层面上看，大数据无法用单台的计算机进行处理，而必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托一些现有的数据处理方法，如云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。

　　早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，就将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过，大约从2009年开始，“大数据”才真正成为互联网信息技术行业的流行词汇。美国互联网数据中心指出，互联网上的数据每年将增长50%，而每两年就将翻一番，而目前世界上90%以上的数据是最近几年才产生的。此外，数据并非单纯指人们在互联网上发布的信息，全世界的工业设备、汽车、电表上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，必然会产生海量的数据信息。

大数据的意义在于人类日益普及的网络行为附带生成的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好，非传统结构的数据。

从海量数据中“提纯”出有用的信息，这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后，大数据终于迎来了属于它自己的时代。2012年3月22日，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。

大数据时代已经来临，它将在众多领域掀起变革的巨浪。如图10-1 所示。但我们要冷静的看到，大数据的核心在于为客户挖掘数据中蕴藏的价值，而不是软硬件的堆砌。因此，针对不同领域的大数据应用模式、商业模式的研究和探索将是大数据产业健康发展的关键。

图10-1 大数据时代

10.1.2大数据的发展简史

　　回顾过去的50 多年，我们可以看到IT 产业已经经历过几轮新兴和重叠的技术浪潮，如图10-2 所示。这里面的每一波浪潮都是由新兴的IT 供应商主导的。他们改变了已有的秩序，重新定义了计算机的规范，并为进入新时代铺平了道路。

图10-2 IT科技浪潮

所有这一切开始于60 年代和70 年代的大型机浪潮，它是以BUNCH（Burroughs、Univac、NCR、Control Data 和Honeywell等公司为首的。然后，在步入70 年代和80 年代后，小型机浪潮和分布式计算涌现出来，为首的公司包括：DEC、IBM、Data General、Wang、Prime 等。

在70 年代后期到进入90 年代，微处理器或者个人计算机浪潮冲刷了IT 产业，领先者为Microsoft、Intel、IBM 和Apple 等公司。从90 年代中期开始，我们进入了网络化浪潮。如今，全球在线的人数已经超过了10亿，而且有多出在线人数几倍的人使用移动电话。这一浪潮由Cisco、Google、Oracle、EMC、Salesforce.com 等公司领导。有些公司更善于驾驭这些连续的浪潮，而另一些公司则被落下了。

那么，下一波浪潮会是什么？它还没有被正式命名。我们更愿意称它为云计算和大数据浪潮。其实，不管它被叫做什么，它都将比在它之前发生过的浪潮更大、触及面更广。非常重要的是：新的浪潮正在迅速地朝我们涌来，并将触及IT 的各个方面。

数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息，在互联网上听数字信息，我们自己也在不断制造新的数字信息。每次用数码相机拍照后，都产生了新的数字信息，通过电子邮件把照片发给朋友和家人，又制造了更多的数字信息。如图10-3所示。

图10-3各行各业每天制造大量数据

不过，没人知道这些数字比特共有多少？数字比特增加的速度有多快？比特激增意味着什么？

人们制造、获取和复制的所有1 和0 组成了数字世界。人们通过拍照片和共享音乐制造了数字比特，而公司则组织和管理对这些数字信息的访问和存储并为其提供了强有力的安全保障。

目前世界上有三种类型的主要模拟数字转换为这种增长提供动力和服务：用胶片拍摄影像转换为数字影像拍摄；模拟语音转换为数字语音；以及模拟电视转换为数字电视。从数码相机、可视电话、医用扫描仪到保安摄像头，全世界有10亿多台设备在拍摄影像，这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC和服务器及数据中心中复制，通过数字电视广播和数字投影银幕播放。

2007 年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。然而，这没有什么好怕的，调查结果强调现在人类应该也必须合理调整数据存储和管理。有很多数据是没有必要复制和存储下来的，而且存储那些数据的成本也很高。

IDC和EMC都认为数字信息量的增长是因为网络应用的不断增长，以及人类开始将物理数据转化为数字格式的数据所致。被存储下来的数据从本质上说已经发生了重大的变化，数字化数据总量增长得很快。大约30年前，通信行业的数据大部分还是结构化数据。如今，多媒体技术的普及导致非结构化数据如音乐和视频等的数量出现爆炸式增长。虽然30多年前的一个普通企业用户文件也许表现为数据库中的一排数字，但是如今的类似普通文件可能包含许多数字化图片和文件的影像或者数字化录音内容。现在，95%以上的数字信息都是非结构化数据。在各组织和企业中，非结构化数据占到了所有信息数据总量的80%以上。

“可视化”是引起数字世界急速膨胀的主要原因之一。由于数码相机、数码监控摄像机和数字电视内容的加速增多，以及信息的大量复制趋势，使得数字宇宙的容量和膨胀速度超过此前估计。

IDC的数字世界白皮书指出，个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式，每个人日常生活都在被数字化。数字世界的规模从2006 年到2011 年这五年间膨胀了10 倍！如图10-4 所示。

图10-4 全球数字信息5年增长10倍

大数据快速增长的部分原因归功于智能设备的普及，比如传感器和医疗设备，以及智能建筑，比如楼宇和桥梁。此外，非结构化信息，比如文件、电子邮件和视频，将占到未来10年新生数据的90%。非结构化信息的增长部分应归功于高宽带数据的增长，比如视频。

用户手中的手机和移动设备是数据量爆炸的一个重要原因，目前，全球用户拥有50 亿台手机，其中20 亿台为智能电话，这相当于80 年代20 亿台IBM 的大型机在消费者手里。

10.1.3大数据时代的数据格式特性

首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看，信息结构类型大致经历了三次浪潮。必须注意这一点，新的浪潮并没取代旧浪潮，它们仍在不断发展，三种数据结构类型一直存在，只是其中一种结构类型往往主导于其他结构：

·结构化信息——这种信息可以在关系数据库中找到，多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息，另外，还可对结构数据库信息进行排序和查询；

·半结构化信息——这是IT的第二次浪潮，包括电子邮件，文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础，可以用于搜索，这也是谷歌存在的理由；

·非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中（诸如可在音频、视频和多媒体文件中被听或被看）。许多大数据都是非结构化的，其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

10.1.4大数据的特点

大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据下载到关系数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce那样的框架来向数十、数百或甚至数千的电脑分配工作。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

大数据呈现出“4V+1C”的特点：

（1）Variety，大数据种类繁多，在编码方式、数据格式、应用特征等多个方面存在差异性，多信息源并发形成大量的异构数据；

（2）Volume，通过各种设备产生的海量数据，其数据规模极为庞大，远大于目前互联网上的信息流量，PB级别将是常态；

（3）Velocity，涉及到感知、传输、决策、控制开放式循环的大数据，对数据实时处理有着极高的要求，通过传统数据库查询方式得到的“当前结果”很可能已经没有价值；

（4）Vitality，数据持续到达，并且只有在特定时间和空间中才有意义；

（5）Complexity，通过数据库处理持久存储的数据不再适用于大数据处理，需要有新的方法来满足异构数据统一接入和实时数据处理的需求。

无所遁形的大数据时代已经到来，以迅雷不及掩耳之势渗透到每一个职能领域内,如何借助大数据浪潮持续创新发展，舒筋活血，使企业成功转型，在当下具有非凡的意义。

10.1.5大数据的应用领域

大数据应用领域十分广泛，如网络日志、RFID传感器、社会网络、社会数据、互联网文本和文件；互联网搜索索引；呼叫详细记录、天文学、大气科学、基因组学、生物和其他复杂或跨学科的科研、军事侦察、医疗记录；摄影档案馆视频档案；大规模的电子商务等。

10.2 大数据技术架构

各种各样的大数据应用迫切需要新的工具和技术来存储、管理和实现商业价值。新的工具、流程和方法支撑起了新的技术架构，使得企业能够建立、操作和管理这些超大规模的数据集和储藏数据的存储环境。

在全新的数据增长速度条件下，一切都必须重新评估。这项工作必须从全盘入手，并考虑大数据分析要容纳数据本身，IT 基础架构必须能够以经济的方式存储，比以往量更大、类型更多的数据。此外，还必须能适应数据速度，即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须分布计算能力，以便能在接近用户的位置进行数据分析，减少跨越网络所引起的延迟。

随着企业逐渐认识到必须在数据驻留的位置进行分析，提升计算能力，以便为分析工具提供实时响应带来挑战。考虑到数据速度和数据量，来回移动数据进行处理是不现实的。相反，计算和分析工具可能会移到数据附近。而且，云计算模式对大数据的成功至关重要。

云模型在从大数据中提取商业价值的同时也在驯服它。这种交付模型能为企业提供一种灵活的选择，以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。但仅仅存储和提供数据还不够，必须以新方式合成、分析和关联数据，才能提供商业价值。部分大数据方法要求处理未经建模的数据，因此，可以用毫不相干的数据源比较不同类型的数据和进行模式匹配。从而使大数据的分析能以新视角挖掘企业传统数据，并带来传统上未曾分析过的数据洞察力。基于上述考虑，一般我们可以构建出适合大数据的四层堆栈式技术架构， 1．基础层

第一层作为整个大数据技术架构基础的最底层，也是基础层。要实现大数据规模的应用，企业需要一个高度自动化的、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须可以线性扩展。

云模型鼓励访问数据并提供弹性资源池来应对大规模问题，解决了如何存储大量数据，以及如何积聚所需的计算资源来操作数据的问题。在云中，数据跨多个节点调配和分布，使得数据更接近需要它的用户，从而可以缩短响应时间和提高生产率。

2．管理层

要支持在多源数据上做深层次的分析，大数据技术架构中需要一个管理平台，使结构化和非结构化数据管理为一体，具备实时传送和查询、计算功能。本层既包括数据的存储和管理，也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。

3．分析层

大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法，用于分析和解释数据集，帮助企业获得对数据价值深入的领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器，起到事半功倍的效果。

4．应用层

大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。反之，大数据应用为企业提供的竞争优势使得企业更加重视大数据的价值。新型大数据应用对大数据技术不断提出新的要求，大数据技术也因此在不断的发展变化中日趋成熟。

10.3大数据的整体技术和关键技术

大数据需要特殊的技术，以有效地处理那些在允许时间范围内的大量数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据技术分为整体技术和关键技术两个方面。

1.整体技术

数据采集：ETL（Extract & Transformation & Loading）工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

（1）数据存取：关系数据库、NOSQL、SQL等。

（2）基础架构：云存储、分布式文件存储等。

（3）数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

（4）统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

（5）数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

（6）模型预测：预测模型、机器学习、建模仿真。

（7）结果呈现：云计算、标签云、关系图等。

2.关键技术

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。

（1）大数据采集技术：数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化（或称之为弱结构化）及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据采集、高速数据全映像等大数据收集技术；突破高速数据解析、转换与装载等大数据整合技术；设计质量评估模型，开发数据质量技术。

大数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重掌握针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

（2）大数据预处理技术：主要完成对已接收数据的辨析、抽取、清洗等操作。

　　①抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

　　②清洗：由于在海量数据中，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

　　（3）大数据存储及管理技术：大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术；突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术；突破大数据索引技术；突破大数据移动、备份、复制等技术；开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

（4）开发大数据安全技术：改进数据销毁、透明加解密、分布式访问控制、数据审计等技术；突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

　　（5）大数据分析及挖掘技术：大数据分析技术。改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，包括多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web；根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度，着重突破：

①可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。

②数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

③预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

④语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

⑤数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

（6）大数据展现与应用技术：大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统（道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统），大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

10.4大数据处理分析的五种典型工具

大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。

1．Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。其特点是：

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

（1）高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

（2）高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

（3）高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

（4）容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

2．HPCC

HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。该项目主要由五部分组成：

（1）高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

（2）先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

（3）国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;

（4）基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;

（5）信息基础结构技术和应用(IITA )，目的在于保证美国在先进信息技术开发方面的领先地位。

3．Storm

Storm是一种开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。 Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、

ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。

4．Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

5．RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。其功能和特点是：

（1）免费提供数据挖掘技术和库。

（2）100%用Java代码(可运行在操作系统)。

（3）数据挖掘过程简单，强大和直观。

（4）内部XML保证了标准化的格式来表示交换数据挖掘过程。

（5）可以用简单脚本语言自动进行大规模进程。

（6）多层次的数据视图，确保有效和透明的数据。

（7）图形用户界面的互动原型。

（8）命令行(批处理模式)自动大规模应用。

（9）Java API(应用编程接口)。

（10）简单的插件和推广机制。

（11）强大的可视化引擎，许多尖端的高维数据的可视化建模。

10.5大数据的3个应用案例

1.Informatica Cloud解决方案

PDI是一家领先的医疗商业化公司，Informatica Cloud加强了该公司的销售、客户报告、洞察力和合规性。Informatica通过确保交付及时和相关的信息，帮助PDI取得高额数据回报，同时减少了企业的应用程序、数据和 CRM 备份成本，更在不到一个月的时间就部署完毕。

解决方案将PDI的Salesforce .com CRM数据复制到基于云的报表系统中，使数据完整且保持最新，完成报表周期所用的时间只是以前所需时间的零头。可以每周、每日甚至实时生成报告，而从前则是30天的周期。

数据集成和CRM备份成本也大幅降低，同时PDI销售团队可以共享他们的业绩视图，跟踪生物医药销售指标和其他促进销售的信息。

PDI的首席信息官Jo AnnSaitta 表示：“离了 Informatica Cloud ，PDI的销售团队就会抓瞎。这种灵活易用、基于 SaaS 的集成服务正帮助公司实现数据的巨大回报，推动本来向下的销售上行，最终提高IT 利润。”

新西兰最大的金融机构 Westpac Life将Informatica 部署在其雄心勃勃的保险项目中，这个项目是一个商业智能环境，帮助金融机构增加收入、留住更多客户、增加交叉销售的潜在客户并降低风险。

系统提供了一个可信业务和保险客户数据的单一来源，有望交出240 %以上的投资回报，保单的生命周期收入提高至少一个百分点。

Informatica 还助力Westpac的社交媒体项目，利用客户所说的话，从而将客户放在Westpac活动的前沿和中心。

超过120 万客户每月进行三百万的在线交易，庞大的数据集带来了复杂的挑战。但是通过部署Informatica 平台，避免了在孤岛上作出决策。可基于具有高级报告和可视化的全盘信息，在保密情况下通过强大数据治理作出战略决策。

Westpac Life新西兰有限公司的保险负责人KevinCrowley说：“在财务不确定性的环境中，更快作出决策所需的财务效率和业务洞察是 Westpac 已经解决的挑战。因为有 Informatica ，我们有更好的定位，对更大透明度的需求作出响应，并将公司的客户保险数据资产转化为业务洞察力。”

Informatica深知，对于很多企业来说，向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点，同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力，为企业提供全程帮助。

2 .IBM战略

IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”，指的是在“掌握信息”（Align）的基础上“获取洞察”（Anticipate），进而采取行动（Act），优化决策策划能够救业务绩效。除此之外，还需要不断地“学习”（Learn）从每一次业务结果中获得反馈，改善基于信息的决策流程，从而实现“转型”（Transform）。

基于“3A5步”动态路线图，IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算（StreamComputing）、数据仓库（Data Warehouse）和信息整合与治理（Information Integration and Governance）。

在大数据处理领域，IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员—IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品，分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics，可分别应用于OLTP（联机事务处理）、OLAP（联机分析处理）和大数据分析操作。与此前发布的IBMPureSystems系列产品一样，IBM PureData系统提供内置的专业知识、源于设计的集成，以及在其整个生命周期中的简化体验。

3.微软战略

大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

10.6 大数据在医疗领域中的应用

1989年，Gartner提出BI概念。2008年，Gartner将BI概念进一步升级为高级分析(Advanced Analytics)。2011年，麦肯锡阐释大数据概念。虽然名称不同，但实际上它们要解决的问题从来没变过。只不过，现在的大数据分析技术能处理相比20年前更大量、多样、实时(Volume、Variety、Velocity)的数据，即大数据。相比20年前的BI，现在的大数据分析能够产生更大的商业价值，大数据存储和分析技术的发展也得益于商业场景中数据量的激增和数据种类的多样化。

除了较早前就开始利用大数据的互联网公司，医疗行业可能是让大数据分析最先发扬光大的传统行业之一。医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。因此，医疗行业将和银行、电信、保险等行业一起首先迈入大数据时代。麦肯锡在其报告中指出，排除体制障碍，大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。

下面列出了医疗服务业5大领域(临床业务、付款/定价、研发、新的商业模式、公众健康)的14项应用，这些场景下，大数据的分析和应用都将发挥巨大的作用，提高医疗效率和医疗效果。如图10-6 所示。

图 10-6大数据的智能医疗服务

10.6.1 临床业务

在临床业务方面，有5个主要场景的大数据应用。麦肯锡估计，如果这些应用被充分采用，光是美国，国家医疗健康开支一年就将减少165亿美元。

1.比较效果研究

通过全面分析病人特征数据和疗效数据，然后比较多种干预措施的有效性，可以找到针对特定病人的最佳治疗途径。

基于疗效的研究包括比较效果研究(Comparative Effectiveness Research， CER)。研究表明，对同一病人来说，医疗服务提供方不同，医疗护理方法和效果不同，成本上也存在着很大的差异。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集，可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。医疗护理系统实现CER，将有可能减少过度治疗(比如避免那些副作用比疗效明显的治疗方式)，以及治疗不足。从长远来看，不管是过度治疗还是治疗不足都将给病人身体带来负面影响，以及产生更高的医疗费用。

世界各地的很多医疗机构(如英国的NICE，德国IQWIG，加拿大普通药品检查机构等)已经开始了CER项目并取得了初步成功。2009年，美国通过的复苏与再投资法案，就是向这个方向迈出的第一步。在这一法案下，设立的比较效果研究联邦协调委员会协调整个联邦政府的比较效果的研究，并对4亿美元投入资金进行分配。这一投入想要获得成功，还有大量潜在问题需要解决，比如，临床数据和保险数据的一致性问题，当前在缺少EHR(电子健康档案)标准和互操作性的前提下，大范围仓促部署EHR可能造成不同数据集难以整合。再如，病人隐私问题，想要在保护病人隐私的前提下，又要提供足够详细的数据以便保证分析结果的有效性不是一件容易的事情。还有一些体制问题，比如目前美国法律禁止医疗保险机构和医疗补助服务中心(Centers for Medicare and Medicaid Services)(医疗服务支付方)使用成本/效益比例来制定报销决策，因此即便他们通过大数据分析找到更好的方法也很难落实。

2.临床决策支持系统

临床决策支持系统可以提高工作效率和诊疗质量。目前的临床决策支持系统分析医生输入的条目，比较其与医学指引不同的地方，从而提醒医生防止潜在的错误，如药物不良反应。通过部署这些系统，医疗服务提供方可以降低医疗事故率和索赔数，尤其是那些临床错误引起的医疗事故。在美国Metropolitan儿科重症病房的研究中，两个月内，临床决策支持系统就削减了40%的药品不良反应事件数量。

大数据分析技术将使临床决策支持系统更智能，这得益于对非结构化数据的分析能力的日益加强。比如可以使用图像分析和识别技术，识别医疗影像(X光、CT、MRI)数据，或者挖掘医疗文献数据建立医疗专家数据库(就像IBM Watson做的)，从而给医生提出诊疗建议。此外，临床决策支持系统还可以使医疗流程中大部分的工作流流向护理人员和助理医生，使医生从耗时过长的简单咨询工作中解脱出来，从而提高治疗效率。

3.医疗数据透明度

提高医疗过程数据的透明度，可以使医疗从业者、医疗机构的绩效更透明，间接促进医疗服务质量的提高。

根据医疗服务提供方设置的操作和绩效数据集，可以进行数据分析并创建可视化的流程图和仪表盘，促进信息透明。流程图的目标是识别和分析临床变异和医疗废物的来源，然后优化流程。仅仅发布成本、质量和绩效数据，即使没有与之相应的物质上的奖励，也往往可以促进绩效的提高，使医疗服务机构提供更好的服务，从而更有竞争力。

数据分析可以带来业务流程的精简，通过精益生产降低成本，找到符合需求的工作更高效的员工，从而提高护理质量并给病人带来更好的体验，也给医疗服务机构带来额外的业绩增长潜力。美国医疗保险和医疗补助服务中心正在测试仪表盘，将其作为建设主动、透明、开放、协作型政府的一部分。本着同样的精神，美国疾病控制和预防中心(Centers for Disease Control and Prevention)已经公开发布医疗数据，包括业务数据。

公开发布医疗质量和绩效数据还可以帮助病人做出更明智的健康护理决定，这也将帮助医疗服务提供方提高总体绩效，从而更具竞争力。

4.远程病人监控

从对慢性病人的远程监控系统收集数据，并将分析结果反馈给监控设备(查看病人是否正在遵从医嘱)，从而确定今后的用药和治疗方案。

2010年，美国有1.5亿慢性病患者，如糖尿病、充血性心脏衰竭、高血压患者，他们的医疗费用占到了医疗卫生系统医疗成本的80%。远程病人监护系统对治疗慢性病患者是非常有用的。远程病人监护系统包括家用心脏监测设备、血糖仪，甚至还包括芯片药片，芯片药片被患者摄入后，实时传送数据到电子病历数据库。举个例子，远程监控可以提醒医生对充血性心脏衰竭病人采取及时治疗措施，防止紧急状况发生，因为充血性心脏衰竭的标志之一是由于保水产生的体重增加现象，这可以通过远程监控实现预防。更多的好处是，通过对远程监控系统产生的数据的分析，可以减少病人住院时间，减少急诊量，实现提高家庭护理比例和门诊医生预约量的目标。

5.对病人档案的先进分析

在病人档案方面应用高级分析可以确定哪些人是某类疾病的易感人群。举例说，应用高级分析可以帮助识别哪些病人有患糖尿病的高风险，使他们尽早接受预防性保健方案。这些方法也可以帮患者从已经存在的疾病管理方案中找到最好的治疗方案。

10.6.2付款/定价

对医疗支付方来说，通过大数据分析可以更好地对医疗服务进行定价。以美国为例，这将有潜力创造每年500亿美元的价值，其中一半来源于国家医疗开支的降低。如图10-7 所示。

图10-7大数据在付款/定价中的应用

1. 自动化系统

自动化系统(例如机器学习技术)检测欺诈行为。业内人士评估，每年有2%~4%的医疗索赔是欺诈性的或不合理的，因此检测索赔欺诈具有巨大的经济意义。通过一个全面的一致的索赔数据库和相应的算法，可以检测索赔准确性，查出欺诈行为。这种欺诈检测可以是追溯性的，也可以是实时的。在实时检测中，自动化系统可以在支付发生前就识别出欺诈，避免重大的损失。

2. 基于卫生经济学和疗效研究的定价计划

在药品定价方面，制药公司可以参与分担治疗风险，比如基于治疗效果制定定价策略。这对医疗支付方的好处显而易见，有利于控制医疗保健成本支出。对患者来说，好处更加直接。他们能够以合理的价格获得创新的药物，并且这些药物经过基于疗效的研究。而对医药产品公司来说，更好的定价策略也是好处多多。他们可以获得更高的市场准入可能性，也可以通过创新的定价方案，更有针对性疗效药品的推出，获得更高的收入。

在欧洲，现在有一些基于卫生经济学和疗效的药品定价试点项目。一些医疗支付方正在利用数据分析衡量医疗服务提供方的服务，并依据服务水平进行定价。医疗服务支付方可以基于医疗效果进行支付，他们可以与医疗服务提供方进行谈判，看医疗服务提供方提供的服务是否达到特定的基准。

10.6.3研发

医疗产品公司可以利用大数据提高研发效率。拿美国为例，这将创造每年超过1000亿美元的价值。

1. 预测建模

医药公司在新药物的研发阶段，可以通过数据建模和分析，确定最有效率的投入产出比，从而配备最佳资源组合。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集，尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本，在通过数据建模和分析预测药物临床结果后，可以暂缓研究次优的药物，或者停止在次优药物上的昂贵的临床试验。

除了研发成本，医药公司还可以更快地得到回报。通过数据建模和分析，医药公司可以将药物更快推向市场，生产更有针对性的药物，有更高潜在市场回报和治疗成功率的药物。原来一般新药从研发到推向市场的时间大约为13年，使用预测模型可以帮助医药企业提早3～5年将新药推向市场。

2. 提高临床试验设计的统计工具和算法

使用统计工具和算法，可以提高临床试验设计水平，并在临床试验阶段更容易地招募到患者。通过挖掘病人数据，评估招募患者是否符合试验条件，从而加快临床试验进程，提出更有效的临床试验设计建议，并能找出最合适的临床试验基地。比如那些拥有大量潜在符合条件的临床试验患者的试验基地可能是更理想的，或者在试验患者群体的规模和特征二者之间找到平衡。

3. 临床实验数据的分析

分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后，可以对药物进行重新定位，或者实现针对其他适应症的营销。实时或者近乎实时地收集不良反应报告可以促进药物警戒(药物警戒是上市药品的安全保障体系，对药物不良反应进行监测、评价和预防)。或者在一些情况下，临床实验暗示出了一些情况但没有足够的统计数据去证明，现在基于临床试验大数据的分析可以给出证据。

这些分析项目是非常重要的。可以看到最近几年药品撤市数量屡创新高，药品撤市可能给医药公司带来毁灭性的打击。2004年从市场上撤下的止痛药Vioxx，给默克公司造成70亿美元的损失，短短几天内就造成股东价值33%的损失。

4. 个性化治疗

另一种在研发领域有前途的大数据创新，是通过对大型数据集(例如基因组数据)的分析发展个性化治疗。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系，然后在药物研发和用药过程中考虑个人的遗传变异因素。

个性化医学可以改善医疗保健效果，比如在患者发生疾病症状前，就提供早期的检测和诊断。很多情况下，病人用同样的诊疗方案但是疗效却不一样，部分原因是遗传变异。针对不同的患者采取不同的诊疗方案，或者根据患者的实际情况调整药物剂量，可以减少副作用。

个性化医疗目前还处在初期阶段。麦肯锡估计，在某些案例中，通过减少处方药量可以减少30%~70%的医疗成本。比如，早期发现和治疗可以显著降低肺癌给卫生系统造成的负担，因为早期的手术费用是后期治疗费用的一半。

5. 疾病模式的分析

通过分析疾病的模式和趋势，可以帮助医疗产品企业制定战略性的研发投资决策，帮助其优化研发重点，优化配备资源。如图10-8 所示。

图10-8大数据时代的数字医院

10.6.4新的商业模式

大数据分析可以给医疗服务行业带来新的商业模式。

1.汇总患者的临床记录和医疗保险数据集

汇总患者的临床记录和医疗保险数据集，并进行高级分析，将提高医疗支付方、医疗服务提供方和医药企业的决策能力。比如，对医药企业来说，他们不仅可以生产出具有更佳疗效的药品，而且能保证药品适销对路。临床记录和医疗保险数据集的市场刚刚开始发展，扩张的速度将取决于医疗保健行业完成EMR和循证医学发展的速度。

2.网络平台和社区

另一个潜在的大数据启动的商业模型是网络平台和大数据，这些平台已经产生了大量有价值的数据。比如PatientsLikeMe.com网站，病人可以这个网站上分享治疗经验;Sermo.com网站，医生可以在这个网站上分享医疗见解;Participatorymedicine.org网站，这家非营利性组织运营的网站鼓励病人积极进行治疗。这些平台可以成为宝贵的数据来源。例如，Sermo.com向医药公司收费，允许他们访问会员信息和网上互动信息。

10.6.5公众健康

大数据的使用可以改善公众健康监控。公共卫生部门可以通过覆盖全国的患者电子病历数据库，快速检测传染病，进行全面的疫情监测，并通过集成疾病监测和响应程序，快速进行响应。这将带来很多好处，包括医疗索赔支出减少、传染病感染率降低，卫生部门可以更快地检测出新的传染病和疫情。通过提供准确和及时的公众健康咨询，将会大幅提高公众健康风险意识，同时也将降低传染病感染风险。所有的这些都将帮助人们创造更好的生活

10.7大数据的发展趋势

大数据正在以不可阻拦的磅礴气势，与当代同样具有革命意义的最新科技进步(如纳米技术、生物工程、全球化等)一起，揭开人类新世纪的序幕。

对于地球上每一个普通居民而言，大数据有什么应用价值呢?只要看看周围正在变化的一切，你就可以知道，大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业，与每个人产生密切的联系。

大数据技术离你我都并不遥远，它已悄然来到我们身边，并渗透到我们每个人的日常生活消费之中，时时刻刻，事事处处，我们无法逃遁，因为它无微不至：它提供了光怪陆离的全媒体，难以琢磨的云计算，无法抵御的虚拟仿真的环境。通过大数据技术，人们能够在医院之外得悉自己的健康情况；而通过收集普通家庭的能耗数据，大数据技术给出人们切实可用的节能提醒；通过对城市交通的数据收集处理，大数据技术能够实现城市交通的优化。如图10-9 所示。

图10-9 中国大数据市场应用于展望

小结

2013年，大数据应用带来了令人瞩目的成绩。作为新的重要资源，世界各国都在加快大数据的战略布局，制定战略规划。美国奥巴马政府发起了《大数据研究和发展倡议》，斥资2亿美元用于大数据研究；英国政府预计在大数据和节能计算研究上投资1.89亿英镑；法国政府宣布投入1150万欧元，用于7个大数据市场研发项目；日本在新一轮IT振兴计划中，将发展大数据作为国家战略层面提出，重点关注大数据应用技术，如社会化媒体、新医疗、交通拥堵治理等公共领域的应用。中国的“基础研究大数据服务平台应用示范项目”正在启动，有关部门正在积极研究相关发展目标、发展原则、关键技术等方面的顶层设计。

目前我国大数据产业还处于发展初期，市场规模仍然比较小，2012年仅为4.5亿元，而且主导厂商仍以外企居多。2016年我国大数据应用的整体市场规模将突破百亿元量级，未来将形成全球最大的大数据产业带。然而，相对于发展前景的乐观预测，我国发展大数据产业面临的现实挑战更值得认真分析和对待。

总而言之，大数据技术的发展有可能解开宇宙起源的奥秘。因为，计算机技术将一切信息无论是有与无、正与负，都归结为0与1，原来一切存在都在于数的排列组合，在于大数据。

猜你喜欢