大数据标准化白皮书2018简版中国电子技术标准化研究院编(公号回复“数据标准2018”下载典藏版PDF报告)
数据简化DataSimp 今天
数据简化DataSimp导读:《大数据标准化白皮书2018版》八部分:1前言,2相关政策法规,3大数据发展现状和趋势分析,4大数据参考架构,5大数据标准化现状,6大数据标准体系,7我国大数据标准化工作建议,8附件:成功案例;本文简化为3万字内;欢迎文末“阅读原文”下载PDF原文129页(正文124页)。附数据简化DataSimp社区简介。
大数据标准化白皮书2018简版中国电子技术标准化研究院编(88410字)目录
1前言(1533字)
2相关政策法规(14583字)
3大数据发展现状和趋势分析(20038字)
4大数据参考架构(9376字)
5大数据标准化现状(7365字)
6大数据标准体系(7123字)
7我国大数据标准化工作建议(1421字)
8附件:成功案例(26094字)
参考文献(261字)Appx(845字).数据简化DataSimp社区简介
大数据标准化白皮书(2018版)
编写单位:中国电子技术标准化研究院、全国信息技术标准化技术委员会大数据标准工作组
二零一八年三月
《大数据标准化白皮书》(2018版)顾问指导组:梅宏、谢少锋、戴红、赵波、林宁、李冠宇、孙文龙、商超、刘大山、傅永宝、侯建仁;
全国信息技术标准化技术委员会大数据标准工作组
组长:梅宏
副组长:孙文龙、杜小勇、吴建明、闵万里
秘书长:吴东亚
联络员:刘大山、傅永宝、侯建仁
编写单位(排名不分先后):中国电子技术标准化研究院、勤智数码科技股份有限公司、神州数码系统集成服务有限公司、北京大学、华为技术有限公司、浪潮软件集团有限公司、美林数据技术股份有限公司、陕西省信息化工程研究院、北京东方国信科技股份有限公司、湖北省标准化与质量研究院、中电长城网际系统应用有限公司、交通运输部科学研究院、中国科学院信息工程研究所(信息安全国家重点实验室)、江苏省经济和信息化委员会、成都市标准化研究院、中兴通讯股份有限公司、北京市金杜律师事务所、成都四方伟业软件股份有限公司、重庆大数据研究院有限公司、江苏中堃数据技术有限公司、深圳市华傲数据技术有限公司、北京软件和信息服务交易所有限公司、星环信息科技(上海)有限公司、九次方大数据信息集团有限公司、湖北省楚天云有限公司、交通运输部科学研究院;
编写组(排名不分先后):代红、吴东亚、董建、张群、刘宇峰、李正、张慧敏、马珊珊、光亮、尹卓、黄先芝、于洋、马红霞、张勇、张永丽、谢秋琪、闵京华、郭亚茹、刘莎、马洪杰、李佳承、王东、卫凤林、叶润国、宁宣凤、周刚、刘斌、魏清、何运昌、于铁强、周洪明、胡荣、夏天、杨坤、赵茅、张巍、赵俊峰。
1前言(1533字)
1.1 研究背景
全球已步入大数据时代,互联网上的数据量每两年会翻一番。截止到2013年,全球数据量为4.3泽字节,2020年有望达到40泽字节。如果将数据视为一种生产资料,大数据将是下一个创新、竞争、生产力提高的前沿,是信息时代新的财富,价值堪比石油。大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。当前,世界各国政府和国际组织都认识到了大数据的重要作用,将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,世界工业发达国家纷纷制定相关政策,积极推动大数据相关技术的研发与落实。
我国正处于数字经济发展的转型时期,信息的公开、共享与服务成为时代发展的主题。信息逐渐成为与物质和能源同等重要的资源,以开发和利用信息资源为目的的经济活动迅速扩大,逐渐占据或超越工业活动在国民经济活动中的地位。大数据的出现是跨学科技术与应用发展的结果。对于大数据,自然科学家强调在网络虚拟环境下对于密集型数据的研究方法,社会科学家则看重密集型数据后面隐藏的价值与推动社会发展的模式。目前大数据在支撑履行政府职能、保障公共安全、实施社会治理、支持重大决策和改进公共服务等方面发挥出越来越重要的作用。
党中央、国务院高度重视大数据发展,将大数据上升为我国国家战略之一。党的十九大明确提出“推动互联网、大数据、人工智能和实体经济深度融合”。国务院《促进大数据发展行动纲要》(国发[2015]50号)明确指出要“建立标准规范体系”。工信部2017年初发布的《大数据产业发展规划(2016-2020年)》(工信部规[2016]412)中部署了“推进大数据标准体系建设,加强大数据标准化顶层设计,逐步完善标准体系,发挥标准化对产业发展的重要支撑作用”的重点任务。2017年5月14日,习近平在“一带一路”国际合作高峰论坛上发表讲话“要坚持创新驱动发展,加强在数字经济、人工智能、纳米技术、量子计算机等前沿领域合作,推动大数据、云计算、智慧城市建设,连接成21世纪的数字丝绸之路。”2017年12月8日习近平在中共中央政治局第二次集体学习时强调“实施国家大数据战略加快建设数字中国”。
2016年,在工信部信软司和国标委工业二部的指导下,中国电子技术标准化研究院组织国内相关产、学、研单位的专家针对大数据应用、产业、技术与标准化需求进行了问卷调研。通过对调研数据的分析,初步形成了对于大数据应用、技术、产业发展以及标准化需求的分析成果。作为业界共同研究的基础,由30家单位共同编制形成并发布了《大数据标准化白皮书》2016版,得到了业界广泛关注。2018版白皮书在2016版的基础上更新了大数据政策,分析了大数据发展的最新趋势和重点领域的应用实践,完善了大数据标准体系,给出了最新的大数据标准化工作建议,大数据标准相关成果的推进在本版本中也有所体现。
1.2 研究目标及意义
本白皮书介绍了国内、国外主要国家在大数据领域的发展战略、发展现状和趋势,描述了大数据的核心产业链以及大数据重点领域的应用实践,力图从应用、技术、产业、标准等角度,勾画出大数据发展的整体轮廓;从数据生存周期的角度提出大数据参考架构;同时抛开其他影响因素,从数据自身的角度提出在不断创新应用与服务模式下的大数据标准体系及大数据标准化路线;最后提出了我国大数据标准化工作建议。
本白皮书立足于大数据产业发展的社会转型历史时期所具有的政策、经济与文化等特点,分析处于初期发展阶段的大数据产业对于经济、社会的作用和影响,旨在与业界分享我们在大数据领域的研究成果和实践经验,呼吁社会各界共同关注大数据的政策研究、技术投入、标准建设与服务应用,共同推动大数据的发展,提升社会整体决策与服务管理能力。
2相关政策法规(14583字)
2.1 国外政策
2.1.1美国大数据政策
2009年5月,美国政府推出Data.gov,这是为了增加政府资料透明度而设立的一系列网站。宣布实施“开放政府计划”(Open GovernmentInitiative),这项计划提出利用整体、开放的网络平台,公开政府信息、工作程序和决策过程,以鼓励公众交流和评估,增进政府信息的可及性,强化政府责任,提高政府效率,增进与企业及各级政府间的合作,推动政府管理向开放、协同、合作迈进。联邦政府同时开通了旗舰级项目——“一站式”政府数据下载网站Data.gov,只要不涉及隐私和国家安全的相关数据,均需全部在该网站公开发布。Data.gov的上线意味着美国政府数据仓库的正式建立,标志着美国政府信息进一步公开与透明。
2012年3月,美国白宫科技政策办公室发布《大数据研究和发展计划》,成立“大数据高级指导小组”,旨在大力提升美国从海量复杂的数据集合中获取知识和洞见的能力。具体实现三个目标:(1)开发能对大量数据进行收集、存储、维护、管理、分析和共享的最先进的核心技术;(2)利用这些技术加快科学和工程学领域探索发现的步伐,加强国家安全,转变现有的教学方式;(3)扩大从事大数据技术开发和应用的人员数量。
2013年11月,美国信息技术与创新基金会发布《支持数据驱动型创新的技术与政策》。建议世界各国的政策制定者应采取措施,鼓励公共部门和私营部门开展数据驱动型创新。指出“数据驱动型创新”作为崭新命题,所面临的包括新概念、新技术的挑战;并就政府如何支持数据型驱动的创新提出了建议:一是政府应大力培养所需的有技能的劳动力;二是政府要推动数据相关技术的研发。
2014年5月,美国总统行政办公室发布《大数据:把握机遇,保存价值》。对美国大数据应用与管理的现状、政策框架和改进建议进行了集中阐述;并就保护个人隐私的价值、数字时代负责任的教育创新、大数据与歧视、执法与安全保护、数据公共资源化提出建议。
2016年5月,美国总统科技顾问委员会发布了NITRD编写的《联邦大数据研究和开发战略计划》,该计划在已有基础上提出美国下一步的大数据七大发展战略,代表大数据研究和开发(R&D)的关键领域。包括在科学,医学和安全的各个方面促进人们的理解;确保国家在研发上的持续领导;提高国家应对社会压力的能力以及通过研究和开发面向国家和世界的环境问题。
2.1.2欧盟大数据政策
2014年欧盟委员会发布了《数据驱动经济战略》,聚焦深入研究基于大数据价值链的创新机制,提出大力推动“数据价值链战略计划”,通过一个以数据为核心的连贯性欧盟生态体系,让数据价值链的不同阶段产生价值。数据价值链的概念为数据的生命周期,从数据产生、验证以及进一步加工后,以新的创新产品和服务形式出现的利用与再利用。
2015年欧盟大数据价值联盟正式发布了《欧盟大数据价值战略研究和创新议程》(以下简称为《议程》),设定了欧盟国家和区域层面的发展目标,以实现未来欧洲在世界创造大数据价值中的领先地位。《议程》建议建立欧盟大数据契约的合同制公私伙伴(cPPP),以在欧盟2020地平线(Horizon2020)、各国和地区计划中推行议程,增强泛欧的研究与创新工作,形成清晰的研究、技术发展和投资战略。议程从七个方面指出了在欧盟建立良好的大数据生态系统所需要解决的主要挑战。议程对大数据发展目标的预期影响进行了研究,设定了关键绩效指标,以评估预期影响。
2017年欧盟委员会发布《打造欧洲数据经济》报告,对数据驱动型经济的潜力、面临的障碍、解决方案等进行了分析总结。报告指出,大数据是经济增长、就业和社会进步的重要资源,2015年欧盟数据经济的价值是2720亿欧元,接近于欧盟地区生产总值的1.9%。如果有适当的政策和法律解决方案,数据经济的价值将会在2020年翻一番。
2.1.3英国大数据政策
2012年5月,世界上首个开放式数据研究所ODI(The Open Data Institute)在英国政府的支持下建立,首批注资十万英镑。这是英国政府研究和利用开放式数据方面的一次里程碑式发展。未来,英国政府将通过这个组织来利用和挖掘公开数据的商业潜力,并为英国公共部门、学术机构等方面的创新发展提供“孵化环境”,同时为国家可持续发展政策提供进一步的帮助。
2013年1月,英国商业、创新和技能部宣布,将注资6亿英镑发展8类高新技术,大数据独揽其中的1.89亿英镑,将近三成。英国政府预计大数据将成为英国经济的主要驱动力,而四个大数据研究中心将确保英国在国际竞争中保持较强竞争力。到2017年,大数据分析将为英国创造5.8万个工作岗位,并带来2160亿英镑的经济收入。
2013年10月,由英国商务、创新和技能部牵头编制的《英国数据能力发展战略规划》发布。该战略旨在使英国成为大数据分析的世界领跑者,并使公民和消费者、企业界和学术界、公共部门和私营部门均从中获益。该战略在定义数据能力以及如何提高数据能力方面,进行了系统性地研究分析,并提出了举措建议。
2017年8月,由英国运输部与英国国家基础设施保护中心(CPNI)共同制定新的网络安全准则《车联网和自动驾驶汽车网络安全准则》出台。该准则隶属于英国政府道路安全与网络安全相关政策的一部分。
2.1.4法国大数据政策
2011年7月,法国工业部长埃里克贝松宣布,启动“Open Data Proxima Mobile”项目,希望通过该项目实现公共数据在移动终端上的使用,从而最大限度的挖掘它们的应用价值。项目内容涉及交通、文化、旅游和环境等领域。
2011年12月,法国政府推出的公开信息线上共享平台data.gouv.fr,上线当天发布的第一批资源中就包含352000组数据,且网站的数据由每个政府部门的专员统计和收集、持续更新。
2013年2月,法国政府发布《数字化路线图》,明确了大数据是未来要大力支持战略性高新技术。政府将以新兴企业、软件制造商、工程师、信息系统设计师等为目标,开展一系列的投资计划,旨在通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。
2013年4月,经济、财政和工业部宣布将投入1150万欧元用于支持7个未来投资项目,法国政府投资这些项目的目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展”。
2013年7月,法国中小企业、创新和数字经济部发布了《法国政府大数据五项支持计划》,包括引进数据科学家教育项目;设立一个技术中心给予新兴企业各类数据库和网络文档存取权;通过为大数据设立原始扶持资金,促进创新;在交通、医疗卫生等纵向行业领域设立大数据旗舰项目;为大数据应用建立良好的生态环境,如在法国和欧盟层面建立用于交流的各类社会网络等。
2.1.5日本大数据政策
2012年6月,日本IT战略本部发布电子政务开放数据战略草案,迈出了政府数据公开的关键性一步。政府将利用信息公开方式标准化技术实现统计信息、测量信息、灾害信息等公共信息,并尽快在网络上实现行政信息全部公开并可被重复使用。
2012年7月,日本推出了《面向2020年的ICT综合战略》,提出“活跃在ICT领域的日本”的目标,重点关注大数据应用。战略聚焦大数据应用所需的社会化媒体等智能技术开发,传统产业IT创新、以及在新医疗技术开发、缓解交通拥堵等公共领域的应用。
2013年6月,日本公布新战略:“创建最尖端IT国家宣言”。宣言阐述了2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。
2015年6月,日本政府经内阁会议决定了2014年度版《制造业白皮书》。白皮书中指出,日本制造业在积极发挥IT作用方面落后于欧美,建议转型为利用大数据的“下一代”制造业。
2017年10月,日本公正交易委员会竞争政策研究中心发布《数据与竞争政策研究报告书》。在这部报告书中,日本明确了运用竞争法对“数据垄断”行为进行规制的主要原则和判断标准。
2.1.6印度大数据政策
2012年,印度批准了国家数据共享和开放政策,目的是在于促进政府拥有的数据和信息得到共享及使用。印度制定了一个一站式政府数据门户网站data.gov.in,把政府收集的所有非涉密数据集中起来,包括全国的人口、经济和社会信息,截至目前,已包括107个部门的4237个数据目录,3535个API和135191项数据资源。同时,印度政府还拟定一个非共享数据清单,保护国家安全、隐私、机密、商业秘密和知识产权等数据的安全。
2013年1月,印度政府公布新的科技创新政策。新政策既着眼于形成新的创新视角,又提出了到2020年跻身全球五大科技强国的目标。新政策强调印度将加强科学、技术与创新之间的协同,使之全方位融入社会经济进程。印度政府还将2010-2020年作为“创新十年”,并组建了国家创新委员会,预计在2017年,该国研发投入占GDP的比例将提高到2%。
2.1.7澳大利亚大数据政策
2012年10月,澳大利亚政府发布《澳大利亚公共服务信息与通信技术战略2012-2015》,强调应增强政府机构的数据分析能力从而促进更好的服务传递和更科学的政策制定,并将制定一份大数据战略确定为战略执行计划之一。截至2016年底,其政府数据开放网站data.gov.au已包括275个组织的23293个数据集和5625个应用程序。
2013年8月,澳大利亚政府信息管理办公室(AGIMO)大数据工作组发布了《公共服务大数据战略》,以六条“大数据原则”为指导,旨在推动公共部门利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私,使澳大利亚在该领域跻身全球领先水平。
2016年5月,澳大利亚信息专员办公室(OAIC)发布了《大数据指南和澳大利亚隐私原则》的草案,指南草案概述了关键的隐私要求,并鼓励实施隐私管理框架,采用这种方法将在设计初始阶段就考虑将'设计的隐私'嵌入在实体文化,系统和交互中。
2.2 国内政策
2.2.1国家和行业政策
近年来,我国也相继出台了一系列相关政策推动大数据的技术、产业及其标准化的发展。(党中央、国务院相关政策见表1)
表1 国家大数据政策
排序 |
政策名称 |
发布日期 |
发文单位 |
1 |
关于运用大数据加强对市场主体服务和监管的若干意见 |
2015年7月 |
国务院办公厅 |
2 |
关于印发促进大数据发展行动纲要 |
2015年8月 |
国务院 |
3 |
政务信息系统整合共享实施方案 |
2017年5月 |
国务院办公厅 |
2015年7月,国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》(国办发〔2015〕51号),肯定了大数据在市场监管服务中的重大作用,并在重点任务分工安排中提出“建立大数据标准体系,研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等;加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准;引导建立企业间信息共享交换的标准规范。”
2015年8月,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),系统部署了我国大数据发展工作,并在政策机制部分中着重强调“建立标准规范体系。推进大数据产业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等关键共性标准的制定和实施,加快建立大数据市场交易标准体系;开展标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用;积极参与相关国际标准制定工作。”
2017年5月,国务院办公厅发布《政务信息系统整合共享实施方案》(国办发〔2017〕39号),根据《国务院关于印发政务信息资源共享管理暂行办法的通知》(国发〔2016〕51号)、《国务院关于印发“十三五”国家信息化规划的通知》(国发〔2016〕73号)等有关要求制定,明确了加快推进政务信息系统整合共享的“十件大事”。
党的十九大报告中重点提到了互联网、大数据和人工智能在现代化经济体系中的作用:“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能”。
围绕国家政策,我国各部委和相关行业也出台了一系列政策来促进推动大数据在各领域中的应用与方面相关发展。(相关政策见表2)
表2 部分行业领域大数据政策
排序 |
政策名称 |
发布日期 |
发文单位 |
1 |
《关于组织实施促进大数据发展重大工程的通知》 |
2016年1月7日 |
发改委 |
2 |
《生态环境大数据建设总体方案》 |
2016年3月7日 |
环保部 |
3 |
《关于印发促进国土资源大数据应用发展实施意见》 |
2016年7月4日 |
国土资源部 |
4 |
《关于加快中国林业大数据发展的指导意见》 |
2016年7月13日 |
国家林业局 |
5 |
《关于推进交通运输行业数据资源开放共享的实施意见》 |
2016年8月25日 |
交通运输部 |
6 |
《农业农村大数据试点方案》 |
2016年10月14日 |
农业部 |
7 |
大数据产业发展规划(2016-2020年) |
2017年1月17日 |
工信部 |
8 |
中国大数据发展报告(2017) |
2017年2月26日 |
国家信息中心 |
9 |
《关于推进水利大数据发展的指导意见》 |
2017年5月2日 |
水利部 |
10 |
大数据驱动的管理与决策研究重大研究计划2017年度项目指南 |
2017年7月25日 |
国家自然科学基金委员会 |
11 |
智慧城市时空大数据与云平台建设技术大纲(2017版) |
2017年9月6日 |
国家测绘地理信息局办公室 |
12 |
关于深入开展“大数据+网上督察”工作的意见 |
2017年9月8日 |
公安部 |
2017年1月,工业和信息化部发布《大数据产业发展规划(2016-2020年)》(工信部规[2016]412号)。作为未来五年大数据产业发展的行动纲领,《大数据产业发展规划(2016-2020年)》部署了7项重点任务,明确了8大重点工程,制定了5个方面保障措施,全面部署"十三五"时期大数据产业发展工作,为"十三五"时期我国大数据产业崛起,实现从数据大国向数据强国转变指明了方向。
2.2.2国家大数据综合试验区
国家大数据综合试验区的设立,旨在贯彻落实国务院《促进大数据发展行动纲要》,为大数据制度创新、公共数据开放共享、大数据创新应用、大数据产业聚集、大数据要素流通、数据中心整合利用、大数据国际交流合作等方面开展试验探索,推动我国大数据创新发展。
国家选择具有一定条件的地区开展试点工作,一方面可以以建设国家大数据综合试验区为抓手,探索大数据与传统产业、区域经济的融合发展,促进数据要素与其他生产要素的整合利用,提高产业组织效率,加速形成高质量、多层次的供给体系,重塑产业链供应链价值链,实现资源优化配置,全面释放数据红利,推动供给侧结构性改革。另一方面,可以把发展大数据的风险和试错成本控制在一定区域内,平稳有序的推进大数据发展进程。
综合试验区建设将发挥“三个作用”:一是示范带头作用;二是统筹布局作用;三是先行先试作用。在试验区内,开展面向应用的数据交易市场试点,鼓励产业链上下游间进行数据交换,探索数据资源的定价机制,规范数据资源交易行为,建立大数据投融资体系,激活数据资源潜在价值,促进形成新业态。
图1 试验区分布图
目前我国共设有8个国家大数据综合实验区,其中先导试验型综合实验区1个,跨区域类综合试验区2个,区域示范类综合试验区4个,大数据基础设施统筹发展类综合试验区1个。
2.2.2.1先导试验型综试区
国务院于2015年8月31日印发的《促进大数据发展行动纲要》(国发〔2015〕50号)中,明确提出了“开展区域试点,推进贵州等大数据综合试验区建设”,贵州成为其中唯一明确提到的省份。
贵州国家大数据综合试验区:积极开展大数据综合性、示范性、引领性发展的先行先试,开展了一系列先行探索,积累了先试经验,围绕数据资源管理与共享开放、数据中心整合、数据资源应用、数据要素流通、大数据产业集聚、大数据国际合作、大数据制度创新等七大主要任务开展系统性试验,打破数据资源壁垒,通过不断总结可借鉴、可复制、可推广的实践经验,最终形成试验区的辐射带动和示范引领效应。
2.2.2.2跨区域类综试区
跨区域类综合试验区定位是,围绕落实国家区域发展战略,更加注重数据要素流通,以数据流引领技术流、物质流、资金流、人才流,支撑跨区域公共服务、社会治理、和产业转移,促进区域一体化发展。目前我国已有的跨区域类综合试验区包括:
京津冀国家大数据综合试验区:2016年10月获批,将充分发挥京津冀在大数据基础设施建设、数据开放共享、产业集聚发展等方面的示范带动作用,打破数据资源壁垒,发掘数据资源价值,在数据开放、数据交易、行业应用等方面开展创新探索,将其打造为“一心一地两区”的区域协同发展的典范。
珠三角国家大数据综合试验区:2016年10月获批,将珠江三角洲地区打造成全国大数据综合应用引领区、大数据创业创新生态区、大数据产业发展集聚区,抢占数据产业发展高地,建成具有国际竞争力的国家大数据综合试验区,形成“一区两核三带”功能布局。
2.2.2.3区域示范类综试区
区域示范类综合试验区定位是,积极引领东部、中部、西部、东北等“四大板块”发展,更加注重数据资源统筹,加强大数据产业集聚,引领区域发展,发挥辐射带动作用,促进区域协同发展,实现经济提质增效。目前我国已建设的区域示范类综合试验区包括:
上海国家大数据综合试验区:2016年10月获批,将围绕自贸区建设和科创中心建设两个战略,在四个方面推动大数据发展,包括推动公共治理大数据的应用、推动大数据的科技创新和基础性治理的工作和研究、推动大数据与公共服务基层社会治理相结合、在大数据方面进一步加强与长三角地区和长江经济带城市的合作。
河南国家大数据综合试验区:2016年10月获批,以深化大数据应用为主线,重点在管理机制创新、数据汇聚共享、重点领域应用、产业集聚发展等四个方面进行试点,提升大数据在促进转型发展中的引领支撑作用,形成一套适应大数据创新发展的管理机制和发展模式,基本建成“两区两基地”为支撑的综合试验区。
重庆国家大数据综合试验区:2016年10月获批,定位为引领东部、中部、西部、东北等“四大板块”发展,注重数据资源统筹,加强大数据产业集聚,发挥辐射带动作用,促进区域协同发展。
沈阳国家大数据综合试验区:2016年10月获批,以工业大数据应用引领两化深度融合,推动大数据在产品全生命周期、产业链全流程各环节的应用,促进传统产业转型升级,形成“一体两翼”的发展格局。
2.2.2.4基础设施统筹发展类综试区
基础设施统筹发展类综合试验区定位是,在充分发挥区域能源、气候、地质等条件基础上,加大资源整合力度,强化绿色集约发展,加强与东、中部产业、人才、应用优势地区合作,实现跨越发展。
内蒙古国家大数据综合试验区:2016年10月获批,加大资源整合力度,强化绿色集约发展,向国内外提供数据存储服务,发挥数据中心的辐射作用,争取大数据农牧业、大数据政务、大数据精准扶贫等九大工程的顺利实施完成,力争建成“中国北方大数据中心、丝绸之路数据港、数据政府先行区、产额融合发展引导区、世界级大数据产业基地”。
2.2.3地方政策
在《促进大数据发展行动纲要》等国家政策的引领下,各地政府也高度重视大数据发展,多个省市出台专门的大数据相关政策文件(见表3),部分地方专门设置了大数据管理机构或部门(见表4)。
表3 部分省市出台的大数据产业发展政策文件
编号 |
地区 |
政策标题 |
发布日期 |
1 |
成都 |
《成都市大数据产业发展规划(2017—2025年)》 |
2017年10月10日 |
2 |
贵州 |
《贵州省发展农业大数据助推脱贫攻坚三年行动方案(2017—2019年)》 |
2017年9月8日 |
3 |
成都 |
《成都市促进大数据产业发展专项政策》 |
2017年9月6日 |
4 |
辽宁 |
辽宁省政务信息系统整合共享实施方案 |
2017年8月16日 |
5 |
贵州 |
贵州省政府办公厅下发关于促进和规范健康医疗大数据应用发展的实施意见 |
2017年7月18日 |
6 |
江西 |
《江西省大数据发展行动计划》 |
2017年7月5日 |
7 |
内蒙古 |
内蒙古自治区人民政府办公厅关于印发《内蒙古自治区“十三五”科技创新规划》的通知 |
2017年7月4日 |
8 |
内蒙古 |
内蒙古自治区人民政府办公厅关于印发2017年自治区大数据发展工作要点的通知 |
2017年6月29日 |
9 |
广东 |
云浮市《促进云计算大数据产业发展优惠办法(试行)》 |
2017年6月26日 |
10 |
贵州 |
贵阳市人民政府办公厅关于印发关于支持区块链发展和应用的若干政策措施(试行)的通知 |
2017年6月7日 |
11 |
河南 |
河南省推进国家大数据综合试验区建设实施方案和若干意见 |
2017年5月25日 |
12 |
贵州 |
大数据+产业深度融合2017年行动计划 |
2017年5月24日 |
13 |
青岛 |
《关于促进大数据发展的实施意见》 |
2017年5月23日 |
14 |
河南 |
河南省云计算和大数据“十三五”发展规划 |
2017年5月4日 |
15 |
广东 |
《东莞市大数据发展规划(2016-2020年)》 |
2017年4月18日 |
16 |
东莞 |
《东莞市大数据发展规划(2016-2020年)》 |
2017年4月18日 |
17 |
贵州 |
贵阳市政府数据共享开放条例 |
2017年4月12日 |
18 |
河南 |
河南省人民政府关于印发河南省推进国家大数据综合试验区建设实施方案的通知 |
2017年4月8日 |
19 |
广东 |
广东省人民政府办公厅关于印发珠江三角洲国家大数据综合试验区建设实施方案的通知 |
2017年4月6日 |
20 |
内蒙古 |
内蒙古自治区人民政府关于加快推进“互联网+政务服务”工作的实施意见 |
2017年3月28日 |
21 |
广东 |
清远市大数据发展“十三五”规划 |
2017年3月6日 |
22 |
厦门 |
《厦门市促进大数据发展工作实施方案》 |
2017年3月2日 |
23 |
河北 |
关于加快发展“大智移云”的指导意见 |
2017年3月2日 |
24 |
河南 |
河南省推动云计算和大数据发展加快培育新业态新模式行动指南(2017—2020年) |
2017年3月1日 |
25 |
湖北 |
《湖北省云计算大数据发展“十三五”规划》 |
2017年2月21日 |
26 |
贵州 |
贵阳市人民政府办公厅印发贵阳市大数据标准建设实施方案 |
2017年2月9日 |
27 |
广东 |
广东省人民政府办公厅关于促进和规范健康医疗大数据应用发展的实施意见 |
2017年2月8日 |
28 |
湖北 |
《湖北省人民政府办公厅关于促进和规范健康医疗大数据应用发展的实施意见》 |
2017年2月7日 |
29 |
合肥 |
《合肥市大数据发展行动纲要(2016—2020)》 |
2017年2月7日 |
30 |
安徽 |
《安徽省“十三五”软件和大数据产业发展规划》 |
2017年1月17日 |
31 |
广州 |
《关于促进大数据发展的实施意见》 |
2017年1月11日 |
32 |
广东 |
广州市人民政府办公厅关于促进大数据发展的实施意见 |
2017年1月7日 |
33 |
上海 |
市经济信息化委关于印发《上海市关于促进云计算创新发展培育信息产业新业态的实施意见》的通知 |
2017年1月4日 |
34 |
苏州 |
《苏州市大数据产业发展规划》 |
2016年12月27日 |
35 |
广西 |
《促进大数据发展的行动方案》 |
2016年11月11日 |
36 |
山东 |
《关于促进大数据发展的意见》 |
2016年10月27日 |
37 |
深圳 |
《深圳市促进大数据发展行动计划(2016—2018年)》 |
2016年10月25日 |
38 |
宁波 |
《关于推进大数据发展的实施意见》 |
2016年9月26日 |
39 |
湖北 |
《湖北省人民政府关于加快推进楚天云建设的意见》 |
2016年9月22日 |
40 |
上海 |
《上海市大数据发展实施意见》 |
2016年9月15日 |
41 |
江苏 |
《江苏省大数据发展行动计划》 |
2016年8月19日 |
42 |
北京 |
《北京市大数据和云计算发展行动计划(2016-2020年)》 |
2016年8月18日 |
43 |
淮南 |
《淮南市大数据产业发展三年行动计划(2016—2018年)》 |
2016年8月16日 |
44 |
哈尔滨 |
《哈尔滨市促进大数据发展若干政策(试行)》 |
2016年8月15日 |
45 |
重庆 |
《关于进一步促进大数据发展的实施意见(2016—2018年)》 |
2016年6月8日 |
46 |
陕西 |
《陕西省大数据与云计算产业发展五年行动计划》 |
2016年5月20日 |
47 |
广东 |
《广东省促进大数据发展行动计划(2016-2020年)》 |
2016年4月22日 |
48 |
浙江 |
《浙江省促进大数据发展实施计划》 |
2016年2月18日 |
49 |
沈阳 |
《沈阳市促进大数据发展三年行动计划(2016-2018年)》 |
2016年2月4日 |
50 |
武汉 |
《武汉市人民政府关于加快大数据推广应用促进大数据产业发展的意见》 |
2015年4月15日 |
51 |
武汉 |
《武汉市大数据产业发展行动计划(2014—2018年)》 |
2014年7月18日 |
52 |
重庆 |
《重庆市大数据产业发展规划》 |
2013年6月28日 |
各地方的大数据产业发展政策的制定出台呈密集态势,对大数据产业的经济与社会意义进行了充分说明,对促进产业发展提出了具体举措,基于地方产业基础与经济特点进行了高适性匹配。具有认知深刻、创新灵活、匹配度高、管理到位、强调实效的特点。
表4 部分地区的大数据管理机构
省份 |
机构 |
隶属机构 |
贵州 |
贵州省大数据局 |
贵州省政府 |
贵阳市大数据发展管理委员会 |
贵阳市政府 |
|
贵阳高新区大数据发展办公室 |
贵阳高新区管委会 |
|
广东 |
广东省大数据管理局 |
广东省经信委 |
广州市大数据管理局 |
广州市工信委 |
|
辽宁 |
沈阳市大数据管理局 |
沈阳市经信委 |
四川 |
成都市大数据和电子政务管理办公室 |
成都市政府办公厅 |
甘肃 |
兰州市大数据社会服务管理局 |
兰州市政府 |
兰州新区大数据管理局筹备办公室 |
兰州新区党工委、管委会 |
|
浙江 |
浙江省数据管理中心 |
浙江省政府 |
杭州市数据资源局 |
杭州市政府 |
|
陕西 |
陕西省政务数据服务局 |
陕西省政府 |
咸阳市大数据管理局 |
咸阳市政府 |
|
宁夏 |
银川市大数据管理服务局 |
银川市政府 |
湖北 |
黄石市大数据管理局 |
黄石市经信委 |
云南 |
昆明大数据管理局 |
昆明市工信委 |
保山市大数据管理局 |
保山市工信委 |
在国家治理、经济发展等诸多领域,大数据都在发挥着至关重要的作用,地方大数据管理机构的成立有利于统筹产业规划,是行政体制上的一次灵活创新。
2.3 安全隐私法律法规
大数据的良性发展自然离不开大数据产业政策的大力支持,而大数据与公民个人数据关系异常密切,无论是数据收集的来源、数据使用和处理的方式和范围,都与个人数据保护等相关法律制度直接相关。因此,涉及公民个人数据保护的安全隐私政策,对于大数据产业的发展也起着至关重要的作用,具有举足轻重的价值。
2.3.1国内外立法现状
从针对大数据环境下个人数据保护的法律制度来看,目前欧盟模式和美国模式是全球最有影响的两种模式。
欧盟一直是数据保护领域的立法先驱,从启动时间到法律文件数量、领先概念和自我更新,欧盟都为其他司法辖区的数据保护立法工作提供了蓝本和榜样,影响不仅局限于其各成员国,还扩展到了其他国家和地区如日本、韩国和我国香港地区等。欧盟模式是统一的立法模式,通过综合立法确定个人数据保护的各项基本原则,并设立专门的机构来监督法律实施。
早在1981年,欧盟理事会就通过了《有关个人信息自动化处理保护公约》;
1995年欧盟通过了《关于个人数据处理保护与自由流动指令》(1995/46/EC),很快就成为世界各国个人信息隐私保护,以及数据保护领域法律文件和国际协议制定中的范例,后被2016年5月通过的《一般数据保护条例》(“GDPR”)替代;
200年通过了《电子通信领域个人数据处理和隐私保护的指令》(“ePD指令”,2002/58/EC),并于2017年1月10日进行了最新的修订。针对性的隐私保护指令——ePD指令与一般性的综合数据指令——GDPR共同构成了欧盟数据保护法律框架的两大支柱,为欧盟公民的个人数据权利和隐私权保护提供坚实的保障基础,赋予数据主体包括访问权、纠错权、被遗忘权、限制处理权、反对权、拒绝权和自决权等权利,对数据控制者和处理者构建了相应的义务体系,并通过相关的监督机构设置、域外效力条款和高昂的罚则充分保障了数据保护法律制度的实施,具有极强的法律震慑力和适用性。
美国则是行业自律模式的倡导者,成文立法散见于联邦、各州的各行业规定之中,辅之以行业内部的行为规则、规范、标准和行业协会的监督,充分保证个人数据自由流动的基础上保护个人数据,实现行业内个人数据保护自律和行业利益保护的平衡。美国早期数据保护方面的立法主要是1974年通过的《隐私法》和1986年的《储存信息保护法》,《公平信用报告法》中也有信贷和消费者信用行业的特殊规定。2015年10月,美国通过了《网络安全信息共享法》,明确规定了个人隐私、自由等私权利的保护。此外,针对金融、医疗、电信、教育、娱乐、消费者保护和儿童隐私保护等高危行业,美国立法也遵循“公平信息实践法则”,采取“告知与同意”框架,按照行业领域进行细分。而针对大数据安全方面的复杂性,2015年美国国家标准与技术研究院(NIST)大数据工作组下属安全与隐私小组针对大数据安全与隐私发布了第一版框架性草案,从安全与隐私的维度对大数据的几个关键特征——多样性、规模性、真实性、高速性、有效性进行了阐述,提供了大数据领域安全与隐私保护的参照性蓝本。
相对于国外的安全隐私政策立法进程而言,我国对于个人数据保护的立法起步较晚,目前还没有专门的《个人信息保护法》。
表5 国内关于个人信息保护相关的主要规定
年份 |
法律法规 |
主要内容 |
2017年 |
2017年5月8日最高人民法院、最高人民检察院发布了《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(以下简称“《两高解释》”) |
进一步明确侵犯公民个人信息罪行的适用条件 |
2017年 |
2017年3月15日全国人民代表大会第五次会议通过《中华人民共和国民法总则》(以下简称“《民法总则》”) |
其中第一百一十一条规定,自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。 |
2016年 |
2016年11月7日全国人大常委会颁布《中华人民共和国网络安全法》(以下简称“《网络安全法》”)(自2017年6月1日起施行) |
首次从立法层面定义“个人信息”,对“个人信息”进行了不完全列举 |
2015年 |
2015年8月29日全国人大常委会颁布《中华人民共和国刑法修正案(九)》 |
将“违反规定,向他人出售或者提供公民个人信息”的行为定性为犯罪行为 |
2013年 |
2013年7月16日工业和信息化部发布《电信和互联网用户个人信息保护规定》 |
对电信业务经营者、互联网信息服务提供者收集和使用个人信息作出规定 |
2013年 |
2013年1月21日中华人民共和国国务院发布《征信业管理条例》 |
对征信业务相关的个人信息的收集、使用、存储、加工作出规定 |
2012年 |
2012年12月28日全国人民代表大会常务委员会发布《关于加强网络信息保护的决定》 |
将“能够识别公民个人身份和涉及公民个人隐私的电子信息”纳入保护范围 |
2007年 |
2007年6月22日公安部、国家保密局、国家密码管理局和国务院信息化工作办公室联合颁布《信息安全等级保护管理办法》 |
根据信息系统的重要程度和破坏后果实施等级保护制度 |
除了以上已正式发布的相关规定,2017年5月2日,国家互联网信息办公室还正式发布了《网络产品和服务安全审查办法(试行)》。该办法明确了在审查网络产品和服务的安全性和可控性时,应当充分考虑“产品和服务提供者利用提供产品和服务的便利条件非法收集、存储、处理、利用用户相关信息的风险”这一重要因素。2017年4月11日,国家互联网信息办公室发布关于《个人信息和重要数据出境安全评估办法(征求意见稿)》,明确了网络运营者因业务需要,在向境外提供在中国境内运营中收集和产生的个人信息和重要数据前,需进行安全评估的详细内容和流程,为我国跨境数据保护制度打下了基础。
此外,国家质量监督检验检疫总局、国家标准化管理委员会也已发布或正在制定一系列与个人信息保护相关的国家推荐性标准,包括但不限于已发布的《信息安全技术个人信息安全规范》和尚未正式发布的《信息安全技术数据出境安全评估指南》。尽管国家推荐性标准不具有强制性效力,但在《网络安全法》配套措施尚未完善的情况下,其在一定程度上反映监管态度,为个人信息保护提供了具有操作性的指引。
具体而言,2018年1月2日正式发布的国家推荐性标准《信息安全技术个人信息安全规范》包含了个人信息及其相关术语基本定义,个人信息安全基本原则,个人信息收集、保存、使用以及处理等流转环节以及个人信息安全事件处置和组织管理要求等。2017年8月25日发布的《信息安全技术数据出境安全评估指南(征求意见稿)》对数据出境安全评估流程、评估要点、评估方法、重要数据识别指南等内容进行了具体规定。
在法律责任方面,侵犯个人信息可能需要承担民事、行政甚至刑事责任,从而为个人信息的保护提供了有力的法律制度保障。
1)民事责任:
《网安法》第七十四条第一款规定,“违反本法规定,给他人造成损害的,依法承担民事责任。”因此,未经同意收集、使用他人个人信息,数据主体可依据《民法总则》、《侵权责任法》和《消费者权益保护法》等相关法律规定主张赔偿,相关侵权者将承担民事侵权责任。
2)行政责任:
未经同意收集、使用他人个人信息,尚不足《两高解释》“情节严重”要求时,根据《网安法》第六十四条的规定,面临的处罚将包括警告、没收违法所得、罚款、暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证和吊销营业执照等;对直接责任人员的罚款数额可达十万元,对网络运营者的罚款数额更可高达一百万元。
3)刑事责任:
未经同意收集、使用他人个人信息,达到《两高解释》“情节严重”要求时,则构成刑法“侵犯公民个人信息罪”,应承担刑事责任,包括对直接负责的主管人员和其他直接责任人员定罪处罚,并对单位判处罚金。
2.3.2大数据立法趋势和对产业的影响
我国大数据立法虽然起步较晚,但随着《民法总则》、《网络安全法》的实施以及后续的配套法律法规建设完善,我国个人信息保护相关制度越发健全,取得了卓著成果,有效地改善了过去“守法成本高、违法成本低”的怪象。万众期待下出台的《网络安全法》不仅赋予了数据主体收集同意权、被遗忘权、纠错权等一系列权利,还首次构筑了网络运营者在收集、使用个人信息数据过程中相应的保障义务;在罚则方面侵犯个人信息更是有可能触发民事、行政甚至刑事责任的风险,从而为个人信息的保护提供了有力的法律制度执行保障。
不过,在制度越发健全和完善的同时,必须指出的是,我国个人信息保护的立法仍然寄居于网络安全和国家安全保护立法的大框架之下,并没有针对公民个人和隐私进行专门的立法保护,相较于欧盟的GDPR、ePD和美国的分行业自律来看,在数据保护领域我国立法仍有相当的可完善空间。
同时,值得一提的是,大数据产业的发展和个人信息及隐私保护存在某种程度上的分歧。不加限制的催熟大数据产业,可能导致企业在利益吸引下铤而走险,选择以侵害公民隐私等数据权益的方式或手段发展大数据业务。反过来说,一味强调公民的个人信息保护,则可能从数据源头、收集和利用等环节对企业开展大数据业务提出了过高的挑战,阻碍大数据产业的发展成熟。大数据产业的兴起和发展证明了大数据前所未有的巨大社会、经济价值,在未来的立法进程中,如何平衡大数据产业的发展和个人信息的合理保护将会成为立法宗旨上的一个重要考量角度。
此外,大数据时代的一个重要基石——数据权属尚未确定时,无论是从合理立法角度考虑还是从产业长期发展角度出发,大数据方面的安全隐私立法进程都应当谨慎稳健。唯有逐渐在目前的数据安全隐私保护框架上添砖加瓦,稳步推进,才能以清晰、可预测的法律制度指引企业行为,以明确、统一的处罚措施治理违法违规行为,引导企业自觉遵守相关的法律制度;进而以良好的法律制度促进产业的良性发展,增强守法合规企业的竞争力,创建“良币战胜劣币”的有序竞争环境。
总而言之,大数据系统安全体系的建立是一个系统性的工程,需要国家从法律法规、行业规范以及技术手段等多方面对个人隐私数据进行监管和保护,也需要社会公众、企业等各方主体切实遵守相关规定,承担相应责任,在自身权利义务范围内进行行为决策,方能使大数据行业安全、合法地行走阳光下。
3大数据发展现状和趋势分析(20038字)
大数据对经济社会发展的推动作用已经成为社会各界的共识,大数据促进用户对网络基础设施建设的创新和信息产品升级换代的需求,具有外溢效应;大数据连接生产者和消费者,帮助生产者拉动新的市场需求,具有市场效应;大数据通过连接不同领域的信息,增强了信息的“活力”,可以创造出新的社会经济价值,具有连接效应;大数据有效利用了社会资源,打破了行业垄断,使得消费者可以用同样的价钱获得更多的社会服务,具有福利效应。本章对大数据在我国产业和应用领域发展现状和未来趋势进行分析。
3.1 大数据核心产业链
在社会认知、政策环境、市场规模和产业支撑能力等多方面,我国的大数据产业已经具备了一定的基础,并取得了积极的进展,在大数据资源建设、大数据技术、大数据应用领域涌现出一批新型企业。在龙头企业引领下,上下游企业互动、核心产业融合发展的产业格局初布,与日趋成熟的产业生态相对应的商业模式也日渐明晰。
3.1.1大数据产业生态商业角色构成
3.1.1.1大数据提供者
拥有数据的公司、个人、社会团体以及政府机构等,此类角色属于大数据产业链上的基础环节,包括数据源提供者、数据流通平台提供者和数据API提供者。目前我国大数据提供者包括政府管理部门、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、提供数据流通平台服务和数据API服务的第三方数据服务企业、社会团体或者个人等。
3.1.1.2大数据产品提供者
提供直接应用于大数据产品的企业,包括提供大数据应用软件、大数据基础软件、大数据相关硬件产品的企业。
3.1.1.3大数据服务提供者
以大数据为核心资源,以大数据应用为主业开展商业经营的企业。包括大数据应用服务提供者、大数据分析服务提供者、大数据基础设施服务提供者。这类企业挖掘数据价值,处于大数据产业链的下游,它们通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟。从某种角度上说正是此类公司创造了大数据的真正价值。
图2 大数据生态商业角色图
3.1.2大数据产业生态商业模式分析
从商业模式角度,大数据产业拥有多元化的商业模式,并在此基础上扩展和衍生,具体包含数据买卖模式、信息服务模式、第三方数据服务模式、融合服务模式和软硬件销售模式。
3.1.2.1数据买卖模式
数据买卖模式,是指企业直接通过买卖数据取得收入。此类模式的主体是大数据经营商,对大数据的交易是其业务核心,对大数据的重复利用是其发展的原动力。这种公司同时具有很强大的大数据技术能力,多数时候大数据技术本身主要用于自身的运作,例如通过经营大数据交易平台和大数据API开发牟利的互联网企业。
3.1.2.2信息服务模式
信息服务模式,是指企业将通过隐含在信息服务中的大数据取得利润,这类企业往往具备多种技能,甚至同时具有大数据提供者+技术提供者+服务提供者的能力。这些企业既包括传统的信息技术服务和软件服务企业,也包括咨询、审计、财务、金融等非传统意义上的IT企业,信息服务模式是大数据核心产业和衍生产业的相互融合表现最突出的一种模式。
3.1.2.3第三方数据服务模式
第三方数据服务模式,是指企业既不是数据的提供者,也不是数据服务的应用者,而是专注通过提供第三方数据服务取得收入。其主体为数据中间商,本身不具有创造数据的能力,从各种地方搜集数据进行整合,通过搭建或提供数据交易平台,从数据中提取的有用信息进行利用或者交易,从而获取利润。
3.1.2.4融合服务模式
融合服务模式,是指企业将数据隐含在传统产品及服务中取得收入,这其中既包括提供信息服务的咨询、审计、财务等企业,也包括利用大数据在产业链上下游提供金融、物流等服务而获取利润的制造业企业。融合服务模式是大数据发展的重要方向。
3.1.2.5软硬件销售模式
软硬件销售模式,是指各类大数据产业链企业通过对服务和产品直接销售的方式盈利,对于大数据硬件提供方和大数据基础设施服务提供方来说,软硬件销售模式是他们主要的盈利方式。
3.2 重点领域应用
党的十九大报告指出,以更大力度推动大数据和实体经济深度融合,大数据的驱动力和引领作用正在给国民经济的各个领域带来革命性变化,在国家政策引导和支持下,各级政府、企事业单位、民间组织与个人顺应互联网、大数据、人工智能和实体经济深度融合发展的技术和应用趋势,积极探索各领域大数据应用实践。在推进标准先行的基础上,大数据标准化活动在各领域发展中应用范围逐步扩大,应用程度逐渐加深,应用效果不断显现。
3.2.1社会管理与公共服务
大数据应用能够揭示传统技术方式难以展现的关联关系,近年来“用数据说话、用数据决策、用数据管理、用数据创新”的共识逐步达成。在推进“互联网+政务服务”工作过程中,各级政府正加快推进政务大数据的应用,提高社会治理的精准性和有效性,提升政府宏观调控、风险防范能力、政府数据资产的管理能力和城市科学化管理水平,在建设与社会主义市场经济体制和中国特色社会主义事业发展相适应的法治政府、创新政府、廉洁政府和服务型政府的过程中发挥重要作用。
3.2.1.1政府数据资产治理能力的提升
3.2.1.1.1促进政府数据资产的全面管理
随着信息技术的高速发展,逐步实现数据与产业、经济、社会、文化的深度融合,大数据已经作为一种新兴的战略性资源登上了历史舞台。一个城市拥有数据的规模、开发运用能力将成为城市综合竞争力的重要组成部分。因此,对于数据资产的全面掌握与监管成为了一项非常重要的工程。
要实现数据资产的全面掌握与监管就必须先对辖区的信息资源进行梳理,“摸清家底”,做到“心中有数”。信息资源用元数据描述其主要特征,多以信息资源目录的方式呈现,通过信息资源目录的编辑,让数据拥有者直观清晰地掌握所拥有的信息资源;数据使用者也可以通过目录发现自己所需要的数据现状,并发出需求申请。大数据建设,信息资源目录是资产管理的关键数据,是管理核心,是数据使用者和拥有者之间沟通的主要桥梁。
3.2.1.1.2推进政务数据共享开放体系的建设
政府数据资产的全面管理可以有效推进政务数据共享开放体系的建设速度。国家发展改革委印发的《“十三五”国家政务信息化工程建设规划》(以下简称《规划》)中明确提出了构建形成大平台共享、大数据慧治、大系统共治的顶层设计,建成全国一体化的国家大数据中心,有利促进网络强国建设的一体化设想,这是我国政务信息化发展的必然要求。《规划》突出了基于政务信息资源目录、共享开放和服务平台,有效推进政务数据共享开放和服务的客观需求。
按照“谁主管,谁提供,谁负责”、“谁经手,谁使用,谁管理,谁负责”的原则,明确政务数据共享开放和服务的主管机制、提供机制、使用机制和管理机制等;按照制定政务数据共享开放和服务的目录清单、推动政务数据共享开放和开展政务数据大普查的要求,明确政务数据共享开放和服务的牵头部门、提供部门和使用部门的职责,形成国家统筹、部际协调、部门统一的工作局面;按照政务数据共享开放的财政、审计、纪检监督等部门的考核机制,对于政务数据共享开放和服务好的部门予以奖励,对于工作拖沓、作风疲软甚至拒不执行共享开放和服务的部门予以问责。
按照政务数据“共享是原则、不共享是例外”、“开放是常态、不开放是例外”的原则,积极组织建设政务数据的共享开放和服务目录;按照建立疑义、错误信息快速校核机制,明确使用部门和社会公众对获取的共享开放服务信息有疑义或发现有明显错误的及时反馈、提供部门的数据校核和数据提供;按照建立跨部门、跨地区协同治理大系统的要求,明确各系统、各项目的建设必须满足数据共享、开放和服务的需要,实现政务数据共享开放与社会大数据融合应用的需要。
按照“覆盖全国、统筹利用、统一接入”的要求,明确政务国家数据共享交换工程、国家公共数据开放网站和服务平台主管部门的工作职责,落实政务数据共享、开放和服务的部门职责;按照数据存储、数据共享、数据开放和数据服务的要求,明确各平台主管部门与信息提供部门的数据提供程度,保障以数据为支撑的治理能力,提升宏观调控、市场监管、社会管理和公共服务的精准性和有效性。
按照“坚守底线、确保安全”的要求,明确政务数据共享开放的信息安全等级保护;按照守住政务信息化工程全过程信息安全和监督机制的要求,明确安全责任边界,落实网络安全工作责任,形成跨部门、跨地区的条块融合的安全保障工作联动机制;按照加强关键软硬件产品自主研制与安全审查的要求,明确云计算服务、数据中心托管、大数据分析与存储等方面的企业准入等自主保障能力。
3.2.1.2政府社会管理能级的提高
3.2.1.2.1强化社会公共安全保障
作为社会公共安全保障的核心职能单位,依托公安部门“金盾工程”的建设成果,形成了面向部门、警种的各类型业务系统,以及面向多部门协作和底层信息支撑的综合业务系统,建成了可以全国范围内共享的八大业务信息资源库。进而在公安业务系统内部积累了庞大的数据资源。在大数据时代,走科技强警、信息化强警的大数据之路是解决警力不足等实际问题的重要途径。
为积极应对大数据、云计算时代对下一代公安信息化建设的挑战,公安部多措并举,积极推进公安行业大数据应用实践,并在建立了基于大数据架构的公安信息化应用公安部重点实验室和大数据警务云计算中心建设工程,推动了智能化全时空大数据预警、新一代超级智能化搜索引擎等大数据应用的建设,促进了大数据和云计算技术融合的新一代公安行业信息化平台建设。伴随着公安领域的大数据应用实践在提高反恐能力、预测犯罪趋势、推进案件侦破、破解交通难题等方面取得了比较丰硕的成果,各地积极探索践行大数据警务战略,自主研发了各类警情热点分布图等辅助指挥技术;积极探索利用大数据系统破解大城市的交通难题,确保重要会议或者活动的交通保障任务;各级公安部门也应抓住国家在全国设立国家级大数据综合试验区的契机,通过深入挖掘数据价值,加快警务机制内生性变革,积极推动“大数据+打击、防范、管理、服务、监督”五大主题应用,形成“大数据+”打防管控综合应用模式。总体来看,各级公安机关的大数据应用实践有效地提升了各警种的实战能力,大数据技术正在成为驱动和引领警务改革的关键要素。
3.2.1.2.2创新市场监管能力
2017年7月,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》。《意见》要求,以社会信用体系建设和政府信息公开、数据开放为抓手,充分运用大数据、云计算等现代信息技术,提高政府服务水平,加强事中事后监管,维护市场正常秩序,促进市场公平竞争,释放市场主体活力,进一步优化发展环境。
市场监管领域牵涉部门众多、系统异构、数据繁多,通过归集整合工商、质监、税务、法院、人民银行、水电气等多个部门和公共企事单位掌握的身份、业绩、提示、警示和企业年报、自主申报信用记录,形成市场主体(企业、个体工商户、中介机构和重点人群)大数据。在信用监管领域,利用市场监管主体登记信息、资质信息、信用行为信息等数据开展信用主体动态监控,并探索在政府采购、招标投标、日常监管等工作中使用信用相关信息,提升市场监管工作,实现城市精准管理。在联合惩戒方面,利用监管主体登记信息、司法信息、行政执法信息等数据开展跨部门协作互动,实现对失信市场主体的联合惩戒的精准互动。在社会共治方面,利用监管主体信息、资质信息、信用行为信息等数据,依托“部门+社区”、“部门+社会机构”等服务模式,引入社会力量参与市场监管,实现社会参与多元共治。
以市场监管数据资源为核心,利用“标准化+大数据技术”对提高市场主体的监管效率、规范市场秩序,构建新型监管模型和系统性风险防控机制具有巨大影响力。
3.2.1.2.3提升城市智能运营管理能力
越来越多的城市面临着环境污染、交通拥堵、房价虚高、管理粗放、应急迟缓等问题,这些“城市病”给市民工作和生活带来了许多不便,降低了人们的幸福感。但随着物联网、大数据和云计算技术的发展和成熟,为治疗“城市病”带来了机遇,从社交媒体到交通流量,从产业大数据到工业经济运行质态监测与分析,从人的移动性到外来人口管理,从工业排放到环境治理等,依托大数据分析,实现城市的人、地、产业、资源等的优化配置。科学开展城市规划、建设、运行、管理、治理、管控和服务等已经成为了构建城市智能运营管理体系的一种必然趋势。
大数据的发展促进了城市智能化管理体系的建设速度,通过构建一个城市智能运营中心(IOC),依托一套城市综合的数据融合体系、一套城市数据标准规范和统一的城市大数据支撑平台的建立,实现跨部门、异构数据的采集、管理、共享、分析、建模和展示,提供数据跨域共享、数据挖掘和城市运行体征的综合服务,提高城市“综合性”问题的解决能力。通过一个开放的体系架构、一套天地一体的城市服务网格和一个高效的城市运行中心的建立,实现“网格大巡查、数据大智慧、政府大服务、政府大治理、公众大参与”的新型城市服务应用生态,解决跨部门城市事件和城市业务协同“联动”的问题。
城市智能运营中心通过城市大数据的分析与建模,实现城市运行体征监测、城市空间布局与资源承载优化、工业经济运行质态监控与宏观分析、城市资产全生命周期管理、人口分析与民生服务、环境监测与应急处置等“综合性”功能,为城市管理者提供辅助决策和科学治理的依据。通过政务数据开放和数据服务,实现政务办理、社会事务、市场监管、社会综治等服务,打造“互联网+”政务、信息惠民等城市服务新业态。
3.2.1.3政府公共服务效能的提升
3.2.1.3.1提高政务服务和管理能级
随着国家大数据战略的推进和大数据应用的深化,政府为民服务的大数据时代已经来临。对政府公共服务而言,大数据之“大”,不仅仅在于其容量之大、类型之多,更为重要的意义在于用数据创造更大的公共价值,提升政府网上服务能力,形成政民融合、互动的“互联网+政务服务”新格局。2016年4月发布的《国务院办公厅关于转发国家发展改革委等部门推进“互联网+政务服务”开展信息惠民试点实施方案的通知》(国办发〔2016〕23号)针对困扰基层群众的“办证多、办事难”等问题,提出了以实现“一号一窗一网”为目标的“互联网+政务服务”新模式。而“一号一窗一网”的关键就在于利用大数据技术和方法创新政府网络服务模式,有效整合、开放共享和深化利用政务服务大数据,为公众提供个性化、精准化便捷服务。
3.2.1.3.2提高政府资金使用效率
由于我国的社会保障制度建立时间不长,制度本身又是采取分人群设计、分部门管理、分地区实施,同时各部门大多实行封闭监管模式,彼此之间管理信息不能有效共享,数据、凭证传递不及时,各方账目、数据常有出入,造成社会保障信息管理协调难度加大,信息共享不足导致资金使用效率不高。面对这些问题,大数据的深入应用在信息采集、信息资源利用、跨地域社会保障统一管理等方面有效地提高了资金使用效率:
1)大数据提高信息采集效率。通过大数据共享平台的建设,原本存在于不同部门的信息比对将成为可能,对数据的加密脱敏技术,将解决出于信息保密原因造成的信息共享困难,国家和各省市各级政务大数据中心将有序归集数据资源,解决由于信息系统建设权属和数据存储方式造成的共享难题,从根本上解决信息的有效采集。
2)大数据解决资源利用难题。利用多源异构数据处理技术,不同部门采集的数据不一致,数据源存储格式不一的政务信息资源可以得到共享。同时,来自各部门各专业系统的人群信息可以得到良好的比对和识别,以退休职工、在职职工、农村低保、优抚对象、特困救助对象等不同保障对象的数据信息可以分别储存、统合使用。数据的比对和分析,可以彻底解决因为信息分散而导致的冒领、错领、套取、虚报等问题,确实提高资金的使用效率。
3)大数据解决跨地域问题。目前我国社会保障资金政策业务区域性强,跨地域流动障碍大,容易导致保障资金重复享受,浪费大量财政补贴等问题。大数据的应用将有助于利用信息化手段消除农村劳动力进城和跨地区就业的限制,完善参保人员社会保障关系转移、衔接等政策措施,同时大数据将有助于建立唯一身份标识性公民身份画像,建立各个领域各地域社会保障性资金资助过程和结果分析体系,彻底解决跨地域重复参保或领取待遇的问题。
3.2.2农业
物联网、大数据等技术已经涉及到耕地、育种、播种、施肥、植保、收获、储运、农产品加工、销售、畜牧业生产等各环节,可以实现对作物种植、培育、成熟和销售等环节的管理,使得传统的粗放式农业生产模式迈向集约化、精准化、智能化、数据化。
农业大数据是指现代农业生产、经营、管理等各种活动中形成的,满足统一的数据技术、管理标准,具有潜在价值的、海量的、活的数据。目前农业大数据的应用主要集中在精准农业、农资流通、农产品价格与农产品流通、土地流转、农产品质量追溯、农业经营者征信等方面。精准农业是大数据在农业中应用最普遍的领域之一,通过对气候、土壤和空气质量、作物成熟度,甚至是设备和劳动力的成本及可用性方面的实时数据收集与预测分析,有助于做到精准种植、养殖,减少资源浪费和成本投入。农资流通大数据可判断某个品类农产品的生产规模,作为调整规模的依据。农产品价格与农产品流通大数据可帮助调节农产品生产规模、调整生产品类,同时通过B2B、B2C电子商务平台促使农产品供求信息对接,能拓展销售市场,提升农产品销量。土地流转大数据的应用价值在于盘活土地,提高土地流转透明度,实现土地经营权管理和追踪,有效降低土地监管和纠纷处理成本。农产品质量追溯大数据可监管农业生产全过程,通过对监管数据进行分析和综合利用,为农产品质量安全监管服务;同时可以消除消费者对农产品质量的疑虑,提高农产品的购买率。农业经营者征信大数据可作为发放贷款、设置农业保险的信用依据,以此推动金融和农业的融合。
3.2.3制造业
伴随着“智能制造2025”国家战略的实施,大数据应用已成为制造业生产力、竞争力、创新能力提升的关键,是驱动制造过程、产品、模式、管理及服务标准化、智能化的重要基础,体现在产品全生命周期中的各个阶段,工业大数据正在加速制造业的转型升级。
首先,基于统一标准化思路驱动的工业大数据产品研发设计,实现研发过程的智能化,提升了创新能力、研发效率和设计质量。通过产品全生命周期数据的采集,工业大数据建模和数字仿真技术优化设计模型,及早发现设计缺陷,减少试制实验次数,降低研发成本、提升设计效率,缩短了产品研发周期。其次,综合制造过程中设备、效率、成本、耗能等数据展开建模分析,实现了运行过程的状态监测与优化工艺参数推荐。通过生产工艺过程参数,设备运行状态参数与产品质量性能、生产线排产负荷、耗能等数据进行关联性深度挖掘,形成数据闭环,可得出工艺参数的最优区间、车间排产计划的最优方案、厂房能效优化的最佳调控手段等。
工业大数据技术的发展和相关标准化工作的推进,也带来了制造业产业链上下游企业间各协同环节的信息共享和同步升级,企业可根据自身优劣势分析对业务进行重新取舍,整合资源实现平台化运营,优化价值链。另外,基于大数据构建的产品故障预测系统,能帮助用户实时掌握产品状态,在产品出现异常前展开预测性维修。基于数据标准化思路的企业全流程的数据集成贯通与工业大数据建模分析,支撑了大规模定制为代表的典型智能制造模式。基于研发知识库的大数据产品模块化分析,以及协同创新平台所整合的内外部产业链协同设计能力,可实现产品的个性化设计;基于工业生产大数据的互联工厂柔性化生产能力,保障了个性化设计订单低成本高效率的制造;结合物流大数据分析优化的物流配送系统,可充分保障个性化定制产品在最短时间内按承诺交付至用户。
3.2.4电力及水务领域
随着大数据技术的广泛应用,大数据已成为推动社会产业经济快速发展和创新的有力工具,将大数据技术应用于电力及水务等能源领域,是技术发展的必然趋势。将能源消费数据、智能设备数据、客户信息等数据相结合,充分挖掘客户行为特征,发现用户消费规律,从而提升企业运营效率,已成为能源大数据研究的重心。
3.2.4.1电力生产和供应
电力大数据主要来源于电力生产和电能使用的发电、输电、变电、配电、用电和调度各个环节,未来电网的发展是以信息通信系统与电力基础设施深度融合为主要特征,融合的过程必将产生大量的数据,如何管理和利用这些数据是我们面临的重大挑战,另一方面,这些数据的融合、挖掘为我们认识和驾驭未来电网提供了有效的手段。
电力大数据应用涉及电力企业的各个专业,典型的如人、财、物、营销、规划、调度运行等。大数据技术在电力公司的核心价值主要体现在两个方面:一是将数据视作人、财、物一样的企业核心资产,建设统一的标准化数据管理体系,通过复杂的关联分析,让数据创造新的价值,提升精细化管理水平,促进管理方式和商业模式创新;二是将大数据技术应用于电力生产和电能使用的各个环节,通过技术变革,优化电网生产方式,提升生产效率,推动智能电网创新发展。具体包括:
1)搭建技术平台,建设满足大数据应用、符合大数据特点的数据中心。利用云计算、云存储、HADOOP体系架构等技术,建设公司级数据集市和数据仓库,实现公司数据的快速获取与应用,为大数据应用提供技术支撑。
2)夯实数据基础,构建满足大数据应用的数据资源管理体系。加快数据匹配和业务融合,实现数据资源的互联互通。加快整合数据资源、促进数据共享、消除信息孤岛,形成统一规范的数据定义。建立数据资产登记制度和数据资产查询规则,建立数据资产元数据标准,规范数据资产说明,建立和发布数据资产目录,建立数据资源管理与服务机制。
3)开展数据应用,助推公司生产经营管理水平提升。在生产、营销等公司主营业务中开展大数据应用场景的探索、实践和印证,为公司大数据应用积累成功经验。在成功探索基础上,积极探索大数据分析在电网规划、运维检修、电力交易中的应用,强化数据说话,持续提升数据管理能力,提高公司运营管理水平。加强公司外部数据的获取和应用,拓展数据渠道,丰富数据关联,提升公司对外部环境的感知能力,为公司战略决策提供有效参考。
3.2.4.2水务管理
随着社会经济和市场化的快速发展,水资源作为国家能源之一,水源、水质、供水服务越来越受到社会民众的关注。随着水务企业生产监测系统、营业收费管理系统的实施建设,极大的提高了供水、水质的安全可靠性和水务企业的管理水平。以水务监测、运行、管理等数据为基础,充分利用大数据分析及人工智能研究成果,科学有效地开展水资源的合理开发、高效利用、优化配置、全面节约、有效保护和综合治理,对推动水务智能调度决策,推动水力企业业务创新有着重要的意义。
水务监测、运行、管理等基于统一的标准化的数据管理,充分利用大数据分析及人工智能研究成果,实现供水及需水分析预测、峰谷经济用能分析、泵组运行效率分析,提升水务数据的深层次价值。
1)供水及需水需求预测分析
采用回归分析法和时间序列分析法,通过对历年供水量、历年气温、历年降雨量、历年系统检修情况、竞争对手历年供水情况、地方人口、经济历史数据的分析,分析系统上日供水量、降雨预测、客户自有水源、竞争对手供水量、水库运行水位、水质、设备设施检修、地方人口经济情况影响因子对供水及需水的影响度,寻求影响供水及需水的关键因素,运用影响因子实现对供水方案的优化。最终形成对客户月供水量、区间次日供水量、次日系统抽水量的预测。
2)峰谷经济用能分析
采用回归分析法、时间序列分析法,针对影响泵组运行的流量扬程、机组流量、功率、机组大修、改造等因素进行分析和研究,寻求影响泵组运行效率的关键影响因子,通过对关键影响因子的调节和修正,提升泵组运行效率,达到降低机组能耗的目的。
3.2.5通信与电子商务
3.2.5.1通信领域
通信行业拥有巨大的数据资源,发展大数据有得天独厚的优势。首先运营商拥有的数据涉及范围广,不仅涉及财务收入、业务信息等结构化数据,也会涉及图片、文本、音频、视频等非结构化数据。此外,运营商拥有的数据涵盖全业务、全用户和全渠道,信息完整。同时,运营商拥有的数据记录周期长,数据延续性好,覆盖用户从入网到离网前的连续时间。
要利用巨大的数据资源充分发展广泛的通信业务,大数据平台要解决很大的挑战。运营商系统内多个子系统(业务支撑系统BSS,运营支撑系统OSS,管理支撑系统MSS)内的数据表现形式、数据结构和定义完全不同。如何融合这三个域的数据资源,支持运营商业务,成为通信大数据首要解决的问题。此外,数据量大(已从TB发展至PB,甚至更大量级),响应时延的要求高,数据多份存储高冗余等,也是通信大数据平台需求解决的问题。
为了解决这些行业需求,特别是对分割的业务数据统一处理及分析,需要构建汇聚网格、业务、终端、客户行为等多维度的数据分析平台,遵循行业内统一的数据技术、管理等相关标准,提供融合数据存储、统一数据访问等跨平台的数据能力,包括:
1)多样化的数据采集。
2)跨域、跨业务数据融合,跨平台的数据分析能力能够将不同子域(BSS、OSS、MSS)、不同业务的数据融合统一地存储、组织及管理,使能统一的数据访问、整合和分析。
3)集成多种挖掘算法,提高数据挖掘能力基于通信行业丰富的数据资源,利用大数据平台强大的计算能力,通过多种建模算法(朴素贝叶斯、稀疏线性矩阵、决策树、随机森林、逻辑回归、Kmeans、社交网络推荐、影响力传播、协调过滤、线性回归等),提升数据价值。
4)图形化开发,降低大数据应用门槛集成易用的开发和维护工具,支持图形化界面进行二次开发。
3.2.5.2电子商务领域
大数据开启了电子商务的时代转型。电商经营中获取的海量信息,如商家、用户信息和产品使用体验等,都蕴藏着具有巨大价值的用户需求和竞争情报。这些信息随着交易不断积累,渗透到电商交易的各个环节。
从需求挖掘上看,以阿里巴巴、京东为代表的全品类、综合性平台,凭着一站式满足全部消费需求提高了平台的利用效率,也通过整合需求获得了更高的规模经济优势和更多的大数据来源;从预测市场上看,大数据预测技术通过对数据的甄别与分析,勾勒用户消费习惯、能力的“用户画像”,获取产品在各区域、时间段和消费群的销售情况与市场趋势等,实现电商企业在开发、生产到销售的全产业链中更精准和迅速的反应;从营销环节上看,急剧增加的消费数据使得电商企业更加理解客户,通过大数据应用划分消费群体,进行个性化、智能化的推广,有效提升了营销行为转化成购买行为的比例,带来了更高的经营效率;从仓储物流环节上看,基于行业内统一的数据标准化管理体系,电商(及合作的物流企业)依靠对客户数据的分析,选择更合理的派送方式、路径,更科学、智能地调配仓储,提供分时配送等服务,大大降低了仓储物流环节的存货和时间压力,提升了物流服务质量及交易的即时性、便捷性;从定制服务上看,电商企业通过“用户画像”等数据技术,为用户提供差异化、定制化产品和服务,如定制咨询应答策略、针对性商品推荐和个性化关怀等,以个性化服务大大提升了用户体验,同时也有利于改善电商行业竞争越发同质化的现状,避免过度竞争的问题。
综上,依靠着电商业务和数据之间天然的紧密联系,借助大数据挖掘与分析技术,电商企业可在经营的各个环节中充分利用这些信息提高行为效率,获得更好的经营效益,也能为消费者提供更丰富、更优质的产品和服务,促进电商领域长期的良好发展。
3.2.6交通运输领域
交通运输是国民经济中基础性、先导性、战略性产业,是重要的服务性行业,与经济发展和百姓生活紧密相关。当前,交通运输行业正处于交通运输基础设施发展、服务水平提高和转型发展的黄金时期。在这一历史进程中,交通运输行业积累了体量巨大、类型繁多、来源多样的数据资源,大数据应用需求活跃,大数据产业蓬勃发展。
在公路领域,基于统一的数据技术、管理标准,利用公路动态监测数据、收费数据等,开展公路基础设施使用性能评价、公路网运行监测预警、公路养护决策支持等;在水路领域,利用船舶位置数据和港口码头运行数据,开展水路运输监测预警、港口布局优化、水上搜救应急指挥等;在城市交通领域,利用IC卡数据、手机信令数据、车辆GPS数据和移动互联网众包数据等,开展交通流仿真及预测、城市群交通出行特征分析、公交能耗排放动态监测、公交线网评价及优化等;在铁路领域,利用铁路客票数据和动态检测数据,开展铁路旅客用户出行特征分析、铁路设施设备动态监测等;在民航领域,利用海量的旅客数据,开展民航旅客精准“画像”和服务体验提升分析等;在邮政领域,利用单证数据、车辆位置数据等,开展邮政车辆动态调度、运输网络仿真及优化、物流成本与绩效评价等。在出行服务领域,依托政企合作模式,聚焦出行导航、订票、约租车、物流、汽车后服务、航运和船舶信息服务等领域,推动商业化的交通大数据产品呈现爆发式增长,在创新出行信息服务模式,改善用户服务体验的同时,又汇集形成新的交通运输大数据资源。
3.2.7邮政领域
邮政体制改革十年来,邮政管理部门已逐步形成了邮政普遍服务“大数据”的基础。2016年7月1日,国务院办公厅《关于运用大数据加强对市场主体服务和监管的若干意见》正式出炉,提出要建立大数据标准体系。邮政业是一个数据高度密集性的企业,掌握着可能是全球最庞大的数据,在大数据时代应是遇到了极好的机遇。
按照国家对政府简政放权、加强事中事后监管、加强行业安全监管等相关要求,为有效解决三级邮政管理部门监管人少、事多、覆盖面大、监管基础能力薄弱、信息化基础较差等问题,依靠统一的标准化思路、信息化手段创新监管方式、提升监管能力,促进企业落实安全主体责任,提高政府履职能力,国家邮政局向国家发展改革委申报了“邮政业安全生产监管信息化工程”的建设,并被列入了国家安全生产监管信息化工程(一期)的建设内容。安全生产监管信息化工程(一期)国家邮政局建设部分项目于2016年6月获得批复并正式启动建设。大数据资源建设是工程的重要建设内容之一,主要实现邮政行业相关数据资源整合利用。
国家邮政总局运用大数据技术构建了邮政大数据平台,整合国内海量的快递物流数据,通过数据治理平台实现对邮政行业数据标准的管理、元数据管理、数据质量管理等功能,提升了对大数据平台海量数据管控能力,保证了物流数据的有效性、完整性和准确性,充分运用大数据挖掘分析技术,建立科学合理的仿真模型,主动发现违法违规现象,提高政府科学决策和风险预判能力。同时,通过邮政大数据平台作为数据支撑基础,综合评估各级邮政管理部门的监管与服务绩效,并根据评估结果及时调整和优化,提高各级邮政管理部门在邮政服务监管的有效性。另外,以邮政大数据平台为基础,构建分析模型,为财政资金补贴使用提供科学分析,通过大数据判断网点有否重复建设、补贴买车辆数量是否合理、新网点位置是否达标等等,确保资金用到实处,提高补贴资金使用效果。
3.2.8金融领域
金融是通过对现有资源的重新整合,实现价值和利润的等效流通,是人们在不确定环境中进行资源跨期的最优配置决策行为。纵观国内外,以互联网金融为代表的金融科技飞速发展,银行、券商等金融机构通过大数据平台等基础设施建设,快速的将发展重心转向基于大数据的业务价值探索和应用实践。
金融大数据以客户为中心,全面分析“学、选、买、用”的金融交易全流程,以高价值金融交易数据为核心,逐步按需进行跨行业、跨领域综合数据应用。金融大数据典型应用领域包括:历史查询、客户管理、营销管理、运营管理、绩效管理、风险管理等。
金融大数据解决方案则以数据技术标准、管理标准、大数据平台为基础,聚焦金融业务场景,围绕客户认知、价值提升、全生命周期的持续运营,切实提升业务营销人员、业务管理人员、经营决策人员的实际工作效能,提升辅助决策水平。通过金融大数据应用类项目建设,将聚焦以下方面持续发展:1)优化金融服务和产品创新、提升服务层次围绕客户需求,提升综合金融服务解决方案能力,通过更高水平的智能投顾,提供差异化服务价值,提升客户粘性。2)促进金融生产、管理模式转型,提升运营水平打造数据化业务运营体系,运用大数据思维和互联网技术,促进金融行业生产模式、管理模式的转型和创新发展。3)实现金融和类金融数据资源集成与共享建立健全法律法规、行业制度、个人保护、技术和管理标准化体系等约束,完善金融机构内部跨业务系统的数据整合,持续探索金融行业间数据共享、以及类金融的电商平台、工商、税务、电信运营商等外部数据融合。
另外,互联网金融的首个纲领性指导意见是2015年7月由人民银行、银监会、财政部等十部委联合出台的《关于促进互联网金融健康发展的指导意见》。两年间,《互联网金融专项整治实施方案》、《股权众筹风险专项整治工作实施方案》、《网络借贷信息中介机构业务活动管理暂行办法》、《网络借贷资金存管业务指引》、《网络借贷信息中介机构业务活动信息披露指引》等行业整顿、监管文件陆续出台,指导并规范金融行业向智能化、信息化发展。
3.2.9科学研究
大数据时代的科学研究是一个大科学、大需求、大数据、大计算、大发现的过程,数据密集型科学发现已经成为继实验科学、理论推演、计算机模拟之后的第四种科学范式。基于对科学大数据的处理和分析将成为从科学数据到科学发现的重要桥梁,能够为诸多学科领域的科学新发现提供坚实的技术基础,加速具有国际影响力的科技成果产出。
在天文研究方面,基于世界最大口径单体射电望远镜FAST每日产生的海量天文数据,开展海量天文数据整合分析、天体分析和挖掘、天文大数据可视化等研究工作,推动天文科学研究和探索由假设驱动向数据驱动转变;在气候环境方面,基于“地球数值模拟装置”系统对自然观测数据的积累,开展自然观测数据的分析和挖掘等研究工作,实现对未来气候环境变化趋势的预测和预报;在雾霾治理方面,基于从各个环境监测点汇集的海量环境监测数据,利用大数据技术不断模拟雾霾的形成、演绎雾霾的走向,获得精准的空气质量计算模型,实现精准的雾霾预报与预警;在精准医学领域,建立多层次精准医疗知识库体系和国家生物医学大数据共享平台,开展新一代基因测序技术、组学研究和大数据融合分析技术等精准医疗核心关键技术的研究,推动医学诊疗模式的变革。
科学大数据在推动科学研究、促进各行业领域科学发现和技术创新方面有着非常大的潜力。当前,中国科学院已启动“十三五”信息化专项科学大数据工程项目“大数据驱动学科创新示范平台”,基于“十三五”建设的“中国科技云”和全院科学大数据公共基础环境平台,在生命科学、空间科学、天文科学、高能物理等学科领域,建设大数据驱动学科创新示范平台,实现学科内数据资源的深度集成整合,构建科学大数据分析应用环境,创新大数据驱动科学发现的研究模式。未来,科学大数据必将是人类科研革命和社会进步的重要支撑。
3.2.10教育领域
随着“互联网+”时代的到来,物联网、移动互联网、大数据、人工智能等相继进入校园工作和生活中,教育已经进入一个新的时代。教育大数据作为教育信息化发展的更高阶段,成为促进教育公平、提高教育质量、推动教育改革的有力抓手和有效手段。信息技术与教育的深度融合,使得全方位、深度追踪、量化学习过程,采集和汇聚教育场景中各类数据、乃至其它各种跨界数据成为可能。由于教育业务复杂,无标准化的操作流程和模式,创新人才的培养又需要更多元化、创新性的教学模式与方法。缺少标准化的业务流程以及学习方式的多样性和学习地点的不确定性,导致教育大数据的采集变得异常复杂。学校作为教育信息化落地的主体被迫要求扮演更加多元的角色,也为学校的信息化建设提出了更高的要求。
学校需要遵循行业统一的数据技术、管理标准,在原来以流程为核心的系统建设基础上,加强以数据为核心的系统体系建设。教育大数据的建设不是一套软件工具和几个场景应用的搭建就能简单的实现的,而是在进行顶层设计的规划后,分步骤持续建设的过程,根据学校目前应用系统和数据的现状,并结合实际的具体需求,建设一个能够支撑开展多源异构数据汇聚、系统化监测与评估、教与学过程的综合建模和行为分析、数据可视化等技术的研发和工程化的教育大数据应用技术创新平台,支撑未来学校的发展与变革。
面对具体教育业务,教育大数据技术对教育的管理、教学、学习、科研和评价等都产生了很大的影响。目前学校里可利用的数据一共分为三大块,业务数据、机器数据以及互联网数据。其中前面两块属于校内数据,互联网数据属于校外数据。各个业务系统的数据需要对接,各种半结构化数据(设备产生的日志)和非结构化数据(监控的视频、照片以及各种文本数据)也在大量产生,这些是传统的业务系统所处理和承载不了的数据,但是对于学校来说又是非常有价值的。教育大数据具有具备转换层次的四个过程特征:数据、信息、知识、智慧。教育大数据技术采集的海量教育元数据,经过抽取、转换、加载,联机分析处理和统计分析等过程,转换为教育信息,又经过数据可视化将教育数据呈现出来,最后形成教育决策来指导教育者和学习的教学,这个过程数据完成了从数据到信息、知识和智慧的演变。
当前最重要的是整合第一块的业务数据,通过建立传统的数据仓库来将这些数据进行统一和集中的管理,可以直接横向打通各个业务系统的壁垒。但是对于后面两块的数据,学校重视程度不够,机器数据实际上也是学校要实现智慧校园所不可或缺的数据基础,广泛分布于学校的无线网、门禁、视频等,都属于这一类数据,机器数据不仅仅数量庞大,同时记录的信息也足够全,合理整合及利用机器数据,是智慧校园建设的重中之重。而互联网媒体数据则是存在于校园网之外,但是又跟学校紧密程度比较高的一类数据,在利用好业务数据和机器数据的同时,将互联网数据也纳入到整个学校的数据体系中,也是智慧校园建设的一个关键指标。通过大数据平台可以为学校把所有业务系统数据打通,开发利用现有的机器数据,同时再纳入互联网数据,全面激活学校数据价值,释放学校数据力量。
“互联网+教育”的真正意义在于促进教育的转型升级。教育大数据将重构教育生态系统,宏观层面为教育决策提供科学依据,中观层面推进教学管理和评价的创新实践,微观层面为个性化教学提供精准支持。
3.2.11卫生领域
随着我国城镇化进程加快以及人口老龄化的加速,民众健康意识不断增强,人民群众对医疗健康的需求也越来越高。日益增长的医疗健康需求和我国原有分级诊疗、以药养医的僵化体制的矛盾日益激烈,以大数据应用为突破口的医疗卫生信息化升级,给解决上述问题带来了期望。
大数据在医疗个性化服务中的应用。利用好“大数据”可以提升医疗价值,形成个性化医疗,即基于基因科学的医疗模式,同时通过对居民健康影响因素进行分析,对患者健康信息进行整合,为疾病的诊断和治疗提供更好的数据证据,进行居民健康知识库的积累,从而改进居民健康。在个性化药物的开发领域,研发药物时,大数据技术可通过考察遗传变异、对特定疾病的易感性和对特殊药物的反应三者之间的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素,针对不同的患者采取不同的诊疗方案,或者根据患者的实际情况调整药物剂量,可以减少副作用。
大数据在个人健康管理方面的应用。依托行业统一的数据技术、管理标准,利用先进的大数据技术,对个人健康进行全生命周期管理,实现在任何时间、任何地点都可以访问相关信息,从而保证了健康信息的一致性、连续性,利于健康分析人员能够有效地对个人健康状况进行分析并及时进行干预。利用大数据技术对所有产生数据进行分析,汇总成一个健康风险指数,用户可以看到自己的健康风险指数和同龄、同性别人群的平均风险指数,并且能明确自己的健康风险在同龄人群中的排位,可使用户对自己健康状况有个初步的评估并对行为方式或生活习惯等进行调整。
大数据时代电子病历的应用。医院电子病历管理系统所产生和保存的病案信息是医疗卫生“大数据”的重要信息来源,以大数据信息管理理念构建医疗卫生信息共享中心,能利用大数据客观、完整、连续地记录患者的诊疗经过、病情变化、治疗效果等,在医院医疗、教学、科研领域,具有丰富最佳治疗途径、提高诊疗水平、防控流行病疫情等方面都具有重大意义。
未来,随着对海量医疗卫生大数据的结构化处理的深化,大数据会在精准医疗、医药供给侧改革、商业健康保险等领域进一步深入发展,会产生巨大的商业价值,并且使得整个医疗产业链受益。
3.2.12文化领域
在文化版权领域,当前的网络版权侵权现象十分严重,网络版权侵权难于发现,更难于取证,传统工作模式下很难对网络版权进行有效的监管。但是,随着大数据时代的到来,网络版权保护有了新的契机,国家新闻出版广电总局和贵州省人民政府共同推动了“中国文化(出版广电)大数据产业”项目,依托大数据技术,建立数字音像互联网实时监测系统,探索出版广电行业在新形势下跨区域、跨行业、跨网络、跨终端、跨所有制的发展新模式,形成“云、管、端”一体化的技术、市场新体系,助推传统媒体与新兴媒体融合发展。
大数据技术在网络版权保护中具体体现在:1、文化版权使用信息、文化版权授权信息、文化版权盗版信息等相关文化版权的数据,在互联网的数据海洋中浩如烟海,通过搜索引擎和网络爬虫技术,可以实现全网文化版权数据的自动化、智能化获取,解放人力资源,实现以往需要耗费大量人力也难以触及的目标;2、捕获到文化版权信息后,构建相关的数据技术、管理标准,通过智能分析对比,可以完成对版权信息的初步匹配和深度匹配,自动化发现疑似侵权目标,将疑似侵权目标交由人工进行确认,大大减少了人力投入;3、互联网版权侵权内容涵盖文字、图片、音频、视频等几类数据,大多数为非结构化数据,而对于海量的非结构化数据的存储与检索必须采用大数据技术才能得以实现,通过高性能的分布式存储计算能力,满足海量数据的存储与实时计算性能要求的同时,还需要实现信息的快速检索;4、建立数据共享服务机制,依托行业内统一的大数据标准体系,打通政府各部门之间的“数据高速公路”,使侵权存证信息快速推送到对应执法部门,为执法监管提供有利条件,最终形成各部门之间的联合惩戒。5、借助大数据可视化技术,使文化版权监管做到全过程溯源,全流程监督,真正做到实时监督,全面掌握网络文化版权态势。
3.3 大数据发展趋势分析
我国作为数据大国,在互联网、工业制造、金融、医疗等各个领域均有着庞大的数据基础,整体数据量大、数据品种丰富,这为我国大数据领域的发展提供了重要的基础支撑。
(1)大数据与实体经济深度融合
(2)大数据发展开启数字中国建设
(3)大数据将向智能化、智慧化发展
(4)数据治理将成为重点发展领域
4大数据参考架构(9376字)
4.1 参考架构
大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。本章结合NIST和JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构(见图3)。
图3 大数据参考架构图
大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考架构图中得到了体现。
大数据参考架构是一个通用的大数据系统概念模型。它表示了通用的、技术无关的大数据系统的逻辑功能构件及构件之间的互操作接口,可以作为开发各种具体类型大数据应用系统架构的通用技术参考框架。其目标是建立一个开放的大数据技术参考架构,使系统工程师、数据科学家、软件开发人员、数据架构师和高级决策者,能够在可以互操作的大数据生态系统中制定一个解决方案,解决由各种大数据特征融合而带来的需要使用多种方法的问题。它提供了一个通用的大数据应用系统框架,支持各种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统如何补充并有别于已有的分析、商业智能、数据库等传统的数据应用系统。
大数据参考架构采用构件层级结构来表达大数据系统的高层概念和通用的构件分类法。从构成上看,大数据参考架构是由一系列在不同概念层级上的逻辑构件组成的。这些逻辑构件被划分为三个层级,从高到低依次为角色、活动和功能组件。最顶层级的逻辑构件是角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者、安全和隐私、管理。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行每个活动需要的功能组件。
大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。在信息价值链维度上,大数据的价值通过数据的收集、预处理、分析、可视化和访问等活动来实现。在IT价值链维度上,大数据价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务来实现。大数据应用提供者处在两个维度的交叉点上,表明大数据分析及其实施为两个价值链上的大数据利益相关者提供了价值。
五个主要的模型构件代表在每个大数据系统中存在的不同技术角色:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者。另外两个非常重要的模型构件是安全隐私与管理,代表能为大数据系统其他五个主要模型构件提供服务和功能的构件。这两个关键模型构件的功能极其重要,因此也被集成在任何大数据解决方案中。
参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。
4.2 参考架构中涉及的相关内容
4.2.1系统协调者
系统协调者的职责在于规范和集成各类所需的数据应用活动,以构建一个可运行的垂直系统。系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。系统协调者角色的扮演者包括业务领导、咨询师、数据科学家、信息架构师、软件架构师、安全和隐私架构师、网络架构师等。系统协调者定义和整合所需的数据应用活动到运行的垂直系统中。系统协调者通常会涉及到更多具体角色,由一个或多个角色扮演者管理和协调大数据系统的运行。这些角色扮演者可以是人,软件或二者的结合。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。这些由系统协调者管理的工作负载,在较低层可以是把框架组件分配或调配到个别物理或虚拟节点上,在较高层可以是提供一个图形用户界面来支持连接多个应用程序和组件的工作流规范。系统协调者也可以通过管理角色监控工作负载和系统,以确认每个工作负载都达到了特定的服务质量要求,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化/激增的数据或用户/交易数量而带来的工作负载需求。
4.2.2数据提供者
数据提供者的职责是将数据和信息引入到大数据系统中,供大数据系统发现、访问和转换。数据提供者角色为大数据系统提供可用的数据。数据提供者角色的扮演者包括企业、公共代理机构、研究人员和科学家、搜索引擎、Web/FTP和其他应用、网络运营商、终端用户等。在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行转换和清洗、创建数据源的元数据及访问策略、访问控制、通过软件的可编程接口实现推或拉式的数据访问、发布数据可用及访问方法的信息等。数据提供者通常需要为各种数据源(原始数据或由其它系统预先转换的数据)创建一个抽象的数据源,通过不同的接口提供发现和访问数据功能。这些接口通常包括一个注册表,使得大数据应用程序能够找到数据提供者、确定包含感兴趣的数据、理解允许访问的类型、了解所支持的分析类型、定位数据源、确定数据访问方法、识别数据安全要求、识别数据保密要求以及其他相关信息。因此,该接口将提供注册数据源、查询注册表、识别注册表中包含标准数据集等功能。
基于对大数据的4V特性和系统设计方面的考虑,暴露和访问数据的接口需要根据变化的复杂性采用推(push)和拉(pull)两种软件机制。这两种软件机制包括订阅事件、监听数据馈送、查询特定数据属性或内容,以及提交一段代码来执行数据处理功能。由于需要考虑大数据量跨网络移动的经济性,接口还可以允许提交分析请求(例如,执行一段实现特定算法的软件代码),只把结果返回给请求者。数据访问可能并不总是自动进行,可以让人类角色登录到系统提供新数据应传送的方式(例如,基于数据馈送建立订阅电子邮件)。
4.2.3大数据应用提供者
大数据应用提供者的职责是通过在数据生命周期中执行的一组特定操作,来满足由系统协调者规定的要求,以及安全性、隐私性要求。大数据应用提供者通过把大数据框架中的一般性资源和服务能力相结合,把业务逻辑和功能封装成架构组件,构造出特定的大数据应用系统。大数据应用提供者角色的扮演者包括应用程序专家、平台专家、咨询师等。大数据应用提供者角色执行的活动包括数据的收集、预处理、分析、可视化和访问。
大数据应用程序提供者可以是单个实例,也可以是一组更细粒度大数据应用提供者实例的集合,集合中的每个实例执行数据生命周期中的不同活动。每个大数据应用提供者的活动可能是由系统协调者、数据提供者或数据消费者调用的一般服务,如Web服务器、文件服务器、一个或多个应用程序的集合或组合。每个活动可以由多个不同实例执行,或者单个程序也可能执行多个活动。每个活动都能够与大数据框架提供者、数据提供者以及数据消费者交互。这些活动可以并行执行,也可以按照任意的数字顺序执行,活动之间经常需要通过大数据框架提供者的消息和通信框架进行通信。大数据应用提供者执行的活动和功能,特别是数据收集和数据访问活动,需要与安全和隐私角色进行交互,执行认证/授权并记录或维护数据的出处。
收集活动负责处理与数据提供者的接口和数据引入。它可以是一般服务,如由系统协调者配置的用于接收或执行数据收集任务的文件服务器或Web服务器;也可以是特定于应用的服务,如用来从数据提供者拉数据或接收数据提供者推送数据的服务。收集活动执行的任务类似于ETL的抽取(extraction)环节。收集活动接收到的数据通常需要大数据框架提供者的处理框架来执行内存队列缓存或其他数据持久化服务。
预处理活动执行的任务类似于ETL的转换(transformation)环节,包括数据验证、清洗、标准化、格式化和存储。预处理活动也是大数据框架提供者归档存储的数据来源,这些数据的出处信息一般也要被验证并附加到数据存储中。预处理活动也可能聚集来自不同的数据提供者的数据,利用元数据键来创建一个扩展的和增强的数据集。
分析活动基于数据科学家的需求或垂直应用的需求,确定处理数据的算法来产生新的分析,解决技术目标,从而实现从数据中提取知识。这需要有特定的数据处理算法对数据进行处理,以便从数据中得出能够解决技术目标的新洞察。分析活动包括对大数据系统低级别的业务逻辑进行编码(更高级别的业务流程逻辑由系统协调者进行编码),它利用大数据框架提供者的处理框架来实现这些关联的逻辑,通常会涉及到在批处理或流处理组件上实现分析逻辑的软件。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功能。
可视化活动提供给最终数据消费者处理中的数据元素和呈现分析功能的输出。可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数据消费者。可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。更多的情况下,可视化活动经常要与数据消费者、大数据分析活动以及大数据提供者的处理框架和平台进行交互,这就需要基于数据消费者设置的数据访问参数来提供交互式可视化手段。可视化活动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化处理框架实现。
访问活动与可视化和分析功能交互,响应应用程序请求,通过使用处理和平台框架来检索数据,并响应数据消费者请求。访问活动主要集中在与数据消费者的通信和交互。与数据收集活动类似,访问活动可以是由系统协调者配置的一般服务,如Web服务器或应用服务器,用于接受数据消费者请求。访问活动还可以作为可视化活动、分析活动的界面来响应数据消费者的请求,并使用大数据框架提供者的处理框架和平台来检索数据,向数据消费者请求做出响应。此外,访问活动还要确保为数据消费者提供描述性和管理性元数据,并把这些元数据作为数据传送给数据消费者。访问活动与数据消费者的接口可以是同步或异步的,也可以使用拉(pull)或推(push)软件机制进行数据传输。
4.2.4大数据框架提供者
大数据框架提供者的职责是为大数据应用提供者在创建具体应用时提供使用的资源和服务。大数据框架提供者的角色扮演者包括数据中心、云提供商、自建服务器集群等。大数据框架提供者的活动包括基础设施、平台、处理框架、信息交互/通信和资源管理。
基础设施为其他角色执行活动提供存放和运行大数据系统所需要的资源。通常情况下,这些资源是物理资源的某种组合,用来支持相似的虚拟资源。资源一般可以分为网络、计算、存储和环境。网络资源负责数据在基础设施组件之间的传送;计算资源包括物理处理器和内存,负责执行和保持大数据系统其他组件的软件;存储资源为大数据系统提供数据持久化能力;环境资源是在考虑建立大数据系统时需要的实体工厂资源,如供电、制冷等。
平台包含逻辑数据的组织和分布,支持文件系统方式存储和索引存储方法。文件系统方式实施某种级别的POSIX标准以获取权限,进行相关的文件操作。索引存储方法无需扫描整个数据集,便可以迅速定位数据的具体要素。平台通过相关的应用编程接口(API)或其他方式,提供数据的逻辑组织和分发服务。它也可能提供数据注册、元数据以及语义数据描述等服务。逻辑数据组织的范围涵盖从简单的分隔符平面文件到完全分布式的关系存储或列存储。数据访问方式可以是文件存取API或查询语言(如SQL)。通常情况下,实现的大数据系统既能支持任何基本的文件系统存储,也支持内存存储、索引文件存储等方式。
处理框架提供必要的基础软件以支持实现的应用能够处理具有4V特征的大数据。处理框架定义了数据的计算和处理是如何组织的。大数据应用依赖于各种平台和技术,以应对可扩展的数据处理和分析的挑战。处理框架一般可以分为批处理(batch)、流处理(streaming)和交互式(interactive)三种类型。
信息交互/通信为可水平伸缩的集群的结点之间提供可靠队列、传输、数据接收等功能。它通常有2种实现模式,即点对点(point-to-point)模式和存储-转发(store-and-forward)模式。点对点模式不考虑消息的恢复问题,数据直接从发送者传送给接收者。存储-转发模式提供消息持久化和恢复机制,发送者把数据发送给中介代理,中介代理先存储消息然后再转发给接收者。
资源管理对计算、存储及实现两者互联互通的网络连接进行管理。主要目标是实现分布式的、弹性的资源调配,具体包括对存储资源的管理和对计算资源的管理。资源管理活动负责解决由于大数据的数据量和速度特征而带来的对CPU、内存、I/O等资源管理问题。有两种不同的资源管理方式,分别是框架内(intra-framework)资源管理和框架间(inter-framework)资源管理。框架内资源管理负责框架自身内部各组件之间的资源分配,由框架负载驱动,通常会为了最小化框架整体需求或降低运行成本而关闭不需要的资源。框架间资源管理负责大数据系统多个存储框架和处理框架之间的资源调度和优化管理,通常包括管理框架的资源请求、监控框架资源使用,以及在某些情况下对申请使用资源的应用队列进行管理等。特别的,针对大数据系统负载多变、用户多样、规模较大的特点,应采用更加经济有效的资源构架和管理方案。目前的大数据软件框架,其亮点在于高可扩展性,而本质诉求仍然是如何实现并行化,即对数据进行分片、并为每一个分片分配相应的本地计算资源。因此,对于基础架构而言,为了支持大数据软件框架,最直接的实现方式就是将一份计算资源和一份存储资源进行绑定,构成一个资源单位(如,服务器),以获得尽可能高的本地数据访问性能。但是,这种基础架构由于计算同存储之间紧耦合且比例固定,逐渐暴露出资源利用率低、重构时灵活性差等问题。因此,未来应通过硬件及软件各方面的技术创新,在保证本地数据访问性能的同时,实现计算与存储资源之间的松耦合,即:可以按需调配整个大数据系统中的资源比例,及时适应当前业务对计算和存储的真实需要;同时,可以对系统的计算部分进行快速切换,真正满足数据技术(DT)时代对“以数据为中心、按需投入计算”的业务要求。
4.2.5数据消费者
数据消费者通过调用大数据应用提供者提供的接口按需访问信息,与其产生可视的,事后可查的交互。与数据提供者类似,数据消费者可以是终端用户或者其它应用系统。数据消费者执行的活动通常包括搜索/检索、下载、本地分析、生成报告、可视化等。数据消费者利用大数据应用提供者提供的界面或服务访问他感兴趣的信息,这些界面包括数据报表、数据检索、数据渲染等。
数据消费者角色也会通过数据访问活动与大数据应用提供者交互,执行其提供的数据分析和可视化功能。交互可以是基于需要(demand-based)的,包括交互式可视化、创建报告,或者利用大数据提供者提供的商务智能(BI)工具对数据进行钻取(drill-down)操作等。交互功能也可以是基于流处理(streaming-based)或推(push-based)机制的,这种情况下消费者只需要订阅大数据应用系统的输出即可。
4.2.6安全和隐私
4.2.6.1针对安全和隐私的考虑
大数据参考架构图中的五个主要角色,即系统协调者、数据提供者、大数据框架提供者、大数据应用提供者、数据消费者,其活动都要受到安全和隐私角色的影响,因此要求各个角色在各自的安全和隐私管理领域,通过不同的技术手段和安全措施,构筑大数据系统全方位、立体的安全防护体系,同时应提供一个合理的灾备框架,提升灾备恢复能力,实现数据的实时异地容灾功能,最终满足不同的安全和隐私要求。
因此,如何平衡大数据与隐私之间的关系,已成为各国立法、司法、执法部门,以及企业必须面临与思考的共同难题。
4.2.7管理角色
管理角色包括二个活动组:系统管理和大数据生命周期管理。
5大数据标准化现状(7365字)
5.1 国外标准化现状
5.1.1ISO/IECJTC1
1)ISO/IECJTC1/SC32数据管理和交换分技术委员会
ISO/IECJTC1/SC32数据管理和交换分技术委员会(以下简称SC32)是与大数据关系最为密切的标准化组织。SC32持续致力于研制信息系统环境内及之间的数据管理和交换标准,为跨行业领域协调数据管理能力提供技术性支持,其标准化技术内容涵盖:协调现有和新生数据标准化领域的参考模型和框架;负责数据域定义、数据类型和数据结构以及相关的语义等标准;负责用于持久存储、并发访问、并发更新和交换数据的语言、服务和协议等标准;负责用于构造、组织和注册元数据及共享和互操作相关的其他信息资源(电子商务等)的方法、语言服务和协议等标准。SC32下设WG1电子业务工作组、WG2元数据工作组、WG3数据库语言工作组、WG4SQL多媒体和应用包工作组。
2014年6月SC32在北京全会上,批准了4项为大数据提供标准化支持的新工作项:国际标准《SQL对多维数组的支持》、技术报告《SQL对JSON的支持》、国际标准《数据集注册元模型》和国际标准《数据源注册元模型》。其中《SQL对JSON的支持》由中国专家担任编辑。
SC32在2014年北京全会期间举办了主题为“大数据标准化”的开放论坛,为国内外大数据领域的专家学者和产业管理部门人员、IT界的骨干企业提供了一个开放交流的平台。来自于国内外大数据研究、应用及服务提供领域的专家学者做了相关主题报告,展现了当前大数据技术与标准的发展和应用前景。
2015年5月SC32在英国全会上,批准了2项为大数据提供标准化支持的新工作项:技术报告《SQL对多态表功能的支持》和技术报告《SQL对多维数组的支持》。此外,本次会议上我国提案“SQL对MapReduce及与之相关的流数据处理的支持”得到SC32专家的高度肯定,WG3会议召集人将组织国际专家参与我国工作,共同完善该提案。
2016年6月13日-17日,ISO/IECJTC1/SC32“数据管理与交换”分技术委员会2016年全会在美国孟菲斯召开,本次会议上,中国代表团汇报了“SQL对MapReduce及与之相关的流数据处理的支持”提案内容,并胜利通过了SC32全会决议,确认以WG3“数据库语言工作组”和中国国家成员体的名义联合申报“数据库语言新技术设计说明第1部分:SQL对流数据的支持”新工作项目(英文名:Design Notesfor New Database Language Technologies, Part1: SQL Support for Streaming Data)。
2016年10月3日SC32秘书处发布的2016-2017年的业务计划中明确了新工作项ISO/IECTR29075-1: DesignNotes for New Database Language Technologies, Part1: SQL Support for Streaming Data。
SC32现有的标准制定和研究工作为大数据的发展提供了良好基础。
2)ISO/IECJTC1/WG9大数据工作组工作情况
ISO/IECJTC1于2013年11月全会上成立负责大数据国际标准化的大数据研究组(ISO/IECJTC1/SG2,以下简称SG2)。工作重点包括:调研国际标准化组织(ISO)、国际电工委员会(IEC)、第1联合技术委员会(ISO/IECJTC1)等在大数据领域的关键技术、参考模型以及用例等标准基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IECJTC1大数据标准优先顺序;向2014年ISO/IECJTC1全会提交大数据建议的技术报告和其他研究成果。
2014年11月,SG2向ISO/IECJTC1全会提交了研究报告,其中包括建议成立独立的ISO/IECJTC1大数据工作组,需要标准化的大数据技术点。ISO/IECJTC1于此次全会上成立了ISO/IECJTC1/WG9大数据工作组(以下简称WG9)。
为了推动大数据标准的研制工作,WG9于2014年成立以来召开了八次会议。WG9工作重点包括:开发大数据基础性标准,包括参考架构和术语;识别大数据标准化需求;同大数据相关的JTC1其他工作组保持联络关系;同JTC1外其他大数据相关标准组织保持联络关系。目前,WG9正在研制6项国际标准,相关标准状态见表6。
表6 制定参与国际标准情况
序号 |
国际标准号 |
国际标准名称(英文) |
国际标准名称(中文) |
阶段 |
1 |
ISO/IEC20546 |
Information technology–Big Data-Overview and Vocabulary |
信息技术大数据概述和术语 |
CD |
2 |
ISO/IECTR20547-1 |
Information technology–Big Data Reference Architecture-Part1: Framework and Application Process |
信息技术大数据参考架构第1部分:框架与应用 |
CD |
3 |
ISO/IECTR20547-2 |
Information technology-Big Data Reference Architecture-Part2: Use Cases and Derived Requirements |
信息技术大数据参考架构第2部分:用例和需求 |
CD |
4 |
ISO/IEC20547-3 |
Information technology-Big Data Reference Architecture–Part3: Reference Architecture |
信息技术大数据参考架构第3部分:参考架构 |
CD |
5 |
ISO/IEC20547-4 |
Information technology-Big Data Reference Architecture-Part4: Security and Privacy Fabric |
信息技术大数据参考架构第4部分:安全和隐私 |
WD |
6 |
ISO/IECTR20547-5 |
Information technology-Big Data Reference Architecture -Part5: Standards Roadmap |
信息技术大数据参考架构第5部分:标准路线图 |
CD |
5.1.1ITU-T
ITU在2013年11月发布了题目为《大数据:今天巨大,明天平常》的技术观察报告,该技术观察报告分析了大数据相关的应用实例,指出大数据的基本特征和促进大数据发展的技术,在报告的最后部分分析了大数据面临的挑战和ITU-T可能开展的标准化工作。
从ITU-T的角度来看,大数据发展面临的最大挑战包括:数据保护、隐私和网络安全,法律和法规的完善。根据ITU-T现有的工作基础,开展的标准化工作包括:高吞吐量、低延迟、安全、灵活和规模化的网络基础设施,汇聚数据机和匿名,网络数据分析,垂直行业平台的互操作,多媒体分析,开放数据标准等。目前,ITU-T大数据标准化工作主要集中在SG13(第13研究组)、SG16(第16研究组)、SG17(第17研究组)以及SG20(第20研究组)等开展。
SG13下设的Q7/13(第7课题组)正在开展Y.bDDN-fr“基于深度报文检测的大数据驱动网络框架”标准、Y.Sup-bDDN-usecase“大数据驱动网络的用户案例和应用场景”研究报告、Y.bDDN-req“大数据驱动网络的需求”标准、Y.bDDN-MNTMP“大数据驱动的移动网络流量管理及规划”标准、Y.bDPI-Mec“应用于网络大数据中的深度报文检测机制”标准等方面的工作。Q17/13(第17课题组)于2015年11月正式发布ITU-TY.3600(Y.Big Data-reqts)“基于云计算的大数据需求和能力”标准;2017年11月完成ITU-TY.3601(Y. Big Data EX-reqts)“大数据交换框架和需求”标准;此外,正在开展Y.bdp-reqts“大数据溯源需求”,Y.bdi-reqts“大数据集成概览和功能需求”,Y.bdm-sch“大数据元数据框架和概念模型”等标准的研制工作。Q18/13(第18课题组)正在研制Y.BDaaS-arch“大数据即服务的参考架构”标准;目前也在讨论如何开展Y.BD-arch“大数据的功能架构”标准项目,该标准预计2017年11月完成立项;同时,Q18/13也将Y.BigDataEX-arch“大数据交换功能架构”作为2018年将要开展的标准工作内容。Q19/13(第19课题组)在开展Y.bddp-reqts“大数据数据保存概览和需求”标准研制工作。
5.1.2IEEEBDGMM
在IEEE新倡议委员会(NIC)的IEEE大数据倡议(BDI)下,IEEE大数据治理和元数据管理(BDGMM)于2017年6月成立,主导大数据标准化工作。BDGMM的工作是指导如何开展大数据治理和大数据交换工作,使得大数据消费者能更好地了解和访问可用数据,帮助大数据生产者正确设定期望值并确保按照期望值维护和共享数据集,帮助拥有大数据的组织作出如何存储、策划、提供和治理大数据的决策,以便更好地服务于大数据消费者和生产者。BDGMM每两周召开一次远程会议。
5.1.3NIST
NIST(美国国家标准技术研究所)是最早进行大数据标准化研究的机构之一。专门成立了大数据公共工作组(NBD-PWD)对大数据的发展和应用,及标准化进行研究。工作组最重要的输出是被广泛参考的大数据互操作性框架(NBDIF)报告。大数据互操作性框架的核心是面向各个角色(系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者等)定义一个由标准接口互联的、不绑定技术和厂商实现的、模块可替换的大数据参考架构(NBDRA)。这一报告目前有两个版本。第一个版本(已经发布)包括七卷:定义、分类、用例和要求、安全和隐私、架构调研白皮书、参考架构、标准路线。第二个版本在征求意见阶段,除了修改、完善第一个版本中的内容,又增加了两卷:大数据参考架构接口,采用和(传统系统的)现代化。NIST的这一系列报告,包括对大数据术语的定义、参考架构、应用案例、标准路线等的分析是大数据标准化工作的重要参考。
5.2 国内标准化现状
5.2.1国家标准现状
大数据领域的标准化工作是支撑大数据产业发展和应用的重要基础,为了推动和规范我国大数据产业快速发展,建立大数据产业链,与国际标准接轨,在工业和信息化部,国家标准化管理委员会的领导下,社会各界朋友关心支持之下,2014年12月2日全国信标委大数据标准工作组(以下简称“工作组”)正式成立。2016年4月,全国信安标委大数据安全标准特别工作组正式成立。
1)全国信标委大数据标准工作组
工作组主要负责制定和完善我国大数据领域标准体系,组织开展大数据相关技术和标准的研究,申报国家、行业标准,承担国家、行业标准制修订计划任务,宣传、推广标准实施,组织推动国际标准化活动。对口ISO/IECJTC1/WG9大数据工作组。
工作组组长由北京理工大学副校长梅宏院士担任,副组长为中国电子技术标准化研究院副院长孙文龙、中国人民大学教授杜小勇、华为IT技术开发部部长吴建明、阿里云首席科学家闵万里。秘书处设在中国电子技术标准化研究院。秘书长为中国电子技术标准化研究院信息技术研究中心副主任吴东亚。联络员为国家标准化管理委员会工业二部刘大山处长、工业和信息化部信软司傅永宝调研员和工业和信息化部电子信息司侯建仁处长。
根据大数据产业发展现状和标准化需求,为更好的开展相关标准化工作,2017年7月工作组在第二届组长会议上决议下设7个专题组,包括:总体专题组、国际专题组、技术专题组、产品和平台专题组、工业大数据专题组、政务大数据专题组、服务大数据专题组,负责大数据领域不同方向的标准化工作。目前,工作组已发布6项国家标准,3项国家标准正在报批阶段,15项国家标准正在研制,详见表7。
表7 工作组标准研制情况
序号 |
标准号 |
标准名称 |
状态 |
所属专题组 |
1 |
GB/T35295-2017 |
信息技术大数据术语 |
发布 |
总体专题组 |
2 |
GB/T35589-2017 |
信息技术大数据技术参考模型 |
发布 |
总体专题组 |
3 |
GB/T34952-2017 |
多媒体数据语义描述要求 |
发布 |
技术专题组 |
4 |
GB/T34945-2017 |
信息技术数据溯源描述模型 |
发布 |
技术专题组 |
5 |
GB/T35294-2017 |
信息技术科学数据引用 |
发布 |
技术专题组 |
6 |
GB/T36073-2018 |
数据管理能力成熟度评估模型 |
发布 |
总体专题组 |
7 |
20141200-T-469 |
信息技术数据交易服务平台交易数据描述 |
报批 |
总体专题组 |
8 |
20141201-T-469 |
信息技术数据交易服务平台通用功能要求 |
通过评审 |
总体专题组 |
9 |
20141203-T-469 |
信息技术数据质量评价指标 |
报批 |
技术专题组 |
10 |
20141204-T-469 |
信息技术通用数据导入接口规范 |
报批 |
产品平台专题组 |
11 |
20160597-T-469 |
信息技术大数据分析系统基本功能要求 |
征求意见 |
产品平台专题组 |
12 |
20160598-T-469 |
信息技术大数据存储与处理平台技术要求 |
草案 |
产品平台专题组 |
13 |
20171083-T-469 |
信息技术大数据基于参考架构下的接口框架 |
草案框架 |
总体专题组 |
14 |
20171082-T-469 |
信息技术大数据分类指南 |
草案框架 |
技术专题组 |
15 |
20171082-T-469 |
信息技术大数据系统通用规范 |
草案 |
总体专题组 |
16 |
20171081-T-469 |
信息技术大数据存储与处理系统功能测试规范 |
草案框架 |
产品平台专题组 |
17 |
20171065-T-469 |
信息技术大数据分析系统功能测试规范 |
草案框架 |
产品平台专题组 |
18 |
20171066-T-469 |
信息技术大数据面向应用的基础计算平台基本性能要求 |
草案框架 |
产品平台专题组 |
19 |
20171067-T-469 |
信息技术大数据开放共享第1部分:总则 |
草案 |
总体专题组 |
20 |
20171068-T-469 |
信息技术大数据开放共享第2部分:政府数据开放共享基本要求 |
草案 |
总体专题组 |
21 |
20171069-T-469 |
信息技术大数据开放共享第3部分:开放程度评价 |
草案 |
总体专题组 |
22 |
20173818-T-469 |
信息技术大数据系统运维和管理功能要求 |
草案框架 |
产品平台专题组 |
23 |
20173819-T-469 |
信息技术大数据工业应用参考架构 |
草案框架 |
工业大数据专题组 |
24 |
20173820-T-469 |
信息技术大数据产品要素基本要求 |
草案框架 |
工业大数据专题组 |
工作组积极研究和参与大数据领域国际标准化工作,全面参与WG9和SC32相关工作。此外,工作组还重点关注NISTNBD-PWG大数据公共工作组,同时,对ITU的动态进行研究和跟踪。
2)全国信安标委大数据安全标准特别工作组
工作组组长由清华大学软件学院院长王建民教授担任,副组长为四川大学网络空间安全研究院常务副院长陈兴蜀教授,秘书为清华大学软件学院金涛博士。目前,工作组正在研制的国家标准有13项。
5.2.2行业及地方标准现状
中国通信标准化协会(英文译名为:China Communications StandardsAssociation,缩写为:CCSA)是国内开展通信技术领域标准化活动的非营利性法人社会团体。目前该协会有TC1WG6工作组专门从事大数据方面的标准化工作,重点研究大数据技术产品标准化,数据资产管理制度、工具,数据开放与流通交易相关等方面的标准规范。
6大数据标准体系(7123字)
总体来说,目前我国在大数据领域在基础术语、数据资源、交换共享、数据管理、大数据系统产品、工业大数据等方面已开展了国家标准研制工作。下一步需要加强大数据已有国家标准的推广应用,开展标准试点验证;同时深入调研大数据在各个行业中的标准化需求,开展工业大数据、政务大数据等领域的标准研制,全面推进大数据标准在各个行业中的支撑引领作用。
7我国大数据标准化工作建议(1421字)
8附件:成功案例(26094字)
-END-
参考文献(261字)
1.中国电子技术标准化研究院,全国信息技术标准化技术委员会大数据标准工作组.大数据标准化白皮书2018版,2018-04.
x.秦陇纪.数据简化社区Python官网Web框架概述;数据简化社区2018年全球数据库总结及18种主流数据库介绍;数据科学与大数据技术专业概论;人工智能研究现状及教育应用;信息社会的数据资源概论;纯文本数据溯源与简化之神经网络训练;大数据简化之技术体系.[EB/OL]数据简化DataSimp(微信公众号),http://www.datasimp.org,2017-06-06.
大数据标准化白皮书2018简版中国电子技术标准化研究院编(88410字)
秦陇纪
简介:大数据标准化白皮书2018简版中国电子技术标准化研究院编。(公号回复“数据标准2018”,文末“阅读原文”可下载35图10表90k字68页PDF报告)蓝色链接“数据简化DataSimp”关注后下方菜单项有文章分类页,欢迎转发、赞赏支持社区。编写单位:中国电子技术标准化研究院、全国信息技术标准化技术委员会大数据标准工作组。作者:多作。来源:大数据标准化白皮书2018版、数据简化社区秦陇纪微信群聊公众号,引文出处请看参考文献。主编译者:秦陇纪,数据简化社区、科学Sciences、知识简化新媒体创立者,数据简化OS架构师、C/Java/Python/Prolog程序员,IT教师。每天大量中英文阅读/设计开发调试/文章汇译编简化,时间精力人力有限,欢迎转发/赞赏/加入支持社区。版权声明:科普文章仅供学习研究,公开资料©版权归原作者,请勿用于商业非法目的。秦陇纪2018数据简化DataSimp综合汇译编,投稿合作,或出处有误、侵权、错误或疏漏(包括原文错误)等,请联系[email protected]沟通、指正、授权、删除等。欢迎转发:“数据简化DataSimp、科学Sciences、知识简化”新媒体聚集专业领域一线研究员;研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。秦陇纪发起未覆盖各领域,期待您参与~~强烈谴责超市银行、学校医院、政府公司肆意收集、滥用、倒卖公民姓名、身份证号手机号、单位家庭住址、生物信息等隐私数据!
Appx(845字).数据简化DataSimp社区简介
信息社会之数据、信息、知识、理论持续累积,远超个人认知学习的时间、精力和能力。应对大数据时代的数据爆炸、信息爆炸、知识爆炸,解决之道重在数据简化(DataSimplification):简化减少知识、媒体、社交数据,使信息、数据、知识越来越简单,符合人与设备的负荷。数据简化2018年会议(DS2018)聚焦数据简化技术(DataSimplificationtechniques):对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方ose做简化,应用于信息及数据系统、知识工程、各类PythonWeb框架、物理空间表征、生物医学数据,数学统计、自然语言处理、机器学习技术、人工智能等领域。欢迎投稿数据科学技术、简化实例相关论文提交电子版(最好有PDF格式)。填写申请表加入数据简化DataSimp社区成员,应至少一篇数据智能、编程开发IT文章:①高质量原创或翻译美欧数据科技论文;②社区网站义工或完善S圈型黑白静态和三彩色动态社区LOGO图标。论文投稿、加入数据简化社区,详情访问www.datasimp.org社区网站,网站维护请投会员邮箱[email protected]。请关注公众号“数据简化DataSimp”留言,或加微信QinlongGEcai(备注:姓名/单位-职务/学校-专业/手机号),免费加入投稿群或”科学Sciences学术文献”读者微信群等。长按下图“识别图中二维码”关注三个公众号(搜名称也行,关注后底部菜单有文章分类页链接):
数据技术公众号“数据简化DataSimp”:
科普公众号“科学Sciences”:
社会教育知识公众号“知识简化”:
(转载请写出处:©秦陇纪2010-2018汇译编,欢迎技术、传媒伙伴投稿、加入数据简化社区!“数据简化DataSimp、科学Sciences、知识简化”投稿反馈邮箱[email protected]。)
普及科学知识,分享到朋友圈
转发/留言/打赏后“阅读原文”下载PDF
微信扫一扫
关注该公众号