大数据与云计算复习笔记

第一讲 概述

1.计算的历史

1、手工计算

2、大型计算机

3、个人计算机

4、云计算

2.云计算的基础技术

1、虚拟化技术

2、分布式文化系统

3、海量数据存储技术

4、宽带网络与智能终端

3.云计算应用

1、电子商务

2、电子政务

3、教育及培训

4、影视/游戏/娱乐

5、技术行业

4.国外云计算代表公司

amazon:Amazon Web Services

Google:

Microsoft:Windows Azure

5.国内云计算企业

阿里巴巴、华为、百度智能云、腾讯云、京东智联云、天翼云

第二讲 云计算相关概念

1.大数据的特点

1、价值密度低

2、数据量大

3、快速

4、多样

5、有复杂度

2.大数据的分类

1、结构化数据:具有固定的结构,属性划分,以及类型等信息。例如职工信息表(有ID,Name等属性的划分)。

2、非结构化数据:无法用统一的结构来表示。例如文本文件,图像。

3、半结构化数据:具有一定的结构,但又有一定的灵活可变性。例如XML、HTML。

3.大数据的处理流程

1、数据采集:大数据的采集一般采用ETL( Extract-Transform-Load )工具负责将分布的、异构数据源中的数据如关系数据、平面数据以及其他非结构化数据等抽取到临时文件或数据库中。

2、数据清洗和预处理:采集好数据,肯定不少是重复或是无用的数据,此时需要对数据进行简单的清洗和预处理,使得不同来源的数据整合成一致的,适合数据分析算法和工具读取的数据,如数据去重、异常处理和数据归一化等,然后将这些数据存到大型分布式数据库或者分布式存储集群中。

3、数据统计分析和挖掘:统计分析需要用到工具来处理,比如SPSS工具、一些结构算法模型,进行分类汇总以满足各种数据分析需求。

与统计分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测效果,实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。

4、结果可视化:大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

4.大数据涉及的系统任务

1、大数据存储

2、大数据处理

3、大数据传输

4、大数据安全

5、大数据容灾备份

5.算力和超算

单核计算的天花板:Pentium IV

优点:多线程并行

缺点:软件架构/核间协调

6.云计算的定义

1、云计算与大数据的关系

在这里插入图片描述

2、云计算系统定义:云计算是一种基于互联网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云;云计算指的是厂商通过分布式计算和虚拟化技术搭建数据中心或超级计算机,以按需租用方式向技术开发者或者企业客户提供数据存储、分析以及科学计算等服务,比如亚马逊数据仓库出租生意;云计算的“云“就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),所有的处理都在云计算提供商所提供的计算机群来完成。

3、云计算的目的:将计算、服务和应用作为一种公共设施提供给公众,使人们能够像使用水、电、煤气和电话那样使用计算机资源。

4、云计算功能定义:云计算是一种商业计算模型,它通过服务器集群和网络,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

5、云计算技术定义:云计算是一种按需计算模型,它将计算任务分布在大量计算机构成的资源池上,通过计算虚拟化,提供可动态伸缩的廉价计算服务。

6、云计算与并行、分布式、网格和集群计算的区别

云计算是从集群技术发展而来,区别在于集群虽然把多台机器联了起来,但其某项具体任务执行的时候还是会被转发到某台服务器上,而云可以简单的认为是任务可以被分割成多个进程在多台服务器上并行计算,然后得到结果,好处在于大数据量的操作性能非常好。

云可以使用廉价的PC服务器 ,可以管理大数据与大集群,关键技术在于能够对云内的基础设施进行动态按需分配与管理。

云计算与并行计算、分布式计算的区别,以计算机用户来说,并行计算是由单个用户完成的,分布式计算是由多个用户合作完成的,云计算是没有用户参与,而是交给网络另一端的服务器完成的。

7、并行计算

并行计算主要解决大型且复杂的计算问题。并行计算可以划分成时间并行和空间并行。

(1)时间并行即流水线技术;

(2)空间并行使用多个处理器执行并发计算。主方向。

以程序和算法设计人员的角度看,并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务,处理起来比任务并行简单。

任务并行的难点:数据的一致性。

8、分布式计算

分布式计算,把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论。

目前常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输。如分析计算蛋白质的内部结构和相关药物的Folding@home项目。

9、并行计算与分布式计算的区别

紧耦合和同步:并行计算的任务包之间相互影响,要求每个的计算结果要绝对正确,而且在时间上要尽量做到同步。

松散耦合和异步:分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结果到服务器后要比较结果,然后对结果差异大的进行验证。

10、集群计算机

计算机集群将一组计算机软件或硬件连接起来高度紧密地协作完成计算工作。集群系统中的单个计算机通常称为节点,通常通过局域网连接。

集群可分为同构与异构两种(节点体系结构)。

集群计算机按功能和结构可以分为:

(1)高可用性集群(HA):当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。某节点进行离线维护再上线,也并不影响整个集群的运行。

(2)负载均衡集群:又称服务器群,通过一个或者多个前端负载均衡器,将工作负载分发到后端的一组服务器上。一般会同时具有高可用性与负载均衡的特点。

(3)高性能计算集群(HPC):主要用于科学计算,适合完成并行运算,在计算中各计算节点之间会发生大量数据通讯。

11、虚拟化技术

虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式,地域或物理组态所限制。

​ 在实际的生产环境中,虚拟化技术主要用来解决高性能的物理硬件产能过剩和老的旧的硬件产能过低的重组重用,透明化底层物理硬件,从而最大化的利用物理硬件。

12、云计算平台结构

在这里插入图片描述

7.云计算的特点

1、超大规模

2、虚拟化

3、高可靠性

4、通用性

5、高可伸缩性

6、按需服务

7、极其廉价

8.云计算系统分类

按服务类型大致分为三类:

1、将软件作为服务SaaS:SaaS服务提供商将应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,服务提供商根据客户所定软件的数量、时间的长短等因素收费,并且通过浏览器向客户提供软件的模式。例如Salesforce online CRM

2、将平台作为服务PaaS:这是一种分布式平台服务,厂商提供开发环境、服务器平台、硬件资源等服务给客户,用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户。对资源的抽象层次更进一步,提供用户应用程序运行环境。例如Google App Engine、Microsoft Windows Azure

3、将基础设施作为服务IaaS:IaaS即把厂商的由多台服务器组成的“云端”基础设施,作为计量服务提供给客户。它将内存、I/O设备、存储和计算能力整合成一个虚拟的资源池为整个业界提供所需要的存储资源和虚拟化服务器等服务。例如Amazon EC2/S3

第三讲 历史与现状

1.云计算发展阶段

1、物理机

2、虚拟机

3、容器

2.互联网发展的阶段

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.公有云和私有云,开源云

1、公有云: 对外提供服务的云计算平台

如 Google云, 阿里云等

2、私有云: 企业或机构自建的自己用的云计算平台

如: 政务云, 公司的内网, 大学的财务系统等

3、混合云:融合了公有云和私有云,是近年来云计算的主要模式和发展方向。

4、开源云: 可以用来搭建云计算平台的开源云架构

如 Hadoop,Spark,OpenStack等

4.国外云计算平台

1、Amazon Web Services

使用流程:

l注册亚马逊账户,填写注册信息,登录。

l根据需要选择需要的服务进行注册,填写相关信息,完成服务配置。

l上传应用程序或待处理数据,有时需要按要求上传附加程序。

l运行服务,直至获取结果。

l停止使用,根据实际使用量支付相关费用。

2、Google App Engine

使用流程:

l注册Google账户,填写注册信息,登录。

l创建Google App Engine应用,通过手机号码完成验证,填写应用的详细信息。

l下载App Engine SDK。

l使用Python或Java语言在本地开发应用程序,并完成本地调试。

l将程序上传到Google App Engine后运行。

3、Microsoft Azure

使用流程:

l在Azure页面上输入Live ID,注册Azure账号,填写注册信息,登录。

l在项目列表中选择“Windows Azure”,然后在新建服务向导中选择“托管服务”。

l在本地新建“cloud”类型项目,编写应用程序并完成调试。

l创建应用程序服务包,将服务包上传到Windows Azure上,设定URL地址,选择“部署”,选择“运行”。

停止使用,根据实际使用量支付相关费用。

5.主流商业云方案比较

在这里插入图片描述

1、体系结构

同:整个云计算平台对外提供统一的Web接口;后台实现的细节对用户透明。

异:Google的云计算服务相对简单,没有实现多个服务的单独入口;微软的云计算不仅支持云端应用程序,还支持本地的应用程序。

2、实现技术

Google App Engine

分为GFS、MapReduce、Bigtable和Chubby四个相互独立却又紧密联系的组成部分。

Amazon AWS

在Dynamo基础上,Amazon设计了EC2、S3、SimpDB等计算、存储、数据库服务,并积极地引入已有的先进技术。

微软Azure

通过在虚拟机上运行Windows Server 2008、基于SQL Server实现SQL Azure等方式构建云计算系统。

VMware vCloud

在底层,VMware开发了云操作系统vSphere,在vSphere之上,VMware又开发了vCloud Service Director, VMware还提供了桌面虚拟化产品VMware View。

3、服务环境

在这里插入图片描述
4、文件系统

在这里插入图片描述

5、数据库系统

在这里插入图片描述

6.国内云计算平台

1、阿里云

ECS是阿里云提供的一种基础云计算服务,使用前无需提前采购硬件设备,而是根据业务需要,随时创建所需数量的云服务器ECS实例。在使用过程中,随着业务发展,可随时扩容磁盘、增加带宽。如果不再需要云服务器,也能随时释放资源,节省费用。

弹性裸金属服务器-神龙架构(X-Dragon)支持第三方虚拟化

2、华为云

虚拟私有云(VPC)是一个公共云计算资源的动态配置池,需要使用加密协议、隧道协议和其他安全程序,在民营企业和云服务提供商之间传输数据。一个VPC基本上把提供商的多租户架构变成单租户架构。

CDN(Content Delivery Network,内容分发网络)是构建在现有互联网基础之上的一层智能虚拟网络,通过在网络各处部署节点服务器,实现将源站内容分发至所有CDN节点,使用户可以就近获得所需的内容。CDN服务缩短了用户查看内容的访问延迟,提高了用户访问网站的响应速度与网站的可用性,解决了网络带宽小、用户访问量大、网点分布不均等问题。

3、百度云

GPU****使用场景

如果您是深度学习的初学者或初创公司,我们向您推荐性价比最高的NVIDIA****深度学习开发卡,在创建GPU云服务器时再配合**集成GPU驱动镜像**进行使用,能帮助您快速完成环境部署和Training实验。

针对深度学习的离线训练场景,如果您是深度学习的重度用户,周期性有大量数据需要训练,我们向您推荐性能和稳定性更好的NVIDIA Tesla P40,如果您对性能有极致的要求,更可选择支持Tensor Core功能的NVIDIA Tesla V100英伟达最新GPU卡。并可以选择按需使用,训练结束后即可将资源释放节省成本,同时通过自定义镜像功能,快速完成GPU云服务器的服务部署和搭建。

针对深度学习的在线预测场景,相比离线训练对GPU性能的要求降低,但对运行稳定性要求更高,对服务器响应延时也有了更高要求,所以我们向您推荐NVIDIA Tesla P4 在满足性能要求的同时,提供更具性价比的选择。

让您对离线训练能力的要求超高时,也可以来申请**GPU物理服务器,可以为您提供具备100G网络互联**的GPU集群,帮您提速训练任务。

4、腾讯云

(1)FPGA开发门槛高、开源的优质IP比较缺乏、芯片价格昂贵等问题。

腾讯云FPGA平台提供了FPGA的底层硬件支撑平台,类似操作系统的部分功能,简化了开发者对底层通用设备的访问,比如DDR和PCIE这些通用设备,可以使开发者更聚焦到业务功能的开发。

(2)FPGA 行业内的IP提供者和使用者缺乏一个公开的交易平台和信用保证机制,IP交易环节冗长,价格不透明,很难达成交易,获取 IP 后还需要搭建硬件平台来验证IP性能,这些都严重影响产品上市进程,经常耗时几个月之久。腾讯云提供了FPGA IP商店,IP开发者和IP提供商可以通过FPGA IP商店为其他客户无偿或有偿地提供FPGA IP和对应的测试程序。

(3)针对一些希望使用低延时的高质量计算服务的小型公司而言,可以使用FPGA云计算加速服务,不用耗费大量人力进行高性能计算方面的开发,很简单地就可以把高性能的云计算服务集成到自己的网络平台,达到提升用户体验的目的。

(4)对于学校的FPGA教学而言,以前学校需要为每个学生购买一个开发板卡,有了腾讯云平台之后可以节省学校购买开发板的成本,现在只需要给每个学生申请一个FPGA云平台的账户即可,学生登录上去直接可以根据demo进行学习开发即可。

第四讲 云计算系统技术

1.云计算架构

前端指用户的计算机或客户端,包括用户计算机(或计算机网络)以及云计算系统登陆程序。不同的云计算系统具有不同的用户界面。以网络为基础的邮件系统一般都借助IE或Firefox等网络浏览器登陆。其他云计算系统具有各自不同的登陆程序,用户可以运行登陆程序接入网络。

计算机后端是各种各样的计算机、服务器和数据存储系统,它们共同组成了云计算系统中的“云”。理论上,从数据处理到视频游戏,只要您能想到的计算机程序,云计算系统都能运行。一般来说,每个应用程序都有其专用的服务器。

二者通过互联网相互连接。

2.云计算体系结构

1、SOA构建层:封装云计算能力成标准的Web Services服务,并纳入到SOA体系。

2、管理中间件层:云计算的资源管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务。

3、物理资源层:计算机、存储器、网络设施、数据库和软件等 。

4、资源池层:将大量相同类型的资源构成同构或接近同构的资源池。

管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。

其中管理中间件层又分为四个部分:

1、资源管理:均衡使用云资源节点,检测节点故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计 。

2、任务管理:执行用户或应用提交的任务,包括完 成用户任务映象(Image)的部署和管理、任务调度、任务执行、任务生 命期管理等 。

3、用户管理:实现云计算商业模式的一个必不可

少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等 。

4、安全管理:保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等 。

3.简化的laas实现机制

在这里插入图片描述

4.MapReduce编程模型

为了使云计算环境下的编程十分简单,Google开发了java、Python、C++编程工具MapReduce,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。

MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。

5.Spark分布式内存计算框架

Spark是一个基于内存计算、用来实现高效集群计算的平台。Spark是一个大数据并行计算框架,是对MapReduce计算模型的扩展。

Spark有着自己的生态系统,但同时兼容HDFS、Hive等分布式存储系统,可以完美融入Hadoop的生态圈中,代替MapReduce去进行更为高效的分布式计算。

6.海量数据分布存储技术

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。

一个GFS集群由一个主服务器和大量的块服务器构成,并被许多客户访问。主服务器存储文件系统所有的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统中保存3个以上备份。

客户与主服务器的交换只限于对元数据的操作,所有数据方面的通信都直接和块服务器联系,这大大提高了系统的效率,防止主服务器负载过重。

GFS将整个系统节点分为三类角色:客户端(GFS提供给应用程序的访问接口,以库文件的形式提供)、主服务器(GFS的管理节点,负责整个文件系统的管理)、数据块服务器(负责具体的存储工作)

元数据集中管理, 数据无缓存机制

7.海量数据管理技术

云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。

BT是一个大型的分布式数据库,与传统的关系数据库不同,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据。

Google的很多项目使用BT来存储数据,包括网页查询,Google earth和Google金融。这些应用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图象)不同,反应速度不同(从后端的大批处理到实时数据服务)。对于不同的要求,BT都成功的提供了灵活高效的服务。

Bigtable设计动机:

1、需要存储的数据种类繁多

2、海量的服务请求

3、商用数据库无法满足需求

目标:

1、广泛的适用性

2、很强的可扩展性

3、高可用性

4、简单性

8.云计算平台管理技术

云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。

云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。

9.虚拟化技术

通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分成计算虚拟化、存储虚拟化、网络虚拟化、服务器虚拟化等,计算虚拟化又分为系统级虚拟化、应用级虚拟化和桌面虚拟化。

10.云计算安全技术

1、规则和制度(访问控制和口令权限)

2、防攻击技术(如DDOS)

3、安全审计 日志管理(访问记录,登录记录,失败访问,操作记录,系统日志的访问)

4、加密技术(DES, AES,RSA)

第五讲 云计算系统数据安全

1.数据安全

1、基础设施安全

2、数据管理安全

3、数据隐私

4、安全验证和监控

2.数据加密技术

1、对称密码:对称密码的特征是加密密钥和解密密钥相同。对称密码不仅可用于数据加密,也可用于消息的认证,美国国家标局颁布的DES/AES算法。

2、非对称密码:非对称密码(公钥密码体制)的特征是加密密钥与解密密钥不同,而且很难从一个推出另一个。两个密钥形成一个密钥对,一个密钥用于加密,另一个密钥用于解密。非对称密码算法基于数学问题求解的困难性,而不再是基于代替和换位方法;另外,非对称密码使用两个独立的密钥,一个可以公开,称为公钥,另一个不能公开,称为私钥。

3、RSA原理

ed≡1 (mod φ(N))。 只有知道e和φ(N),才能算出d。

φ(N)=(p-1)(q-1)。 只有知道p和q,才能算出φ(N)。

N=pq。 只有将N因数分解,才能算出p和q。

​ e是1和φ(N)之间的一个质数

(N, e)封装成公钥,(N, d)封装成私钥。

假设m为明文,加密就是算出密文c:

m^e mod N = c (明文m用公钥e加密并和随机数N取余得到密文c)

解密则是:

c^d mod N = m (密文c用密钥解密并和随机数N取余得到明文m)

以下是基础设施安全

3.认证技术

认证是阻止非法实施信息攻击的一种技术,其作用为:

(1)消息完整性认证,验证信息在传输或存储过程中是否被篡改;

(2)身份认证,验证消息的收发者是否持有正确的身份认证符,如口令、密钥;(3) 消息序号和操作时间(时间性)等认证,防止消息重放或会话劫持等攻击。

认证系统分为三个层次:安全管理协议、认证体制和密码体制。

认证系统必须考虑下列因素:

(1)接收者能够验证消息的真实性、完整性以及合法性。

(2)消息的发送者不能抵赖发出的消息,消息的接收者不能否认接收的消息。

(3)只有合法的发送者可以发送消息,其他人不能伪造消息发送。

认证体制相关技术包括数字签名,消息认证和身份认证

4.访问控制

访问控制技术是指为了实现访问控制所采取的管理措施。访问控制受操作系统指挥,按照访问控制规则决定主体是否可以访问客体,在系统工作的所有过程都有体现。

5.公钥基础设施(PKI)

PKI是一个依据公钥密码原理来提供公共安全服务支持的基础平台,用户可利用PKI平台提供的安全服务进行安全通信认证。

以下是数据管理安全

6.数据溯源

数据溯源技术对数据平台中的明细数据、汇总数据使用后中各项数据的产生来源、处理、传播和消亡进行历史追踪。

数据平台数据溯源的原则:

1.数据平台须确保对个人数据操作的可追溯。

2.要求跟踪并监控对数据平台资源和持权限人数据的所有访问,记录机制和用户活动跟踪功能对防止、检测和最大程度降低数据威胁很重要。

7.数字水印

数字水印技术指将特定的标识信息嵌入到宿主数据中(文本文件、图片、视频等),而且不影响宿主数据的可用性。数字水印分为可见水印和不可见水印两种

数字水印的设计原则:

  1. 嵌入的水印信息应当难以篡改,难以伪造。

  2. 嵌入的水印信息不能影响宿主数据(保护对象)的可用性,或者导致可用性

大大降低。

  1. 数字水印要求具有不可移除性,即被嵌入的水印信息不容易甚至不可能被

黑客移除。

  1. 数字水印要求具有一定的鲁棒性,当对嵌入后的数据进行特定操作后,所

嵌入的水印信息不能因为特定操作而磨灭。

8.策略管理

9.完整性保护

10.数据脱敏

以下是安全分析

11.DDoS攻击

DDoS攻击

DDoS 全称分布式拒绝服务。攻击者以瘫痪网络服务为直接目的,以耗尽网络设施(服务器,防火墙,入侵防御系统IPS,路由器接口)性能为手段,利用网络中分布的傀儡主机向目标设施发送恶意攻击流量。

(1)攻击目的

从直接动机上来看,攻击者使用 DDoS 攻击的主要目标有三种:

a. 耗尽服务器性能(包括内存,CPU,缓存等资源),导致服务中断

b. 阻塞网络带宽,导致大量丢包,影响正常业务

c. 攻击防火墙,IPS设备等网络设施,占用其会话和处理性能,使正常转发受阻

( 2) 攻击手段

​ 传输层攻击; 应用层攻击;攻击辅助行为

以下是隐私保护

12.隐私保护面临的挑战

1)消费者知情权;个人数据的控制能力;

2)数据转移给第三方进行二次使用问题;

3)匹配政府的法律法规及各行业标准的要求并快速响应大数据的商业诉求

4)云计算涉及庞大的用户数据的存储和分发,在云计算的数据安全技术中,核心问题:

云存储系统的安全性;

用户数据的私密性;

加密技术相关的系统负载。

13.内容关联密钥技术

特点:

(1)这种新机理的密钥的数据量不是由计算复杂度决定的,而是由其对数据文件应用的重要性决定的。

在可控性价比下(终端资源和加密性能),可以采用很长的密钥(数十KB 或 数十MB),所以抗暴力破解能力很强。

(2)由于文件数据的离散性,不同数据文件的密钥没有任何关联性

(3)在隐私保护方面,这种新的安全机理不会增加大数据存储系统负载。

第六讲 服务器虚拟化

1.虚拟化技术简介

虚拟化技术的核心思想是利用软件或固件管理程序构成虚拟化层,把物理资源映射为虚拟资源。在虚拟资源上可以安装和部署多个虚拟机,实现多用户共享物理资源。虚拟化技术是伴随着计算机的出现而产生和发展起来的,虚拟化意味着对计算机资源的抽象。虚拟化技术已经成为构建云计算环境的一项关键技术。

2.服务器虚拟化的层次

1、服务器虚拟化的思路:OS虚拟化、寄居虚拟化、裸机虚拟化

2、针对VMM无法直接捕获特权指令的解决方案:完全虚拟化、半虚拟化

3.服务器虚拟化的底层实现

1、CPU虚拟化:将物理CPU抽象为虚拟CPU。

2、内存虚拟化:把物理内存统一管理,包装成多个虚拟的物理内存提供给若干虚拟机使用,每个虚拟机拥有各自独立的内存空间。

3、I/O设备虚拟化:把真实的设备统一管理起来,包装成多个虚拟设备给若干个虚拟机使用,响应每个虚拟机的设备访问请求和I/O请求。

其中I/O设备虚拟化又分为全虚拟化、半虚拟化、软件模拟。

4.虚拟机迁移

1、定义:

虚拟机迁移是将虚拟机实例从源宿主机迁移到目标宿主机,并且在目标宿主机上能够将虚拟机运行状态恢复到其在迁移之前相同的状态,以便能够继续完成应用程序的任务。

2、实时迁移:

实时迁移(LiveMigration),就是保持虚拟机运行的同时,把它从一个计算机迁移到另一个计算机,并在目的计算机恢复运行的技术。

3、步骤

预迁移->预定资源->预复制->停机复制->提交->启动

4、阶段

push->Stop-and-Copy->Pull

实际上,迁移内存没有必要同时包含上述三个阶段,目前大部分的迁移策略只包含其中的一个或者两个阶段。

5、迁移方案

迁移方案 优势与劣势
Stop-and-Copy l方法比较简单 l总迁移时间也最短 l停机时间无法接受
Stop-and-Copy和Pull阶段结合 l停机时间很短 l总迁移时间很长 lPull阶段复制造成的性能下降
Push和Stop-and-Copy阶段结合 l平衡了停机时间和总迁移时间之间的矛盾 l需要有一种算法能够测定工作集,以避免反复重传 l可能会占用大量的网络带宽,对其他服务造成影响

5.隔离技术

1、定义:

虚拟机隔离是指虚拟机之间在没有授权许可的情况下,互相之间不可通信、不可联系的一种技术。

2、隔离机制

l网络隔离;

l构建虚拟机安全文件防护网;

l基于访问控制的逻辑隔离机制;

l通过硬件虚拟,让每个虚拟机无法突破虚拟机管理器给出的资源限制;

l硬件提供的内存保护机制;

l进程地址空间的保护机制,IP地址隔离。

3、内存隔离

虚拟内存和机器内存之间有为物理内存,将这层中间地址真正地映射到机器地址上却可以是不连续的,这样保证了所有的物理内存可被任意分配给不同的Guest OS。

4、网络隔离

确保把有害的攻击隔离,在可信网络之外和保证可信网络内部信息不外泄的前提下,完成网间数据的安全交换。

网络隔离的关键在于系统对通信数据的控制,即通过不可路由的协议来完成网间的数据交换。

5、VMotion

VMotion是VMware用于在数据中心的服务器之间进行虚拟机迁移的技术。

虚拟机迁移过程中主要采用三项技术

① 将虚拟机状态信息压缩存储在共享存储器的文件中

② 将虚拟机的动态内存和执行状态通过高速网络在源ESX服务器和目标ESX服务器之间快速传输

③ 虚拟化网络以确保在迁移后虚拟机的网络身份和连接能保留

第七讲 存储虚拟化

1、存储虚拟化定义

通过对存储(子)系统或存储服务的内部功能进行抽象、隐藏或隔离,使存储或数据的管理与应用、服务器、网络资源的管理分离,从而实现应用和网络的独立管理。

2、目的

提高设备使用效率、统一数据管理功能、设备构件化、降低管理难度、提高可扩展性、数据跨设备流动

3、实现结果

块虚拟化

•1、块虚拟化是指对多块硬盘建立RAID,划分逻辑卷(LUN)。

•2、每个逻辑卷对于使用者都完全等同于一块物理硬盘。物理上来说,这个逻辑卷的所有数据块,都是通过RAID处理,分布在不同的物理硬盘上。

•3、块虚拟化的结果是使存储的使用者无须关心RAID实现的具体过程,只要象读写普通硬盘一样读写这个逻辑卷,就能获得RAID对数据的保护功能。

磁盘虚拟化

•1. 磁盘扇区的物理地址一般用C-H-S(柱面号-磁头号-扇区号)表示

•2. 磁盘虚拟化就是将扇区地址用LBA(逻辑块地址)表示,屏蔽底层物理磁盘的概念

•3. 磁盘虚拟由磁盘自身固件完成

•4. 磁盘虚拟化的结果是使磁盘的使用者无须了解磁盘的内部硬件细节,通过块地址就可以访问磁盘

磁带、磁带驱动器、磁带库虚拟化

•1.采用类似RAID的技术对多盘磁带进行条带化和校验,以期提高磁带使用的可靠性和性能

•2.由于磁带读写缓慢,难以满足条带和校验的需要,因此RAIT技术很少使用

4、实现位置

基于主机

使服务器的存储空间可以跨越多个异构的磁盘阵列,常用于在不同磁盘阵列之间做数据镜像保护。

基于存储设备

在同一存储设备内部,进行数据保护和数据迁移。

基于网络

异构存储系统整合和统一数据管理。

5、实现方式

带内虚拟化

l异构存储系统整合

l 统一数据管理,在业务运行同时完成复制、镜像、CDP等各种数据管理功能

带外虚拟化

一般用于不同存储设备之间的数据复制

6.应用难点

1、数据状态的一致性保证

2、多存储访问协议支持

3、存储多链路负载均衡

4、主机多链路负载均衡

5、统一数据管理功能

7.计算云和存储云

1、计算云: 通过互联网或内部网提供给云用户的是一个可扩展的弹性的服务器(物理或虚拟), 存储对用户是透明的。

2、存储云:通过互联网或内部网提供给云用户的是一个可扩展的弹性的存储或数据服务,物理存储设备对用户是透明的。

第八讲 网络虚拟化

1.网络架构

改进型树结构 VL2

l在VL2中,IP****地址仅仅作为名字使用,没有拓扑含义

lVL2的寻址机制将服务器的名字与其位置分开

lVL2使用可扩展、可靠的目录系统来维持名字和位置间的映射。

l当服务器发送分组时,服务器上的VL2代理开启目录系统以得到实际的目的位置,然后将分组发送到目的地

lVL2是目前最易用于对现有数据中心网络改造的结构,但VL2依赖于中心化的基础设施来实现2层语义和资源整合,面临单点失效和扩展性问题。

2.核心层网络虚拟化

主要指的是数据中心核心网络设备的虚拟化。

要求:

1、核心层网络具备超大规模的数据交换能力

2、足够的万兆接入能力

3.接入层网络虚拟化

可以实现数据中心接入层的分级设计。根据数据中心的走线要求,接入层交换机要求能够支持各种灵活的部署方式和新的以太网技术。

4.虚拟机网络虚拟化

虚拟机网络交互需要实现以下功能:

1、虚拟机的双向访问控制和流量监控,包括深度包检测、端口镜像、端口远程镜像、流量统计。

2、虚拟机的网络属性应包括VLAN、QoS、ACL、带宽等。

3、虚拟机的网络属性可以跟随虚拟机的迁移而动态迁移,不需要人工干预或静态配置,从而在虚拟机扩展和迁移过程中,保障业务的持续性。

4、虚拟机迁移时,与虚拟机相关的资源配置,如存储、网络配置也随之迁移。同时保证迁移过程中业务不中断。

5.VMware的网络虚拟化技术

1、VMware的网络虚拟化技术主要是通过VMware vSphere中的vNetwork网络元素实现的。

2、虚拟网络接口卡

l每个虚拟机都可以配置一个或者多个虚拟网络接口卡vNIC。

l安装在虚拟机上的客户操作系统和应用程序利用通用的设备驱动程序与vNIC进行通信。

l在虚拟机的外部,vNIC拥有独立的MAC地址以及一个或多个IP地址,且遵守标准的以太网协议。

3、虚拟交换机vSwitch

l虚拟交换机用来满足不同的虚拟机管理界面进行互连。

l每台服务器都有自己的虚拟交换机。

l虚拟交换机的一端是与虚拟机相连的端口组,另一端是与虚拟机所在服务器上的物理以太网适配器相连的上行链路

l虚拟机通过与虚拟交换机上行链路相连的物理以太网适配器与外部环境连接。

l虚拟交换机可将其上行链路连接到多个物理以太网适配器以启用网卡绑定

l通过网卡绑定,两个或多个物理适配器可用于分摊流量负载,或在出现物理适配器硬件故障或网络故障时提供被动故障切换。

4、分布式交换机

vNetwork分布式交换机(dvSwitch)是vSphere的新功能。每个dvSwitch都是一种可供虚拟机使用的网络集线器。

5、VLAN

VLAN支持将虚拟网络与物理网络VLAN集成。

l专用VLAN可以在专用网络中使用VLAN ID,而不必担心VLAN ID在较大型的网络中会出现重复。

l流量调整定义平均带宽、峰值带宽和流量突发大小的QOS策略,设置策略以改进流量管理。

l网卡绑定为个别端口组或网络设置网卡绑定策略,以分摊流量负载或在出现硬件故障时提供故障切换。

猜你喜欢

转载自blog.csdn.net/qq_41936799/article/details/106988725
今日推荐