曙光睿翼杯参赛小记

被一个朋友拉去参加了曙光睿翼杯,最后到了重庆区域的决赛,抢答器有点问题,抢答环节很多题都没有抢到参赛的学校都挺厉害的,最后我们队伍拿了个区域二等奖,在参赛的过程中学到了不少东西。
下面是我参赛的时候对一些大数据知识点的总结,如果有不足的地方请师傅们指出来。


通俗地说,大数据其实是一种在互联网时代或信息时代的企业现象

结构化数据,
简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

半结构化数据(semi-structured data)。
和普通纯文本相比,半结构化数据具有一定的结构性,OEM(Object exchange Model)是一种典型的半结构化数据模型。
在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。
比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等;我们就会建立一个对应的staff表。

非结构化数据
是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

传感数据
是由感知设备或传感设备感受、测量及传输的数据。感知设备或传感设备可以包括1个或多个传感器。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源在物联网中。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据。传感数据可以用于数据分析。

tpezy
1TB (Tera byte 万亿字节 太字节)=1024GB,其中1024=2^10
1PB(Peta byte 千万亿字节 拍字节)=1024TB,
1EB(Exa byte 百亿亿字节 艾字节)=1024PB,
1ZB (Zetta byte 十万亿亿字节 泽字节)= 1024 EB,
1YB (Yotta byte 一亿亿亿字节 尧字节)= 1024 ZB,

二元属性(binary attribute)
是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。

例2.2 二元属性。倘若属性smoker描述患者对象,411表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。

一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即,关于哪个结果应该用0或1编码并无偏好。这样的例子如具有男和女这两种状态的属性gender(性别)。

标称属性

标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。

例2.1 标称属性。假设hair_color(头发颜色)和marital_status(婚姻状况)是两个描述人的属性。在我们的应用中,hair_color的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。属性marital_status的取值可以是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。

科学可视化
(英语:scientific visualization 或 scientific visualisation)是科学之中的一个跨学科研究与应用领域,主要关注的是三维现象的可视化,如建筑学、气象学、医学或生物学方面的各种系统。重点在于对体、面以及光源等等的逼真渲染,或许甚至还包括某种动态成分。
从标量场数据发展到矢量场数据和丈量场数据的可视化,我们对于新的可视化手段的需求不断提高

定量属性
是指以数量形式存在着的属性,并因此可以对其进行测量。测量的结果用一个具体的量(称为单位)和一个数的乘积来表示。以物理量为例,距离、质量、时间等都是定量属性。很多在社会科学中考查到的属性,比如能力、人格特征等,也都被视作定量的属性来进行研究。

连续属性和离散属性:
比如硬币只有 0.1 两种情况,就叫离散值,而人的身高有无数种情况,就叫连续值。离散值是确定的一些值,连续值是无序,有范围的
(温度 连续属性)

序数属性(ordinal attribute)
是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。

例2.3 序数属性。假设drink_size对应于快食店供应的饮料量。这个标称属性具有3个可能的值——小、中、大。这些值具有有意义的先后次序(对应于递增的饮料量)。然而,例如我们不能说“大”比“中”大多少。序数属性的其他例子包括grade(成绩,例如A+、A、A-、B+等)和professional_rank(职位)。职位可以按顺序枚举,如对于教师有助教、讲师、副教授和教授,对于军阶有列兵、一等兵、专业军士、下士、中士等。

关系数据库,
是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据,同时也是一个被组织成一组拥有正式描述性的表格,该形式的表格作用的实质是装载着数据项的特殊收集体,这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。

目前关系数据库是数据库应用的主流,许多数据库管理系统的数据模型都是基于关系数据模型开发的。
1)关系数据库:在一个给定的应用领域中,所有实体及实体之间联系的集合构成一个关系数据库。
2)关系数据库的型与值:关系数据库的型称为关系数据库模式,是对关系数据库的描述,若干域的定义,在这些域上定义的若干关系模式;关系数据库的值是这些关系模式在某一时刻对应的关系的集合,通常简称为关系数据库。

关系实际上是一张二维表,表的每一行是一个元素,每一列是一项属性,而一个元组就是该关系所涉及的属性集的笛卡尔积的一个元素.

一个关系模式应当是一个5元组.定义关系的描述称为关系模式).它可以形式化地表示为:R(U,D,dom,F) 其中R为关系名,U为组成该关系的属性名集合,D为属性组U中属性所来自的域,dom为属性向域的映象集合,F为属性间数据的依赖关系集合.

关系模式是静态的,比如我们看到的一张二维表的表头,即有哪些列构成,每个列的名称,类型啊长度等等;

关系是动态的,就是一张二维表的具体内容,就是除了标题行以外的数据行,因为表数据经常被修改,插入,删除,所以不同时刻,关系可能不一样。其实,关系就是数学中的集合了,每一行就是集合中的一个元素。

数据模型是数据库系统的核心和基础!!!
“数据库管理系统是数据库系统的核心组成部分”!!!

在数据库中储存的是数据以及数据之间的联系
(在题目中这里是选择 数据库中储存的是数值)

数据库一般不存媒体文件。
而是以字符形式存文件在服务器上的绝对或相对路径,。

关系模式是对关系 元组和属性 的描述

ACID原则
是数据库事务正常执行的四个,分别指原子性、一致性、独立性及持久性
事务的原子性(Atomicity)是指一个事务要么全部执行,要么不执行.也就是说一个事务不可能只执行了一半就停止了.比如你从取款机取钱,这个事务可以分成两个步骤:1划卡,2出钱.不可能划了卡,而钱却没出来.这两步必须同时完成.要么就不完成.
事务的一致性(Consistency)是指事务的运行并不改变数据库中数据的一致性.例如,完整性约束了a+b=10,一个事务改变了a,那么b也应该随之改变.
独立性(Isolation):事务的独立性也有称作隔离性,是指两个以上的事务不会出现交错执行的状态.因为这样可能会导致数据不一致.
持久性(Durability):事务的持久性是指事务执行成功以后,该事务对数据库所作的更改便是持久的保存在数据库之中,不会无缘无故的回滚.

tair 是淘宝自己开发的一个分布式 key/value 存储引擎.
tair 分为持久化和非持久化两种使用方式. 非持久化的 tair可以看成是一个分布式缓存. 持久化的 tair 将数据存放于磁盘中. 为了解决磁盘损坏导致数据丢失, tair 可以配置数据的备份数目,tair 自动将一份数据的不同备份放到不同的主机上, 当有主机发生异常, 无法正常提供服务的时候, 其于的备份会继续提供服务.

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

HBase是一个分布式的、面向列的开源数据库,
该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

OceanBase是阿里集团研发的可扩展的关系数据库,
实现了数千亿条记录、数百TB数据上的跨行跨表事务,截止到2012年8月,支持了收藏夹、直通车报表、天猫评价等OLTP和OLAP在线业务,线上数据量已经超过一千亿条。

视觉中国
在视觉中国成立之初,他们选用的数据库是MySQL,09年之后他们才选用了MongoDB作为系统的支撑数据库。

国内外应用案例:
目前Google、Yahoo、Facebook、Twitter、Amazon都在大量应用NoSQL型数据库(NoSQL,泛指非关系型的数据库。)
NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
总的来说,在设计上,它们非常关注对数据高并发地读写和对海量数据的存储等,与关系型数据库相比,它们在架构和数据模型方量面做了”减法”,而在扩展和并发等方面做了”加法”。
目前新浪微博是Redis全球最大的用户,在新浪有200多台物理机,400多个端口正在运行着Redis, 有+4G的数据跑在Redis上来为微博用户提供服务。
Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。
目前优酷的在线评论业务已部分迁移到MongoDB,运营数据分析及挖掘处理目前在使用Hadoop/HBase;在Key-Value产品方面,它也在寻找更优的 Memcached替代品,如Redis,相对于Memcached,除了对Value的存储支持三种不同的数据结构外,同一个Key的Value进行部分更新也会更适合一些对Value频繁修改的在线业务;同时在搜索产品中应用了Tokyo Tyrant;对于Cassandra等产品也进行过研究。

BeansDB(豆瓣开源数据存储系统),
豆瓣公司以New BSD许可证发布了分布式key/value存储系统BeansDB,开发者称BeansDB是简化版的Dynamo,Dynamo是亚马逊公司开发的高可用性key/value存储系统。

NewSQL 是对各种新的可扩展/高性能数据库的简称,
这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。
NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性(scalable and ACID and (relational and/or sql -access))。

现有NewSQL系统厂商举例
包括(顺序随机)Clustrix、GenieDB、ScalArc、Schooner、VoltDB、RethinkDB、ScaleDB、Akiban、CodeFutures、ScaleBase、Translattice和NimbusDB,以及 Drizzle、带有 NDB的 MySQL 集群和带有HandlerSocket的MySQL。后者包括Tokutek和JustOne DB。相关的“NewSQL作为一种服务”类别包括亚马逊关系数据库服务,微软SQLAzure,Xeround和FathomDB。

BigTable、GFS、MapReduce这传说中的谷歌分布式三驾马车,
虽然谷歌没有公开具体实现代码,但却公布了相应论文,对分布式文件系统、大数据挖掘和NoSQL流行起了重大促进作用,开源界相对应产品是Hbase、HDFS、Hadoop;距谷歌这三篇论文发表已近10年,谷歌内部这三驾马车也在更新换代:

GoogleSpanner是谷歌研发的可横向扩展的、支持多版本的、可在全球范围进行分布式部署的、同步进行数据复制的分布式数据库

VoltDB,一个内存数据库,
提供了 NoSQL 数据库的可伸缩性和传统关系数据库系统的 ACID 一致性。我们将设计数据库表并对其进行分区,使用 Java代码编写的存储过程来存储和检索数据。我们还将了解 VoltCache,这是一种构建于 VoltDB 之上的键值存储。
Oracle Database,又名Oracle RDBMS,或简称Oracle。
是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的 适应高吞吐量的数据库解决方案。

sybase
美国Sybase公司研制的一种关系型数据库系统,
什么是TokuDB
TokuDB是一个支持事务的MySQL引擎,拥有出色的数据压缩能力和极低的资源消耗。

NoSQL数据库在以下的这几种情况下比较适用:
(NoSQL数据库 非关系型数据库)
1、数据模型比较简单;
2、需要灵活性更强的IT系统;
3、对数据库性能要求较高;
4、不需要高度的数据一致性;
5、对于给定key,比较容易映射复杂值的环境。

数据挖掘(Data mining)
又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘
数据挖掘涉及数据融合、数据分析和决策分析和决策支持等内容
数据源必须是真实的、大量的、含有噪声的和用户感兴趣的数据

面对复杂数据 数据挖掘的基本流程是,首先对原始数据进行填补遗漏,消除异常,平滑噪声等处理,提高数据挖掘的有效性和准确性,然后使用专门的算法对原始数据进行归纳抽象,去掉取之过多且不均匀的属性和概念层次书中不存在的属性,最终得到一个关系模型,当新的数据加入数据集中时,可以根据该关系模型决定新数据的分类和处理模式,同时,新数据也将带来对整体模型的变化,数据和模型处于动态对应的状态

所谓数据挖掘 就是一个典型的数学建模过程

舆情监测
是对互联网上公众的言论和观点进行监视和预测的行为。这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
具体上讲,舆情监测是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。行业化、服务化是舆情监测分析的发展趋势,将文本分类、文本聚类、文本摘要、倾向性分析等结合语料库和知识库,建立基于SaaS模式的舆情语义分析基础设施,可更好的实现人机结合,提高舆情研判的准确率。

数据清理
用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程,一般在计算机的帮助下完成,包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

空缺值数据处理
人工填写空缺值的方法一般来说,该方法很费时,并且当数据集很大,缺失很多值时,该方法可能行不通
使用最可能的值是数据挖掘中用的最多的方法,利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值

噪声数据
噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。
噪声数据的影响
噪声数据未必增加存储空间量,它可能会影响对数据分析的结果。很多算法,特别是线性算法,都是通过迭代来获取最优解的,如果数据中含有大量的噪声数据,将会大大的影响数据的收敛速度,甚至对于训练生成模型的准确也会有很大的副作用。

噪声数据的处理方法:
分箱;聚类;计算机和人工检查结合;回归

数据集成
是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

数据预处理之数据集成
在数据集成时,模式集成和对象匹配需要技巧,涉及这实体识别问题。
冗余和相关分析,有些冗余可以被相关分析检测到,给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个。

数据转换的方法有下面三种:

数据标准化(Data Standardization):将数据按比例缩放,使数据都落在一个特定的区间。
数据离散化(Data Discretization):将数据用区间或者类别的概念替换。
数据泛化(Data Generalization):将底层数据抽象到更高的概念层。

timetoast:
基于时间轴个人事迹分享网是一个提供在线创建基于时间轴的事件记载服务的网站,只要简单的注册并用Email激活之后就可以创建自己的时间线了。你可以把你的人生轨迹通过时间线的方式来表达出来,并分享到互联网各个角落。

数据可视化高级分析工具:
我们可以在市场上找到很多用于网络分析和数据可视化的开源工具,例如NetworkX,R和Gephi中的iGraph包等
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。

与可视化分析论之间的联系
就目标和技术方法而言,信息可视化与可视化分析论之间存在着一些重叠。当前,关于科学可视化、信息可视化及可视化分析论之间的边界问题,还没有达成明确清晰的共识。不过, 大体上来说,这三个领域之间存在着如下区别:
1)科学可视化处理的是那些具有天然几何结构的数据(比如,MRI数据、气流);
2)信息可视化处理的是抽象数据结构,如树状结构或图形;
3)可视化分析论尤其关注的是意会和推理。

可视分析学是在2004年出现的

信息可视化(Information visualization)
是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现(如软件系统之中众多的文件或者一行行的程序代码)。通过利用图形图像方面的技术与方法,帮助人们理解和分析数据。与科学可视化相比,信息可视化则侧重于抽象数据集,如非结构化文本或者高维空间当中的点(这些点并不具有固有的二维或三维几何结构)
例如树状结构或者图形

非结构化数据
是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

市场情绪分析属于大数据在金融行业中的应用
舆情监测属于大数据在互联网行业的应用
生物信息学属于大数据在医疗行业中的应用
微博属于大数据在互联网行业中的应用
智慧医疗属于大数据在医疗行业中的应用
阿里小贷属于大数据在金融行业中的应用

互联网行业与大数据结合的意义:
互联网的发展为大数据的发展提供了更多数据、信息与资源。
大数据的发展为互联网行业的发展提供了更多支撑、服务与应用。
在大数据与互联网时代,数据将成为经济社会运行中不可或缺的核心资源。

大数据背景下的电子商务价值创造
主要来自于四个方面:效率,互补,锁定和创新
1,电子商务营销精准化和实时化
2,产品和服务高度差异化和个性化
3,价值链上企业运作一体化和动态化
4,新型增值服务模式不断涌现

基于大数据的电子商务的模式创新
按需定制
线上线下深度融合模式
互联网金融和在线供应链金融
新型增值服务模式不断涌现

大数据在电子商务应用中面临的挑战
数据贡献存在困难
低质量数据增大处理难度
大数据安全问题突出

大数据下互联网广告的特点
广告内容更有针对性
提高广告决策效率
广告传播模式的改变
广告不再以平面媒体为主
现有的搜索引擎的缺陷:
目录式搜索的缺陷是速度慢
搜索引擎的信息覆盖率,查全率偏低
用户界面简单不够友好,不能精准地表达用户的搜索意图

Feed:
Feed流中每一条状态或者是消息都是Feed,比如朋友圈中的一个状态就是一个Feed,微博中的一条微博就是Feed。

Feed流:持续更新并呈现给用户内容的信息流。每个人的朋友圈,微博关注页面也都是一个Feed流。

Timeline:Timeline其实是一种Feed流的类型,微博,朋友圈其实都是Timeline类型的Feed流,但是由于Timeline类型出现最早,使用最广泛,最为人熟知,因此也用Timeline来表示Feed流。

关注页Feed流:展示其他人的Feed消息的页面,比如朋友圈、微博首页等。

个人页Feed流:展示自己发送过来的Feed消息的页面,比如微信中的相册、微博个人页等。

设计一个Feed流系统,最关键的两个核心在于存储和推送

Feed广告,
指的是在发布的消息之间插入的一种广告形式。Feed广告逐渐成为了Facebook等一些社交网站首选的广告形式,目前国内的微博、QQ空间也都有类似的广告。

Feed广告对于广告商来说,最起码解决了两个问题:
一方面,由于互联网产品向移动端的演化使得广告展示位不断的减少,如果在移动端还通过跟PC端类似的弹窗、悬浮窗等广告形式,会极大的影响用户体验,而Feed广告可以方便的“融于其中”;
另一方面,Feed广告同样是根据性别、年龄、爱好、地理位置等一些用户标签进行精准匹配,以此来帮助广告主知道“被浪费的那一半广告费在哪儿”。

大数据对搜索引擎的重要价值:
快速找到准确的答案
影响了信息传播的方式
数据营销则完全是“预测式”
更懂人性和生活的科技营销

智慧医疗具有的优点
促进优质医疗资源的共享
避免患者重复检查
促进医疗智能化

警察应用大数据工具预防犯罪发生属于 安全 领域的应用

“啤酒与尿布”
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

大数据与云计算的相同之处:
都是为数据存储和处理服务的;
都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术、
MapReduce等并行处理技术。
因此,云计算和大数据是一个硬币的两面,云计算是大数据的 IT 基础,而大数据是云计算的一个杀手级应用。

遍布在城市各个角落的摄像头属于 城市管理行业领域的应用

大数据(big data)
大数据的4V特征:Volume(大量)Variety(多样)Velocity(高速)Value(价值)
大量 多样 高速 价值

冗余数据的删除即使一种数据清理形式,也是一种数据归约

数据预处理的主要任务:
数据预处理的主要步骤:数据清理、数据集成、数据规约和数据变换。

    数据清理例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致来“清理”数据。

    数据集成涉及集成多个数据库、数据立方体或文件。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。有些属性可能是由其它属性导出的(例如,年收入)。除数据清理之外,必须采取步骤,避免数据集成时的冗余。通常,在为数据仓库准备数据时,数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。

    数据归约得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。数据规约策略包括维归约和数值规约。

数据库的ACID特性:
原子性 一致性 隔离性 持久性

数据集的一般特性有:
维度 稀疏性 分辨率

大数据擅长处理PB级别的数据
大数据的数据单位的换算如下
1024GB=1TB
1024TB=1PB
1024PB=1EP
1024EP=1ZP
1024ZP=1YP

即tpezy
2的十次方为1024
以此来快速换算

Django
是一个开放源代码的Web应用框架,由Python写成。采用了MVT的框架模式,即模型M,视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的,即是CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。
(Django主要用于web开发)

大数据的4V特征是:
规模性(大量):volume
多样性:Varity
高速性:Velocity
价值型:Value

SPARK (计算引擎)

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

(1)Spark Streaming
基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,一个弹性分布式数据集(RDD)系列,处理实时数据。

(2)Spark SQL
可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。

(3)Spark MLlib
是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

(4)Spark GraphX
用于图计算和并行图计算的新的Spark API。通过引入弹性分布式属性图(Resilient Distributed Property Graph),一种顶点和边都带有属性的有向多重图,扩展了Spark RDD。GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

Spark Streaming
Spark SQL
Spark MLlib
Spark GraphX

Spark 运行模式有哪些:
本地模式(local模式)
本地伪集群模式
standalone模式
YARN模式
Mesos模式

搜索引擎是通过什么技术将Internet上大量网站的页面你想逆袭收集到本地
爬虫(网络蜘蛛)

云计算服务

云计算服务,即云服务。
中国云计算服务网的定义是:指可以拿来作为服务提供使用的云计算产品。包括云主机、云空间、云开发、云测试和综合类产品等。
我们都知道,对于云计算的服务类型来说,一般可分为三个层面,分别是:IaaS、PaaS和SaaS。这三个层次组成了云计算技术层面的整体架构,这其中可能包含了一些虚拟化的技术和应用、自动化的部署以及分布式计算等技术,这种技术架构的优势就是可以对外表现出非常优秀的并行计算能力以及大规模的伸缩性和灵活性等特点。
而我们平时所提及到的云服务,则是在云计算的上述技术架构支撑下的对外提供的按需分配、可计量的一种IT服务模式。这种服务模式可以替代用户本地自建的IT服务。

IaaS
IaaS(Infrastructure-as-a- Service):基础设施级服务,消费者通过Internet可以从完善的计算机基础设施获得服务。IaaS是把数据中心、基础设施等硬件资源通过Web分配给用户的商业模式。
PaaS
PaaS(Platform-as-a- Service):平台级服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。PaaS服务使得软件开发人员可以不购买服务器等设备环境的情况下开发新的应用程序。
SaaS
SaaS(Software-as-a- Service):软件级服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

SaaS是Software-as-a-Service(软件即服务)的简称,
随着互联网技术的发展和应用软件的成熟, 在21世纪开始兴起的一种完全创新的软件应用模式。它与“on-demand software”(按需软件),the application service provider(ASP,应用服务提供商),hosted software(托管软件)所具有相似的含义。它是一种通过Internet提供软件的模式,厂商将应用软件统一部署在自己的服务器上,客户可以根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得厂商提供的服务。用户不用再购买软件,而改用向提供商租用基于Web的软件,来管理企业经营活动,且无需对软件进行维护,服务提供商会全权管理和维护软件,软件厂商在向客户提供互联网应用的同时,也提供软件的离线操作和本地数据存储,让用户随时随地都可以使用其定购的软件和服务。对于许多小型企业来说,SaaS是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要。

Storm
是由Twitter开源的分布式、高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

Storm和Spark Streaming都是分布式流处理的开源框架,但是它们之间还是有一些区别的,这里将进行比较并指出它们的重要的区别。

  1. 处理模型以及延迟
    

虽然这两个框架都提供可扩展性(Scalability)和可容错性(Fault Tolerance),但是它们的处理模型从根本上说是不一样的。Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到亚秒级的延迟,而Spark Streaming则有秒级的延迟。

  1. 容错和数据保证
    

在容错数据保证方面的权衡方面,Spark Streaming提供了更好的支持容错状态计算。在Storm中,当每条单独的记录通过系统时必须被跟踪,所以Storm能够至少保证每条记录将被处理一次,但是在从错误中恢复过来时候允许出现重复记录,这意味着可变状态可能不正确地被更新两次。而Spark Streaming只需要在批处理级别对记录进行跟踪处理,因此可以有效地保证每条记录将完全被处理一次,即便一个节点发生故障。虽然Storm的 Trident library库也提供了完全一次处理的功能。但是它依赖于事务更新状态,而这个过程是很慢的,并且通常必须由用户实现。

简而言之,如果你需要亚秒级的延迟,Storm是一个不错的选择,而且没有数据丢失。如果你需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序,特别是在你使用批次(尽管是很小的)时。

  1. 实现和编程API
    

Storm主要是由Clojure语言实现,Spark Streaming是由Scala实现。如果你想看看这两个框架是如何实现的或者你想自定义一些东西你就得记住这一点。Storm是由BackType和 Twitter开发,而Spark Streaming是在UC Berkeley开发的。

Storm提供了Java API,同时也支持其他语言的API。 Spark Streaming支持Scala和Java语言(其实也支持Python)。另外Spark Streaming的一个很棒的特性就是它是在Spark框架上运行的。这样你就可以想使用其他批处理代码一样来写Spark Streaming程序,或者是在Spark中交互查询。这就减少了单独编写流批量处理程序和历史数据处理程序。

  1. 生产支持
    

Storm已经出现好多年了,而且自从2011年开始就在Twitter内部生产环境中使用,还有其他一些公司。而Spark Streaming是一个新的项目,并且在2013年仅仅被Sharethrough使用(据作者了解)。

Storm是 Hortonworks Hadoop数据平台中流处理的解决方案,而Spark Streaming出现在 MapR的分布式平台和Cloudera的企业数据平台中。除此之外,Databricks是为Spark提供技术支持的公司,包括了Spark Streaming。

  1. 集群管理集成
    

尽管两个系统都运行在它们自己的集群上,Storm也能运行在Mesos,而Spark Streaming能运行在YARN 和 Mesos上。

NoSQL,
泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

NoSQL数据库的四大分类
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
列存储数据库。
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph.
因此,我们总结NoSQL数据库在以下的这几种情况下比较适用:1、数据模型比较简单;2、需要灵活性更强的IT系统;3、对数据库性能要求较高;4、不需要高度的数据一致性;5、对于给定key,比较容易映射复杂值的环境。

NoSQL数据库可以分成哪四种:
键值储存数据库库 列存储数据库
文档型存储数据库 图形数据库

NoSQL数据库可以分为哪四种:
键值存储数据库 列存储数据库
文档型存储数据库 图形数据库

云计算的核心思想:
将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务

云计算的核心思想:
将大量用网络连接的计算资源统一管理和调度,形成计算资源池向用户按需服务

抢答题大部分题目比较简单:

结构化数据,
简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域 [1] 。

Hadoop 

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
[1] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算

Hadoop主要用于离线大数据分析,而Storm主要用于在线实时大数据分析

说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clusters》
话说当年的Google有三宝:MapReduce、GFS和BigTable。但Google三宝虽好,寻常百姓想用却用不上,原因很简单:它们都不开源。于是hadoop应运而生,初代Hadoop的MapReduce和HDFS即为Google的MapReduce和GFS的开源实现(另一宝BigTable的开源实现是同样大名鼎鼎的HBase)。自此,大数据处理框架的历史大幕正式的缓缓拉开。 

Hadoop是首个在开源社区获得加大关注的大数据处理框架
Hadoop由以下组件组成:
Hadoop分布式文件系统HDFS
资源管理器YARN
MapReduce:即为Hadoop中默认的数据处理引擎
HDFS YARN MAPREDUCE

相比于Hadoop MapReduce,Spark主要具有如下优点:

Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活。

Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。

使用Hadoop进行迭代计算非常耗资源。Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据。

在速度上 spark快于hadoop ,所以spark常用于离线的快速大数据处理框架,hadoop常用于离线的复杂的大数据处理框架

数据可视化分为:科学可视化,信息可视化,数据可视化

NumPy系统
是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。
一个用python实现的科学计算,包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。

numpy是python的第三方库,它主要用于做科学计算

Spark
是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

离线的大数据处理框架有hadoop和spark
常用于在线实时的大数据处理框架是storm

可视化技术应用标准包含直观化,关联化,艺术性和交互性

科学可视化
1987年,由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗所编写的美国国家科学基金会报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”) ,对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于计算机的可视化技术方法的必要性。随着计算机运算能力的迅速提升,人们建立了规模越来越大,复杂程度越来越高的数值模型,从而造就了形形色色体积庞大的数值型数据集。同时,人们不但利用医学扫描仪和显微镜之类的数据采集设备产生大型的数据集,而且还利用可以保存文本、数值和多媒体信息的大型数据库来收集数据。因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集。 [4]
短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于计算机建模和模拟的运用。

信息可视化
更近一些的时候,可视化也日益尤为关注数据,包括那些来自商业、财务、行政管理、数字媒体等方面的大型异质性数据集合。二十世纪90年代初期,人们发起了一个新的,称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,21世纪人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化” 。

数据可视化
一直以来,数据可视化就是一个处于不断演变之中的概念,其边界在不断地扩大;因而,最好是对其加以宽泛的定义。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

(科学可视化,信息可视化,数据可视化)

Spark运行架构包括:Cluster Manager、Worker Node、Driver 和 Executor

哪些数据库属于键值存储数据库 (背一个)
Dynamo,Couchbase,Resis,Riak,Voldmort,Cassandra

python编译文件的后缀名是 .pyc

哪些数据库属于列存储数据库(至少一种)?
HBase,BigTable,Cassandra

HDFS系统中,负责保存元数据信息的节点是?

名称节点 / NameNode
名称节点最主要功能:名称节点记录了每个文件中各个块所在的数据节点的位置信息

名字节点(NameNode )是HDFS主从结构中主节点上运行的主要进程,它指导主从结构中的从节点,数据节点(DataNode)执行底层的I/O任务。

Hadoop2中HDFS的Namenode https服务的默认端口号是

50470

RDD的缓存方法Persist()和Cache()
中哪个可以根据情况设置缓存级别?
Persist()

Spark速度非常快的原因之一,
就是在不同操作中可以在内存中持久化或缓存数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。

DAG (图论名词)

DAG意思是有向无环图,所谓有向无环图是指任意一条边有方向,且不存在环路的图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。有向无环图的生成树个数等于入度非零的节点的入度积。

1.什么是RDD?

RDD:RDD是Spark的计算模型 RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。

操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。

RDD是Spark中的一个基本抽象(可以理解为代理)

有了RDD,就可以像操作本地的集合一样,有很多的方法可以调用,使用方便,而无需关心底层的调度细节。

我们要想对spark中RDD的分区进行一个简单的了解的话,
就不免要先了解一下hdfs的前世今生。众所周知,hdfs是一个非常不错的分布式文件系统,这是这么多年来大家有目共睹的。hdfs文件为分布式存储,每个文件都被切分为block(默认为128M)。为了达到容错的目的,他们还提供为每个block存放了N个副本(默认为3个)。当然,以上说的这些也可以根据实际的环境业务调整。

spark 中RDD的依赖关系有几种:
两种,宽依赖和窄依赖

NLP是数据科学里的一个重要分支,它的中文含义是?

自然语义处理 / 自然语言处理

机器学习分为:监督学习 无监督学习 半监督学习

监督学习(supervised learning)

从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。

无监督学习(unsupervised learning)

输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。

非监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类,而是在成功时,采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是为了产生一个分类系统,而是做出最大回报的决定,这种思路很好的概括了现实世界,agent可以对正确的行为做出激励,而对错误行为做出惩罚。

监督学习和无监督学习两者的主要区别是什么
监督学习的训练数据有已知的标签,而无监督学习没有

生物信息学属于大数据在哪个行业中的应用?

医疗

Hadoop平台中用于作业流调度的组件是?

Oozie

备注:oozie本质就是一个作业协调工具(底层原理是通过将xml语言转换成mapreduce程序来做,但只是在集中map端做处理,避免shuffle的过程。)

常见的系统日志采集工具有哪些(至少两个)?

Scribe、Flume、Chukwa

MapReduce的工作流程中在Map和Reduce之间有一个用于分区、排序的流程叫做什么?

Shuffle

目前三种常见的数据存储模式是?

DAS附加直接模式

NAS附加网络模式

SAN存储区域网络

关联分析中,用于判断事物之间关联的两个主要判断指标是?

支持度 和 置信度

TensorFlo
是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief [1] 。
Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究

TensorFlow是一个被广泛应用于机器学习的库

哪些数据库属于图存储数据库(至少一种)?

Sones,InfoGrid,Neo4j,OrientDB,GraphDB

哪些数据库属于文档型数据库(至少一种)?

LotusNotes,ThruDB,MongoDB,CouchDB,RavenDB,Couchbase,Cloudant

布隆过滤器(Bloom Filter)
是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

布隆过滤器是由一个位数组合一系列的哈希函数组成

淘宝自主开发的Key/Value结构数据存储系统是?

Tair
淘宝自主设计的自动化分布式存储系统是 Oceanbase

AlphaGo是第一个战胜围棋世界冠军的人工智能机器人,它是在哪一年战胜了李世石?

2016

层次与网络结构数据可视化属于信息可视化还是科学可视化?

信息可视化

数据挖掘的目标任务可以总结为两大类,分别是?

预测和描述

数据库中事务的ACID原则是?

原子性 一致性 独立性 持久性

原子性 独立性 持久性 一致性

原子性 独立性 持久性 一致性

分箱法是一种数据预处理方法,该方法是为了将连续的数据进行什么处理?

离散化

分箱法
是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。

Hadoop平台中用于维护集群配置的一致性、任务提交的事物性、集群管理等的组件是?

Zookeeper

ZooKeeper
是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

MapReduce是基于哪个公司发表的技术论文设计实现的?

goole谷歌
现代大数据的起源来源于谷歌发布的三篇大数据的技术论文

微软2018年收购的面向开源及私有软件项目的托管平台是?

github

AWS是哪个公司的云计算服务品牌?

亚马逊

DBSCAN是一种基于什么的聚类算法?

密度

Kettle是一个开源大数据应用软件,
它的主要功能是?

数据预处理 / ETL

Kettle是一款国外开源的ETL工具,(数据预处理工具)
纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

支持向量机算法中用于解决高维非线性分类问题的函数,被我们称为?

核函数

流式计算框架最适用于哪种业务类型?

实时业务

RAID0 和 RAID1两种磁盘存储解决方案,哪种的可靠性更高?

RAID1

在Apache Hadoop中默认block 大小是?

64m

猜你喜欢

转载自blog.csdn.net/qq_35811830/article/details/90339884