数据仓库与数据挖掘
方法
决策树
神经网络
遗传算法
关联规则挖掘算法
分类
关联分析:挖掘出隐藏在数据间的相互关系。
序列模式分析:侧重点是分析数据间的前后关系(因果关系)
分类分析:为每一个记录赋予一个标记在按标记分类
聚类分析:分类分析法的逆过程。
由于规范化会使表不断的拆分,从而导致数据表过多,这样虽然减少了数据冗余,提高了增、删、改的速度,但会增加查询的工作量。系统需要进行多次链接,才能进行查询操作,使得系统效率大大下降。
技术手段
增加派生性冗余列
增加冗余列
重新组表
分割表
大数据
数据量:volume
速度:velocity
多样性:variety
值:value
比较维度 |
传统数据 |
大数据 |
数据量 |
GB或TB |
PB级或以上 |
数据分析需求 |
现有数据的分析与检测 |
深度分析(关联分析、回归分析) |
硬件平台 |
高端服务器 |
集群平台 |
大数据处理系统应该具有的重要特征
高度可扩展性
高性能
高度容错
支持异构环境
较短的分析延迟
易用且开放的接口
较低成本
向下兼容性
计算机网络
OSI/RM七层模型
层析 |
名称 |
主要功能 |
主要设备及协议 |
7 |
应用层 |
实体具体的应该功能 |
|
6 |
表示层 |
数据的格式与表达、加密、压缩 |
POP3、FTP、HTTP、Telnet、SMTP、DHCP、TFTP、SNMP、DNS |
5 |
会话层 |
建立、管理和终止会话 |
|
4 |
传输层 |
端到端的链接 |
TCP、UDP |
3 |
网络层 |
分组传输和路由选择 |
三层交换机、路由器、ARP、RARP、IP、ICMP、IGMP |
2 |
数据链路层 |
传送以帧为单位的信息 |
网桥、交换机、网卡、PPTP、L2TP、SLIP、PPP |
1 |
物理层 |
二进制传输 |
中继器、集线器 |
网络技术标准与协议
TCP协议:Internet,可扩展,可靠,应用最广,牺牲速度和效率。
IPX/SPX协议:NOVELL,路由,大型企业网
NETBEUI协议:IBM,非路由,快速
网络规划与设计--物理网络设计
物理网络设计是对逻辑万罗设计的物理实现,通过对设备的具体物理分布、运行环境等确定,确保网络的物理连接符合逻辑链接的要求。输入如下内容
网络物理结构图和布线方案
设备和部件的详细列表清单
软硬件和安装费用的估算
安装日程表,详细说明服务的时间以及期限
安装后的测试计划
用户培训计划
子网掩码
将一个网络划分成多个子网(取部分主机号当子网号)
将多个网络合并成一个大的网络(取部分网络号当主机号)
0
信息系统安全属性
保密性:最小授权原则、防暴露、信息加密、物理保密
完整性:安全协议、校验码、密码校验、数字签名、公证
可用性:综合保障(IP过滤、业务流控制、路由选择控制、审计跟踪)
不可依赖性:数字签名
非对称加密技术
数字信封与PGP
发送方将原文用对称密匙加密传输,而将对称密匙用接收方密匙加密发送给对方
接收方收到电子信封,用自己的私匙解密信封,取出对称密匙解密得原文
PGP可用于电子邮件,也可以用于文件存储。采用了杂合算法,包括IDEA、RSA、MD5、ZIP数据压缩算法
PGP承认两种不同的证书格式:PGP证书和X.509证书
PGP证书包含PGP版本号、证书持有者的公钥、证书持有者的信息、证书拥有者的数字签名、证书的有效期、密钥首选的对称加密算法。
X.509证书包含了证书版本、证书的序列号、签名算法标识、证书有效期、以下数据:证书发行商名字、证书主体名、主体公钥信息、发布者的数字签名