1 大数据的4V特征
① 数据量大
TB-PB-ZB
HDFS分布式文件系统
② 数据种类多
结构化数据:Mysql为主的存储和处理
非结构化数据:图像、音频等
HDFS、MR、Hive
半结构化数据:XML格式、HTML格式
HDFS、MR、Hive、Spark
③ 速度快
增长速度快
TB-PB-ZB
HDFS
数据处理速度快
MR-HIVE-PIG-Impala(离线)
Spark-Flink(在线)
④ 价值密度低
2 大数据项目框架
① 数据采集 ftp,socket
② 数据存储 HDFS
③ 数据分析 MR+HIVE+INPALA+SPARK
④ 机器学习层 在大数据处理后的应用
⑤ 数据展示 oracle+ssm
3 人工智能发展
3.1 人工智能三次浪潮
跳棋-专家系统
象棋-统计模型
围棋-深度学习
3.2 人工智能场景
图像识别、无人驾驶、智能医疗、智能翻译、语音识别、数据挖掘
4 机器学习-人工智能的区别和联系
机器学习是人工智能的一个分支
深度学习是机器学习的一个分支
5 数据、数据分析、数据挖掘的区别和联系
数据是观测值或测量值
信息是可信的数据
数据分析:数据—信息
数据挖掘:信息—有价值的信息
6 机器学习
机器学习致力于研究如何通过计算手段,再给定算法结合数据构建模型,通过模型达到预测的功能。
7 基于规则的学习和基于模型的学习
基于规则的学习是硬编码的方式进行学习
基于模型的学习是通过数据构建机器学习模型,通过模型进行预测。