大数据基础-大数据导论

概述
信息是数据的有序排列而成,数据是构成信息的基本单位
数据的类型:文本 图片 音频 视频
数据组织形式:文件 数据库
常见数据库(层次数据库,网状数据库,关系数据库【主流】、NoSQL数据库【非结构化数据】)
数据生命周期分类:分类-存储-管理
数据管理:数据清洗-数据管理-数据分析
数据的价值:在重组中产生更大的价值
信息化浪潮:PC机(信息处理) 互联网(信息传输) 物联网和云计算(信息爆炸)
技术支撑:存储设备容量不断增加、CPU处理能力增高,网络带宽不断增加
数据产生方式变革:运营管理阶段-原创内容管理-感知式系统阶段
大数据特性:大量化 快速化 多样化 价值密度低

相关技术
云计算:通过网络,以服务的方式,为千家万户提供非常廉价的IT资源
特点:超大规模计算、虚拟化、高可靠性和安全性、通用性、按需服务
服务模式:SaaS(软件即服务) PssS(平台即服务) IaaS(基础设施即服务)
类型:公有云、私有云、混合云
物联网:把传感器设备安装到各个物体中
层次:应用层、处理层、网络层、感知层
人工智能关键技术:机器学习 知识图谱 自然语言处理 人机交互技术 计算机视觉 生物特征识别技术 VR和AR技术 
大数据技术:数据采集与预处理 数据存储和管理 数据处理与分析 数据可视化 数据安全和隐私保护
NewSQL是对各种新的数据库的简称,例如Spanner,保持ACID和SQL特性;都支持关系数据模型,都以SQL为主要接口
NoSQL是菲关系数据库的统称,没有严格遵守ACID约束
计算模式:批处理计算(MapReduce,Spark) 流计算(实时,Streams) 图计算 查询分析计算(存储管理和查询分析,Hive)
数据可视化作用:观测跟踪数据(百度实时路况) 分析数据 辅助理解数据(微软人立方) 增强数据吸引力 
数据可视化案例:互联网地图,编程语言影响力 世界国家健康和财富之间的关系 
数据安全:身份认证技术 防火墙技术 访问控制技术 入侵检测技术 加密技术

大数据应用举例
推荐系统:协同过滤推荐 专家推荐 基于内容的推荐 基于统计的推荐 混合推荐 
长尾理论:长尾商品准确推荐给用户,非热门,个性化
智慧医疗在线系统:以患者为中心,智能穿戴设备
智能物流:阿里巴巴的中国智能物流骨干网(菜鸟网络,地网) 天网(天猫与物流快递公司进行数据对接)
城市管理:智能交通(公共车辆管理系统,掌上公交) 环保监测(谷歌森林监视 污染地图) 城市规划(公交IC卡数据,移动通话数据 社交网络数据 地理数据 搜房网) 安防领域(平安城建)
金融领域:消费者行为预判 市场情绪分析 信贷风险分析(阿里小贷) 征信系统
零售领域:关联购买行为 客户群体细分 供应链管理
体育和娱乐:训练球队 影视剧的作品投拍(Netflix)比赛结果预测(百度预测)
其他:谷歌无人驾驶汽车 餐饮O2O(无缝线上线下闭环运营) 团购模式(百度糯米个性化) 线下门店选址问题(棒约翰)人流量控制 离网预测(中国移动经营分析系统) 流行病预测(谷歌)实时犯罪预警

大数据安全与伦理
威胁:成为显著攻击目标 加大隐私泄露风险 大数据被应用到攻击手段中 大数据成为高级可持续攻击的载体
意义:自媒体成为影响国家意识形态安全的重要因素、个人国家安全受到挑战
案例:棱镜事件,维基解密,Facebook数据滥用事件,手机软件过度采集个人信息,12306囤票案件,免费Wifi窃取用户信息,探针盒子
数据保护的基本原则:数据主权原则,自由流通原则,数据保护原则(法律地位) 数据安全原则(完整,安全使用,合法授权)
对策:国家法制 企业源头 个人意识
大数据思维方式:全样而非抽样(商品比价网)、效率而非精确(谷歌翻译)、相关而非因果(药品研发)、以数据为中心(点击模型),我为人人-人人为我(实时导航) 
伦理案例:信息欺诈问题 隐性偏差问题 数字鸿沟问题 数据独裁问题 数据垄断问题 数据失真问题 人的主体地位问题
常见大数据治理模型:ISACA模型(国际信息系统审计和控制协会)  HESA数据治理模型 数据治理螺旋模型 

数据开放与数据交易
政府开放数据理论:数据资产理论 数据权理论 开放政府理论
开放数据三个时期:被动开放 主动开放 数据价值挖掘
政府开放数据集:德国(Alumniportal) 日本(Data.go.jp)中国(北京,上海公开数据开放平台,云上贵州,厦门健康信息系统) 
问题:政策与立法滞后 数据利用价值低(无法实时更新,不全面) 平台不健全缺乏人才支撑 基础数据库缺乏整体协同 
数据交易形式:大数据交易公司 数据交易所 API模式 其他
交易平台类型:综合数据服务平台 第三方数据交易平台
数据来源:政府公开数据 企业内部数据 数据供应方数据 网页爬虫数据
产品类型:API 数据包 云服务 解决方案 数据定制服务 数据产品
代表交易平台:贵阳大数据交易所 上海数据交易中心 华东江苏大数据交易中心 
数据估值:数据样本量 数据多样性 数据完整性 数据实时性 数据深度 数据样本覆盖度 数据稀缺性 数据时间维度

发布了101 篇原创文章 · 获赞 46 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_40539952/article/details/104696998