520页(17万字)集团大数据平台整体解决方案word(网盘链接在文末)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除,更多浏览公众号:智慧方案文库

1.1.1 系统总体逻辑结构fcae056e2f290262972b4ec73123cae3.jpeg

4-14系统总体逻辑结构图

参见上图,基于Hadoop构建的企业级数据仓库,包含:分布式列式存储数据库Hyperbase和分布式文件系统HDFS。通过数据集成及ETL平台,采集集团现有业务系统(CRM、ERP、寄递平台、金融大数据平台等)数据,经清洗、转换、加工后将数据批量加载到数据仓库。通过分布式消息队列(Kafka)和流处理引擎(Spark Streaming),可实时采集处理流数据(如:网站点击流数据、实时事件流数据等);流处理引擎可通过SQL接口将流数据实时加载至分布式内存或分布式数据库中。通过互联网数据采集软件(iRIS)可采集互联网数据(网站、SNS等),并经加工处理后导入数据仓库。本系统还支持在线填报、报表文件上传等数据采集方式。

结构化数据导入数据仓库后,可通过PL/SQL脚本和Hadoop/Spark批处理引擎进行数据关联操作和汇总加工处理;半/非结构化数据导入数据仓库后,可通过全文检索引擎Elastic Search快速创建全文索引。

大数据平台为数据分析挖掘应用开发,提供可视化的数据建模工具、数据分析挖掘工具(RStudio)、并行化R算

猜你喜欢

转载自blog.csdn.net/zuoan1993/article/details/132629298