Kafka总结（九）：KafKa 与Spark整合应用 - 代码天地

Kafka总结（九）：KafKa 与Spark整合应用

其他 2018-08-01 05:14:23 阅读次数: 0

Kafka总结（一）：Kafka概述

Kafka总结（二）：Kafka核心组件

Kafka总结（三）：Kafka核心流程分析

Kafka总结（四）：Kafka命令操作

Kafka总结（五）：API编程详解

Kafka总结（六）：Kafka Stream详解

Kafka总结（七）：数据采集应用

Kafka总结（八）：KafKa与ELK整合应用

Kafka总结（九）：KafKa 与Spark整合应用

当前，Flume，Kafka和Spark已经成为一个比较成熟的构建实时日志采集分析与计算平台组件，例如，通过收集相应数据统计某个应用或者网站的PV/UV信息，统计流量以及用户分布，对访问日志进行实时或者离线分析，以追踪用户行为或者进行系统风险监控等。通常在数据采集的时候会选择将Kafka作为数据采集队列，将采集的数据首先存储到Kafka中，然后用Spark对kafka中读取的数据进行处理。

1.Spark简介

Spark是一个快速，通用的计算引擎，是Apache一个顶级项目。

Spark用Scala语言开发，提供了Java、Scala、Python、R语言相关的API，运行在JVM之上，因此在运行Spark之前需要保证已经安装JDK环境。

Spark可以很方便的与大数据处理相关的框架（如Flume、Kafka、HDFS、Hbase等）、工具进行整合应用；

通常我们说的Spark，其实是指Spark核心或者Spark生态圈的统称，包括Spark的任务调度、内存管理、容错机制等基本功能。

Spark包括以下组件：

Spark SQL：
Spark Streaming：
Mlib：
GraphX：

2.Spark

所谓的智能投顾，简而言之就是通过机器学习相关的算法基于大数据进行分析处理为用户投资决策提出参考指标甚至自动帮助用户进行投资决策。

例如：在证券行业，当前比较热门的“智能选股”就属于“智能投顾”范畴的一类典型应用，金融机构或者第三方根据股票行情、技术指标、财务指标、基本面指标等多种维度和策略进行分析计算，为股民提供各类选股的方案；

应用描述

实时统计有单时间内用户搜索的关键词，并将搜索次数最高的前10个词输出

重点是使用Spark Streaming 与Kafka集成的应用，因此并不关注业务本身的完整性。

Spark官方网站关于Spark Streaming与Kafka集成给出了两个依赖版本，一个是基于Kafka0.8之后的版本：spark-streaming-kafka-0-8，一个是基于kafka 0.10之后的版本：spark-streaming-kafka-0-10；

小结

这一章中主要是对流式处理程序进行了讲解，在实际应用中，需要根据实际的业务场景，编写出满足业务场景的流式处理程序；

猜你喜欢

转载自blog.csdn.net/qq_36807862/article/details/81283606

Kafka总结（九）：KafKa 与Spark整合应用

Kafka总结（八）：KafKa与ELK整合应用

spark streaming kafka 整合

Spark与Kafka整合原理

Spark Streaming整合Kafka

Spark Streaming 整合 Kafka（Spark读取Kafka）

kafka与spark应用

【Kafka】（九）项目中使用 Kafka 整合 Flume

Spark整合Kafka小项目

Spark与kafka 0.8.2.1+整合

Spark Streaming + Kafka整合实例

Spark Streaming + Kafka整合指南

Spark Streaming整合Kafka（scala）

Flume、Kafka、Spark streaming整合

12 整合Kafka与Spark Streaming

大数据spark整合kafka

Spark Stream操作Kafka总结

【弄nèng - Kafka】应用篇（九） —— Springboot整合Kafka（集群管理工具AdminClient）

Flink笔记(九)：Flink 整合 Kafka

【Spark五十三】Spark Streaming整合Kafka

Spark学习（拾贰）- Spark Streaming整合Kafka

Spark 系列（十六）—— Spark Streaming 整合 Kafka

spark--Spark Streaming整合kafka-★★★★★

[Spark、hadoop]Spark Streaming整合kafka实战

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

spark stream 应用-结合kafka

spark2.3与kafka0.10整合

必读：Spark与kafka010整合

spark streaming整合kafka-直连的方式

十二 Spark+Kafka+Mysql 整合

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)