一、PySpark 简介

1、Apache Spark 简介

Spark 是 Apache 软件基金会顶级项目 , 是开源的分布式大数据处理框架 , 专门用于大规模数据处理 , 是一款适用于大规模数据处理的统一分析引擎 ;

与 Hadoop 的 MapReduce 相比，

借助 Spark 分布式计算框架 , 可以调度由数百乃至上千服务器组成的服务器集群 , 计算 PB / EB 级别的海量大数据 ;

Spark 支持多种编程语言 , 包括Java、Python、R和Scala , 其中 Python 语言版本的对应模块就是 PySpark ;

Python 是 Spark 中使用最广泛的语言 ;

Spark 的 Python 语言版本是 PySpark , 这是一个第三方库 , 由 Spark 官方开发 , 是 Spark 为 Python 开发者提供的 API ;

PySpark 允许 Python 开发者使用 Python 语言编写Spark应用程序 , 利用 Spark 数据分析引擎的分布式计算能力分析大数据 ;

PySpark 提供了丰富的的数据处理和分析功能模块 :

开发者可以使用上述模块构建复杂的大数据应用程序 ;

PySpark 既可以作为 Python 库进行数据处理 , 在自己的电脑上进行数据处理 ;
又可以向 Spark 集群提交任务 , 进行分布式集群计算 ;

在这里插入图片描述

Python 语言的使用场景很丰富 , 可以有如下应用场景 :

大部分场景都有专用的语言与开发平台 , 不要贸然使用 Python 进行一般领域进行开发 , 如 : Web 领域 , Python 对其支持并不是很好 , 生态环境不全 ;

Python 语言主流应用于大数据与人工智能领域 , 在其它领域 , 基本不使用 Python 语言开发 ;