Databricks中的ApacheSpark:数据处理与机器学习平台

16788863:

作者:禅与计算机程序设计艺术

1.简介

Databricks 是一种基于云服务的开源数据分析平台,它将数据科学家、数据工程师、数据库管理员和数据科学爱好者们集合在一起。通过其可扩展性、简单易用性和功能强大等优点,Databricks 在全球范围内得到了广泛应用。Spark 是 Databricks 的核心组件之一,它是专门针对大规模数据处理的快速通用计算引擎。然而,过去几年里由于 Spark 的火爆,许多公司和组织都纷纷选择基于 Spark 为基础构建自己的大数据分析系统。基于 Spark 构建的大数据分析系统包括 Hadoop、Hive、Pig、Impala、Presto 和 Delta Lake 等,它们各自有着不同的特点,但它们背后的原理却十分类似,即对海量数据的分布式并行计算。因此,本文将从 Apache Spark 入手,讨论它的基本概念、编程模型、运行机制、应用场景及未来发展方向。

2.基本概念术语说明

2.1 大数据概述

大数据是指超出通常可以存储在单个设备上的、具有特定结构、大小和复杂度的数据集。它主要由两种形式组成,一类是结构化的数据,如数据库表、XML 文件或者日志文件;另一类是非结构化的数据,如文本、图像、视频、音频、程序源代码等。相对于小型数据来说,它更加丰富、复杂、多样。随着互联网、移动互联网和物联网等新兴应用的出现,越来越多的设备产生大量的数据,这些数据为商业决策提供了丰富的机会。比如,Facebook 使用海量数据进行用户画像、推荐广告、行为跟踪、搜索、网络安全和反垃圾邮件等任务,这些都是大数据领域最具代表性的应用场景。

2.2 Spark 简介

Apache Spark 是 Databricks 开源项目中的一个模块&

Guess you like

Origin blog.csdn.net/universsky2015/article/details/131887141