Spark 知识库.pdf

下载地址:https://u18103887.ctfile.com/fs/18103887-307770309

Databricks Spark 知识库.pdf

  1. Introduction
  2. 最佳实践
    i. 避免使用 GroupByKey
    ii. 不要将大型 RDD 的所有元素拷贝到请求驱动者
  3. 常规故障处理
    i. Job aborted due to stage failure: Task not serializable
    ii. 缺失依赖
    iii. 执行 start-all.sh 错误 - Connection refused
    iv. Spark 组件之间的网络连接问题
  4. 性能 & 优化
    i. 一个 RDD 有多少个分区
    ii. 数据本地性
  5. Spark Streaming
    i. ERROR OneForOneStrategy
    最佳实践
    避免使用 GroupByKey
    不要将大型 RDD 的所有元素拷贝到请求驱动者
    常规故障处理
    Job aborted due to stage failure: Task not serializable
    缺失依赖
    执行 start-all.sh 错误 - Connection refused
    Spark 组件之间的网络连接问题
    性能 & 优化
    一个 RDD 有多少个分区
    数据本地性
    Spark Streaming
    ERROR OneForOneStrategy

猜你喜欢

转载自blog.csdn.net/wuyb1809/article/details/82831480
今日推荐