Spark性能调优实战

2021年05月04日 33次阅读
Spark性能调优实战-百度网盘资源-下载

Spark性能调优实战 - 一站式加速Spark作业执行性能

你将获得

  • 深入浅出的 Spark 核心原理
  • 全面解析 Spark SQL 性能调优
  • 应用开发、配置项设置实操指南
  • 手把手带你实现一个分布式应用

作者简介:

吴磊,现任 Comcast Freewheel 机器学习团队负责人,负责计算广告业务中机器学习应用的实践、落地与推广。曾任职于 IBM、联想研究院、新浪微博,具备丰富的数据库、数据仓库、大数据开发与调优经验。

吴磊热爱技术分享,擅长从生活的视角解读技术。做过Spark Summit China 2017 讲师、World AI Conference 2020 讲师,在《IBM developerWorks》和《程序员》杂志,以及InfoQ上发表过多篇技术文章,深受好评。

课程亮点:

目前,Spark已然成为分布式数据处理技术的事实标准,也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说,Spark开发都是一项必备技能;而想要进入大厂,就更得有丰富的Spark性能调优经验。

可现实情况是,我们想要快速上手开发应用很容易,把握应用的执行性能却总也找不到头绪,比如:

明明都是内存计算,为什么我用了RDD/DataFrame Cache,性能反而更差了?
网上吹得神乎其神的调优手段,为啥到了我这就不好使呢?
并行度设置得也不低,为啥我的CPU利用率还是上不去?
节点内存几乎全都划给Spark用了,为啥我的应用还是OOM?
为此,我们特意邀请到了吴磊老师,他根据自己多年的数据处理经验,梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。

除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。

课程大纲:

  1. 开篇词 | Spark性能调优,你该掌握这些“套路”
  2. 性能调优的必要性:Spark本身就很快,为啥还需要我调优?
  3. 性能调优的本质:调优的手段五花八门,该从哪里入手?
  4. RDD:为什么你必须要理解弹性分布式数据集?
  5. DAG与流水线:到底啥叫“内存计算”?
  6. 调度系统:“数据不动代码动”到底是什么意思?
  7. 存储系统:空间换时间,还是时间换空间?
  8. 内存管理基础:Spark如何高效利用有限的内存空间?
  9. 应用开发三原则:如何拓展自己的开发边界?
  10. 调优一筹莫展,配置项速查手册让你事半功倍!(上)

......

联系微信:zhizhushou99
全网知识付费平台-课程-原版电子书
热门平台:得到APP喜马拉雅FM混沌大学樊登读书全网知识付费
获取须知 常见问题 电子书目录 课程目录 最新资源