课程简介
Spark 是专为大规模数据处理而设计的分析计算引擎。
技术上,Spark 是基于 Hadoop MapReduce 设计的通用并行框架,拥有其所具备的优点,并采用内存的方式优化了中间计算过程,极大提高了计算效率,从而使 Spark 可以更好地应用在数据挖掘与机器学习等迭代式计算场景。
应用上,Spark 可以满足绝大部分的离线数据分析场景和部分的实时数据分析场景,从而使 Spark 技术框架成为企业大数据离线处理技术的首选。
本套教程基于 Spark 3.3 版本,使用 Java 语言,详解了 Spark 技术生态的三个核心模块:Spark Core 核心模块,讲解 Spark 运行环境,以及分布式数据模型 RDD 的使用和原理;Spark SQL 模块,讲解 Spark 在结构化数据场景中的使用方式,包括 SQL 语法、DSL 语法、UDF 函数、UDAF 函数等;Spark Streaming 模块,讲解 Spark 在流式数据处理中的使用方式,包括无界数据流的处理、Kafka 系统的对接和数据窗口的应用等。
授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将 Spark 应用于企业的项目中。