Apache Spark 教程¶
Apache Spark 是一个快速、通用、可扩展的大数据分析引擎。它提供了内存计算能力,比 Hadoop MapReduce 快 100 倍。
教程目录¶
- 第一章:Spark 简介
- 第二章:环境搭建
- 第三章:RDD 编程
- 第四章:DataFrame 与 Dataset
- 第五章:Spark SQL
- 第六章:Spark Streaming
- 第七章:MLlib 机器学习
- 第八章:性能优化
Spark 特点¶
| 特点 | 说明 |
|---|---|
| 快速 | 内存计算,比 MapReduce 快 100 倍 |
| 易用 | 支持 Python、Java、Scala、R |
| 通用 | SQL、流处理、机器学习、图计算 |
| 兼容 | 支持 HDFS、Hive、HBase 等数据源 |
适用场景¶
- 大规模数据处理
- 实时流处理
- 机器学习
- 图计算
- 交互式数据分析