摘要:
1. 概念与属性 Q1: 什么是 RDD?它有哪些核心属性? 回答思路: 定义: RDD 是 Spark 的核心抽象,全称是弹性分布式数据集。它是只读的、分区的记录集合,能够自动从节点故障中恢复(容错)。 五大属性(硬核考点): 分区列表: 数据集被切分为多个分区,分布在集群的不同节点上。 计算函数 阅读全文
posted @ 2026-01-29 22:49
scales123
阅读(7)
评论(0)
推荐(0)
摘要:
client模式 特征:driver在client上,AM只负责申请资源 提交任务:用户在cilent端通过spark-submit提交job 启动driver:driver进程在提交的本地机器上启动 申请AM:driver向RM请求启动AM 启动AM:RM分配一个container在某个NM上启动 阅读全文
posted @ 2026-01-29 22:26
scales123
阅读(4)
评论(0)
推荐(0)

浙公网安备 33010602011771号