摘要: 1. 概念与属性 Q1: 什么是 RDD?它有哪些核心属性? 回答思路: 定义: RDD 是 Spark 的核心抽象,全称是弹性分布式数据集。它是只读的、分区的记录集合,能够自动从节点故障中恢复(容错)。 五大属性(硬核考点): 分区列表: 数据集被切分为多个分区,分布在集群的不同节点上。 计算函数 阅读全文
posted @ 2026-01-29 22:49 scales123 阅读(7) 评论(0) 推荐(0)
摘要: client模式 特征:driver在client上,AM只负责申请资源 提交任务:用户在cilent端通过spark-submit提交job 启动driver:driver进程在提交的本地机器上启动 申请AM:driver向RM请求启动AM 启动AM:RM分配一个container在某个NM上启动 阅读全文
posted @ 2026-01-29 22:26 scales123 阅读(4) 评论(0) 推荐(0)
摘要: 目录 0 前言 1 安装nvm 2 安装node 3 安装pnpm 4 在VSCODE中使用 0 前言 nvm、Node.js、npm、pnpm 核心属性总结表 工具 核心定位 本质/类型 核心作用 安装/依赖关系 常用核心命令 核心优势 适用场景 nvm(Windows为nvm-windows) 阅读全文
posted @ 2026-01-27 21:58 scales123 阅读(20) 评论(0) 推荐(0)
摘要: 前置:需安装docker 1.拉取ollama镜像 docker pull ollama/ollama 如果拉取不成功可通过以下方式解决: 修改docker engine配置:https://chuna2.787528.xyz/scales123/p/19526378 其他方式下载镜像:https:// 阅读全文
posted @ 2026-01-25 23:00 scales123 阅读(36) 评论(0) 推荐(0)
摘要: docker-engine里配置如下: { "builder": { "gc": { "defaultKeepStorage": "20GB", "enabled": true } }, "experimental": false, "registry-mirrors": [ "https://9c 阅读全文
posted @ 2026-01-24 14:24 scales123 阅读(16) 评论(0) 推荐(0)
摘要: 在 Spark SQL 日常开发中,表关联(Join)是核心操作,也是性能调优的重灾区。不同关联场景(大表+小表、大表+大表)的优化思路差异显著,本文将分场景拆解最优优化方案,结合实操案例说明原理与落地方式。 一、大表关联小表优化(分2个子场景) 大表关联小表的核心优化目标是 减少/避免 Shuff 阅读全文
posted @ 2026-01-11 21:13 scales123 阅读(22) 评论(0) 推荐(0)
摘要: Spark 参数调优的核心是先定位性能瓶颈(如资源不足、Shuffle 慢、GC 高、IO 耗时久),再针对性调参。以下按「资源分配、Shuffle 优化、内存管理、执行效率、数据读取」五大核心维度,梳理高频调优参数及对应场景: 一、资源分配类(解决“资源不够/资源浪费”) 核心是为 Executo 阅读全文
posted @ 2026-01-08 20:13 scales123 阅读(21) 评论(0) 推荐(0)
摘要: 1 AQE 1.1 AQE诞生的背景 Spark 2.x 在遇到有数据倾斜的任务时,需要人为地去优化任务,比较费时费力;如果任务在Reduce阶段,Reduce Task 数据分布参差不齐,会造成各个excutor节点资源利用率不均衡,影响任务的执行效率;Spark 3新特性AQE极大地优化了以上任 阅读全文
posted @ 2026-01-04 22:27 scales123 阅读(52) 评论(0) 推荐(0)
摘要: 通过win11构建支持linux-arm/x86的docker镜像 1 前置条件 1.1 启用wsl # 启用 WSL 功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /n 阅读全文
posted @ 2025-12-11 23:17 scales123 阅读(50) 评论(0) 推荐(0)
摘要: 1 核心概念:为什么需要它们? 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量 阅读全文
posted @ 2025-12-02 23:01 scales123 阅读(106) 评论(0) 推荐(0)