posted @ 2026-04-21 11:26 飞行的蟒蛇 阅读(3) 评论(0) 推荐(0)
摘要:
{ "job": { "setting": { "speed": { "channel": 1, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "n 阅读全文
摘要:
在构建离线数仓时,MySQL 到 Hive ODS 层的同步往往面临两个痛点: 性能瓶颈:使用 ROW_NUMBER() 全量去重,在大数据量下会导致严重的 Shuffle 和排序开销。 数据漂移:当业务日期(分区键)被修改时,简单的增量覆盖会导致旧分区残留“幽灵数据”,造成数据重复。 本文分享一种 阅读全文
posted @ 2026-04-14 15:43 飞行的蟒蛇 阅读(11) 评论(0) 推荐(0)
摘要:
-- 1. 基础环境配置SET 'execution.runtime-mode' = 'streaming'; -- 建议设为流模式,实时触发更新SET 'execution.checkpointing.interval' = '30s'; -- Hudi 必须开启 Checkpoint 才能提交数 阅读全文
posted @ 2026-04-08 09:11 飞行的蟒蛇 阅读(3) 评论(0) 推荐(0)
摘要:
package com.atguigu.flink; import com.ververica.cdc.connectors.mysql.source.MySqlSource; import com.ververica.cdc.connectors.mysql.table.StartupOption 阅读全文
posted @ 2026-04-08 09:01 飞行的蟒蛇 阅读(5) 评论(0) 推荐(0)
摘要:
1️⃣ 问题分析 现状风险 重复依赖 如果 50 个 DWD 分别在工作流里单独依赖 ODS 抽取,会导致同一 ODS 表被重复触发或检查。 这样既浪费调度时间,也增加资源占用。 执行效率低 ODS 抽取量大(100 张表),如果每个 DWD 流都等完全部 ODS 才跑,会出现长尾阻塞。 维护成本高 阅读全文
posted @ 2026-04-03 11:03 飞行的蟒蛇 阅读(8) 评论(0) 推荐(0)
摘要:
1️⃣ 依赖配置文件(YAML) 先准备一个 wf_dependency.yaml: domains: TRA: ODS: ["WF_ODS_TRA_DA"] DWD: ["WF_DWD_TRA_DA"] DIM: ["WF_DIM_PRD_DA", "WF_DIM_USR_DA"] ADS: [" 阅读全文
posted @ 2026-04-03 10:55 飞行的蟒蛇 阅读(4) 评论(0) 推荐(0)
摘要:
yaml # 1. 数据库通用连接信息source_db:host: "192.168.1.100"port: 1433user: "sa"password: "YourPassword123"database: "SalesDB" # 2. 待抽取的表列表tables:- name: "Order 阅读全文
posted @ 2026-03-30 15:03 飞行的蟒蛇 阅读(7) 评论(0) 推荐(0)
摘要:
0. 设计哲学 内存压缩:Buffer 尽量使用原生类型(Long, Double),单用户 Shuffle 流量控制在 32 字节以内。 计算下推:在 Map 端完成局部聚合,减少 90% 的网络传输。 接口统一:Scala 封装复杂逻辑,SQL 实现业务调用。 1. 位图模式:通用 N 天连续登 阅读全文
posted @ 2026-03-26 12:13 飞行的蟒蛇 阅读(3) 评论(0) 推荐(0)
摘要:
本文系统介绍 Hive 在 Join 优化与数据倾斜处理上的常用策略,结合实例与参数调优,帮助你在大数据任务中提升执行效率。 一、Hive Join优化 Hive 提供多种 Join 算法,适用于不同场景: 1. Common Join(默认) Map → Shuffle → Reduce 完成 J 阅读全文
posted @ 2026-03-19 13:45 飞行的蟒蛇 阅读(19) 评论(0) 推荐(0)
浙公网安备 33010602011771号