飞行的蟒蛇 - 博客园

datax 读取 sqlserver 写入Doris

摘要： { "job": { "setting": { "speed": { "channel": 1, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "n 阅读全文

posted @ 2026-04-21 11:26 飞行的蟒蛇阅读(3) 评论(0) 推荐(0)

flink+doris+ds 3节点组件部署推荐

摘要：阅读全文

posted @ 2026-04-15 16:44 飞行的蟒蛇阅读(6) 评论(0) 推荐(0)

告别 ROW_NUMBER()：基于受影响分区追踪的 Hive ODS 局部更新方案

摘要：在构建离线数仓时，MySQL 到 Hive ODS 层的同步往往面临两个痛点：性能瓶颈：使用 ROW_NUMBER() 全量去重，在大数据量下会导致严重的 Shuffle 和排序开销。数据漂移：当业务日期（分区键）被修改时，简单的增量覆盖会导致旧分区残留“幽灵数据”，造成数据重复。本文分享一种阅读全文

posted @ 2026-04-14 15:43 飞行的蟒蛇阅读(11) 评论(0) 推荐(0)

flinksql 同步数据到 hudi

摘要： -- 1. 基础环境配置SET 'execution.runtime-mode' = 'streaming'; -- 建议设为流模式，实时触发更新SET 'execution.checkpointing.interval' = '30s'; -- Hudi 必须开启 Checkpoint 才能提交数阅读全文

posted @ 2026-04-08 09:11 飞行的蟒蛇阅读(3) 评论(0) 推荐(0)

flinkcdc断点续传

摘要： package com.atguigu.flink; import com.ververica.cdc.connectors.mysql.source.MySqlSource; import com.ververica.cdc.connectors.mysql.table.StartupOption 阅读全文

posted @ 2026-04-08 09:01 飞行的蟒蛇阅读(5) 评论(0) 推荐(0)

DolphinScheduler 作业架构

摘要： 1️⃣ 问题分析现状风险重复依赖如果 50 个 DWD 分别在工作流里单独依赖 ODS 抽取，会导致同一 ODS 表被重复触发或检查。这样既浪费调度时间，也增加资源占用。执行效率低 ODS 抽取量大（100 张表），如果每个 DWD 流都等完全部 ODS 才跑，会出现长尾阻塞。维护成本高阅读全文

posted @ 2026-04-03 11:03 飞行的蟒蛇阅读(8) 评论(0) 推荐(0)

批量重跑DolphinScheduler 作业

摘要： 1️⃣ 依赖配置文件（YAML）先准备一个 wf_dependency.yaml： domains: TRA: ODS: ["WF_ODS_TRA_DA"] DWD: ["WF_DWD_TRA_DA"] DIM: ["WF_DIM_PRD_DA", "WF_DIM_USR_DA"] ADS: [" 阅读全文

posted @ 2026-04-03 10:55 飞行的蟒蛇阅读(4) 评论(0) 推荐(0)

DataX JSON 生成自动化脚本

摘要： yaml # 1. 数据库通用连接信息source_db:host: "192.168.1.100"port: 1433user: "sa"password: "YourPassword123"database: "SalesDB" # 2. 待抽取的表列表tables:- name: "Order 阅读全文

posted @ 2026-03-30 15:03 飞行的蟒蛇阅读(7) 评论(0) 推荐(0)

Spark 高性能 UDAF 开发与 SQL 实战手册

摘要： 0. 设计哲学内存压缩：Buffer 尽量使用原生类型（Long, Double），单用户 Shuffle 流量控制在 32 字节以内。计算下推：在 Map 端完成局部聚合，减少 90% 的网络传输。接口统一：Scala 封装复杂逻辑，SQL 实现业务调用。 1. 位图模式：通用 N 天连续登阅读全文

posted @ 2026-03-26 12:13 飞行的蟒蛇阅读(3) 评论(0) 推荐(0)

Hive HQL优化全攻略：Join优化与数据倾斜处理

摘要：本文系统介绍 Hive 在 Join 优化与数据倾斜处理上的常用策略，结合实例与参数调优，帮助你在大数据任务中提升执行效率。一、Hive Join优化 Hive 提供多种 Join 算法，适用于不同场景： 1. Common Join（默认） Map → Shuffle → Reduce 完成 J 阅读全文

posted @ 2026-03-19 13:45 飞行的蟒蛇阅读(19) 评论(0) 推荐(0)