木木ちゃん - 博客园

2026年5月6日

线性注意力机制学习笔记

摘要：线性注意力泛读阅读全文

posted @ 2026-05-06 14:27 木木ちゃん阅读(170) 评论(0) 推荐(0)

2026年4月16日

关于二分查找的简单思考

摘要：二分查找真的是排列组合+死记硬背吗？阅读全文

posted @ 2026-04-16 10:45 木木ちゃん阅读(47) 评论(0) 推荐(0)

2026年4月5日

DWDP: 在NVL72上的高性能分布式权重数据并行

摘要： DWDP: 在NVL72上的高性能分布式权重数据并行论文原文 DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72 TensorRT-LLM PR#12136 代码 TensorR 阅读全文

posted @ 2026-04-05 22:18 木木ちゃん阅读(101) 评论(0) 推荐(0)

2026年4月3日

NCCL EP 论文解读

摘要： NCCL-EP: NCCL统一的专家并行API 相关的代码在：Code 相关的论文：NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL 本来很期待这篇论文能带来什么新的insights，但是最后感觉非常遗憾，很多阅读全文

posted @ 2026-04-03 20:56 木木ちゃん阅读(173) 评论(0) 推荐(0)

2026年3月13日

Megatron-LM-Moe 论文阅读笔记

摘要：可扩展 Moe 模型在 MegatronLM 核心上的训练原论文请点击：Scalable training of Mixture-of-Experts Models with Megatron Core 笔者注：最近感觉一直在挖坑，而且还根本没时间填。自己水平不够没有什么创造性的工作，总是搬一些源阅读全文

posted @ 2026-03-13 17:18 木木ちゃん阅读(70) 评论(0) 推荐(0)

2025年11月5日

(ISCA 2025) Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models

摘要：主要创新（感觉也没多少？） 1. 将算子分解成细粒度算子 2. 算子重排 3. 算子融合感觉更像是大号综述。。。阅读全文

posted @ 2025-11-05 14:27 木木ちゃん阅读(242) 评论(2) 推荐(0)

2025年10月11日

(Sigcomm'25) Stellar: 阿里新一代云AI RDMA网络

摘要：创新点主要有： 1. PVDMA：带参数的虚拟化直接地址访问，降低系统启动时间。 2. eMTT：扩展内存翻译表，从而更大化地利用GDR性能。 3. Packet Spray：有效地利用RDMA多路，提升RDMA通信性能。（严格上不是创新而是实验得到最优方案）阅读全文

posted @ 2025-10-11 15:29 木木ちゃん阅读(1223) 评论(0) 推荐(2)

2025年9月29日

deepseek-v3.2-exp: 节前发版之打工人的悲鸣

摘要：我讨厌放假前读论文阅读全文

posted @ 2025-09-29 23:34 木木ちゃん阅读(1377) 评论(1) 推荐(3)

2025年9月27日

关于Leetcode 812题的简单思考

摘要：关于812题的 \(O(n)\) 算法的简单思考因为今天的题目很有意思所以特别想跟大家分享一下。 812. 最大三角形面积一开始我想到了凸包，然后想到凸包后可以采用 \(O(n^2)\) 的渐进算法算出最大面积。但是灵神的回答中提到了一篇论文！ Maximal Area Triangles in 阅读全文

posted @ 2025-09-27 19:53 木木ちゃん阅读(60) 评论(0) 推荐(0)

2025年9月15日

减少KVCache

摘要：减少KVCache：从MHA，MQA，GQA到MLA 参考链接科学空间，苏神的blog 大模型推理加速：看图学KVCache 前言也是终于到了稍微有一点时间的时候，也需要对看过的东西进行简单的总结了。这里就总结一下论文中最喜欢的attention，以及与KVCache之间的关系。基础：什么是a 阅读全文

posted @ 2025-09-15 21:54 木木ちゃん阅读(63) 评论(0) 推荐(0)

mumujun12345

公告