摘要: 线性注意力泛读 阅读全文
posted @ 2026-05-06 14:27 木木ちゃん 阅读(170) 评论(0) 推荐(0)
摘要: 二分查找真的是排列组合+死记硬背吗? 阅读全文
posted @ 2026-04-16 10:45 木木ちゃん 阅读(47) 评论(0) 推荐(0)
摘要: DWDP: 在NVL72上的高性能分布式权重数据并行 论文原文 DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72 TensorRT-LLM PR#12136 代码 TensorR 阅读全文
posted @ 2026-04-05 22:18 木木ちゃん 阅读(101) 评论(0) 推荐(0)
摘要: NCCL-EP: NCCL统一的专家并行API 相关的代码在:Code 相关的论文:NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL 本来很期待这篇论文能带来什么新的insights,但是最后感觉非常遗憾,很多 阅读全文
posted @ 2026-04-03 20:56 木木ちゃん 阅读(173) 评论(0) 推荐(0)
摘要: 可扩展 Moe 模型在 MegatronLM 核心上的训练 原论文请点击:Scalable training of Mixture-of-Experts Models with Megatron Core 笔者注:最近感觉一直在挖坑,而且还根本没时间填。自己水平不够没有什么创造性的工作,总是搬一些源 阅读全文
posted @ 2026-03-13 17:18 木木ちゃん 阅读(70) 评论(0) 推荐(0)
摘要: 主要创新(感觉也没多少?) 1. 将算子分解成细粒度算子 2. 算子重排 3. 算子融合 感觉更像是大号综述。。。 阅读全文
posted @ 2025-11-05 14:27 木木ちゃん 阅读(242) 评论(2) 推荐(0)
摘要: 创新点主要有: 1. PVDMA:带参数的虚拟化直接地址访问,降低系统启动时间。 2. eMTT:扩展内存翻译表,从而更大化地利用GDR性能。 3. Packet Spray:有效地利用RDMA多路,提升RDMA通信性能。(严格上不是创新而是实验得到最优方案) 阅读全文
posted @ 2025-10-11 15:29 木木ちゃん 阅读(1223) 评论(0) 推荐(2)
摘要: 我讨厌放假前读论文 阅读全文
posted @ 2025-09-29 23:34 木木ちゃん 阅读(1377) 评论(1) 推荐(3)
摘要: 关于812题的 \(O(n)\) 算法的简单思考 因为今天的题目很有意思所以特别想跟大家分享一下。 812. 最大三角形面积 一开始我想到了凸包,然后想到凸包后可以采用 \(O(n^2)\) 的渐进算法算出最大面积。但是灵神的回答中提到了一篇论文! Maximal Area Triangles in 阅读全文
posted @ 2025-09-27 19:53 木木ちゃん 阅读(60) 评论(0) 推荐(0)
摘要: 减少KVCache:从MHA,MQA,GQA到MLA 参考链接 科学空间,苏神的blog 大模型推理加速:看图学KVCache 前言 也是终于到了稍微有一点时间的时候,也需要对看过的东西进行简单的总结了。这里就总结一下论文中最喜欢的attention,以及与KVCache之间的关系。 基础:什么是a 阅读全文
posted @ 2025-09-15 21:54 木木ちゃん 阅读(63) 评论(0) 推荐(0)