摘要: CUDA 补充教程 - 进阶与深入 目录 第九课:CUDA 错误处理 第十课:原子操作 第十一课:CUDA 流与异步执行 第十二课:CUDA 事件与性能计时 第十三课:统一内存 第十四课:常量内存 第十五课:纹理内存 第十六课:并行归约算法 第十七课:前缀和(扫描)算法 第十八课:Warp 级编程 阅读全文
posted @ 2026-05-07 15:34 梁文锋之深圳分锋 阅读(235) 评论(0) 推荐(0)
摘要: CUDA 系统学习教程 课程大纲 课次 主题 重点内容 1 CUDA 基础概念 GPU 架构、异构计算模型 2 线程层级结构 Grid、Block、Thread 3 内核函数 __global__、__device__、启动语法 4 内存管理 cudaMalloc、cudaMemcpy、cudaFr 阅读全文
posted @ 2026-05-07 15:32 梁文锋之深圳分锋 阅读(59) 评论(0) 推荐(0)
摘要: CMake 系统学习指南 第一部分:CMake 基础概念 1.1 什么是 CMake? CMake 是一个跨平台的构建系统生成器。它不直接构建项目,而是生成平台特定的构建文件: Linux/Unix: 生成 Makefile Windows: 生成 Visual Studio 项目文件 macOS: 阅读全文
posted @ 2026-05-07 11:58 梁文锋之深圳分锋 阅读(16) 评论(0) 推荐(0)
摘要: 异构计算 就是一个计算机或者服务器,同时包含不同类型的处理器,如我们个人电脑常用的CPU+GPU,另外还有别的,在工业上也很常见,如CPU+DSP、CPU+FPGA等等。 异构架构 以深度学习服务器为例,最常见的搭配是1*CPU + n*GPU CPU:复杂的逻辑控制和指令调度,通常成为主机端HOS 阅读全文
posted @ 2026-04-29 20:30 梁文锋之深圳分锋 阅读(15) 评论(0) 推荐(0)
摘要: 计算机架构 冯.诺依曼架构(哈佛架构) 明确指出计算机主要由四部分组成: 中央控制单元(Center Control Unit) 逻辑运算单元(Logic Unit) 输入输出(Input/Output) 数据内存和指令内存(Data Memmory & Zhiling Memmory) 架构图如下 阅读全文
posted @ 2026-04-28 19:54 梁文锋之深圳分锋 阅读(11) 评论(0) 推荐(0)