2026年4月2日

摘要: 开门见山,本篇文章主要包含以下知识点: 什么是Transformer 大模型的结构设计 模型微调 分布式训练 大模型量化 如果能根据这个分布模块每个部分都能讲个大概,大抵就是掌握大模型的训练技巧了。 参考文献:> https://blog.csdn.net/gitblog_00158/article 阅读全文

posted @ 2026-04-02 14:28 k0pa 阅读(20) 评论(0) 推荐(0)


2025年12月12日

摘要: 论文标题:OSDFace: One-Step Diffusion Model for Face Restoration 作者:Jingkai Wang1, Jue Gong1, Lin Zhang1, Zheng Chen1,Xing Liu2, Hong Gu2, Yutong Liu1†, Yu 阅读全文

posted @ 2025-12-12 16:11 k0pa 阅读(3) 评论(0) 推荐(0)


2025年9月22日

摘要: 论文:> https://arxiv.org/abs/2110.04627 > 参考代码:> https://github.com/thuanz123/enhancing-transformers > 原理部分参考: https://zhuanlan.zhihu.com/p/611689477 ht 阅读全文

posted @ 2025-09-22 21:33 k0pa 阅读(128) 评论(0) 推荐(0)


2025年8月29日

摘要: 本文大部分参考自> https://zhuanlan.zhihu.com/p/548904297 > 并进行了精简与修改,仅供学习使用。 一、卷积参数: 二维离散卷积:N=2; 输入大小:\(i_1=i_2=i\); 卷积核大小:\(k_1=k_2=k\); 两个方向的步长:\(s_1=s_2=s\ 阅读全文

posted @ 2025-08-29 18:32 k0pa 阅读(244) 评论(0) 推荐(0)


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3