deephub

2025年10月11日

摘要： Pandas 的 bug 有个特点，就是不会在控制台里大喊大叫，而是悄悄藏在 dtype 转换、索引操作、时区处理的某个角落，或者那种跑十万次才能复现一次的边界条件。所以如果你想找到和定位这种隐藏的BUG就需要一套相对简洁的测试手段能把大部分坑提前暴露出来。下面这 12 个策略是实际项目里反复使用阅读全文

posted @ 2025-10-11 21:21 deephub 阅读(10) 评论(0) 推荐(0)

2025年10月10日

mmBERT：307M参数覆盖1800+语言，3万亿tokens训练

摘要： mmBERT是一个纯编码器架构的语言模型，在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT，但又加入了不少创新点，比如逆掩码比率调度和逆温度采样。而且研究团队还把1700多种低资源语言放在了衰减阶段加入训练，这个策略带来了相当不错的效果提升，充分利用阅读全文

posted @ 2025-10-10 21:32 deephub 阅读(23) 评论(0) 推荐(0)

2025年10月9日

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

摘要： GPU 性能没问题，模型也训练得不错，但 token 吞吐量就是上不去？问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向，都是能直接上生产环境的那种。 https://avoid.overfit.cn/post/321dd7c3c76444b59e97137c23ff696 阅读全文

posted @ 2025-10-09 21:05 deephub 阅读(33) 评论(0) 推荐(0)

2025年10月8日

vLLM推理加速指南：7个技巧让QPS提升30-60%

摘要： GPU 永远不够用，这大概是每个做推理服务的人都有的共识。相比无脑加卡，更实际的办法是把现有资源榨干。下面这些是我在实际项目里反复用到的几个调优手段，有代码、有数据、也有一些踩坑经验。 https://avoid.overfit.cn/post/fe3bc408622e424695dbcc27f0b 阅读全文

posted @ 2025-10-08 21:32 deephub 阅读(73) 评论(0) 推荐(0)

2025年10月7日

打造自主学习的AI Agent：强化学习+LangGraph代码示例

摘要：在充满不确定性的现实世界里，AI的价值不在于预设规则，而在于持续学习和适应 AI Agent这个概念最近被炒得很热，从管理日程的语音助手到仓库里跑来跑去的机器人，大家都在谈论Agent的"自主性"。但是真正让Agent变得intelligent的核心技术，其实是强化学习（Reinforcement 阅读全文

posted @ 2025-10-07 21:17 deephub 阅读(44) 评论(0) 推荐(0)

2025年10月6日

向量存储vs知识图谱：LLM记忆系统技术选型

摘要： LLM本质上是无状态的，如果你了解HTTP协议就很好理解这个概念，但是如果你没接触过这，那么可以理解成它们没有短期记忆能力，每次和LLM交互，都得把之前的对话重新喂给它。短期记忆或者说状态管理其实很好处理，拿几组历史问答塞进prompt就行了。但是如果是长期记忆呢？要让LLM准确提取历史信息、理阅读全文

posted @ 2025-10-06 21:17 deephub 阅读(23) 评论(0) 推荐(0)

2025年10月5日

NumPy广播：12个技巧替代循环，让数组计算快40倍

摘要：写Python数据处理代码时反复用for循环？这其实是在给程序性能交"税"。NumPy的广播(broadcasting)机制能让你摆脱这种困境——代码量更少，执行更快，关键是思维方式从"逐个迭代"转向"整体形状操作"。掌握这些模式后，你的CPU负载会明显下降。 https://avoid.overf 阅读全文

posted @ 2025-10-05 21:14 deephub 阅读(13) 评论(0) 推荐(0)

2025年10月4日

Google开源Tunix：JAX生态的LLM微调方案来了

摘要： AX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。Google今天放出了Tunix这个库，专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。 Tunix是什么这是个构建在JAX之上的后训练库，和Flax 阅读全文

posted @ 2025-10-04 20:43 deephub 阅读(31) 评论(0) 推荐(0)

2025年10月3日

从DQN到Double DQN：分离动作选择与价值评估，解决强化学习中的Q值过估计问题

摘要： 2015年DQN在Atari游戏上取得突破性进展，从此以后强化学习终于能处理复杂环境了，但没多久研究者就注意到一些奇怪的现象： Q值会莫名其妙地增长到很大，智能体变得异常自信，坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住，部分游戏的表现甚至开始崩盘。问题出在哪？答案是DQN更新阅读全文

posted @ 2025-10-03 21:50 deephub 阅读(13) 评论(0) 推荐(0)

2025年10月2日

PINN训练新思路：把初始条件和边界约束嵌入网络架构，解决多目标优化难题

摘要： PINNs出了名的难训练。主要原因之一就是这个多目标优化问题。优化器很容易找到投机取巧的路径——比如拼命降低微分方程残差，但完全不管初始条件和边界约束。只要给初始条件和边界损失配的权重够低，它们增加的那点损失完全能被残差损失的大幅下降抵消掉。调整权重也许能暂时缓解这个问题，但谁也不能保证最优权重在整阅读全文

posted @ 2025-10-02 21:39 deephub 阅读(54) 评论(0) 推荐(0)

overfit深度学习

公告