摘要: 为什么你用了向量数据库,系统反而更复杂了 向量数据库并非万能解药:它擅长模糊检索与长尾问题,但仅解决“相似性”而非“正确性”。其优势依赖文档质量、切分合理与embedding适配;反之易致结果玄学、不可解释、调试困难。用前须问:这真是个相似性问题? 阅读全文
posted @ 2026-01-27 19:34 大模型玩家七七 阅读(20) 评论(0) 推荐(1)
摘要: PPO 实战:第一次跑通 PPO,到底难在哪 PPO实战难点不在算法理解,而在系统性不确定:动态数据、不稳reward、多目标冲突。关键在于明确对齐目标、用SFT模型起步、必备reference、设计偏好型reward、聚焦policy更新、善用KL系数调控风险,并以行为变化而非loss曲线评估进展——耐心跑通最小闭环,才是成功核心。 阅读全文
posted @ 2026-01-27 17:44 大模型玩家七七 阅读(9) 评论(0) 推荐(0)
摘要: PPO 微调的本质:它不是在教模型“更聪明” PPO微调本质是“行为选择”而非“知识学习”:它不教模型新能力,而是通过奖励信号与KL约束,在已有能力空间中重校输出概率分布,对齐人类偏好。核心只更新Policy,Reward引导方向,KL保障安全,专治风格、安全、边界问题。 阅读全文
posted @ 2026-01-27 16:54 大模型玩家七七 阅读(14) 评论(0) 推荐(0)
摘要: RAG 的失败,大多在“切文档”那一刻就已经注定 RAG项目常败在文档切分:切得过小导致语义断裂,固定长度破坏表格/列表/步骤等关键结构。真正决定效果的,不是模型或向量库,而是chunk是否具备“语义完整性”——能否独立支撑答案。切分应以“生成可用性”为第一标准,而非检索便利性。 阅读全文
posted @ 2026-01-27 11:24 大模型玩家七七 阅读(20) 评论(0) 推荐(0)