随笔档案「2026年1月27日」：为什么你用了向量数据库，系统反而更复杂了 ... - 大模型玩家七七

摘要：

向量数据库并非万能解药：它擅长模糊检索与长尾问题，但仅解决“相似性”而非“正确性”。其优势依赖文档质量、切分合理与embedding适配；反之易致结果玄学、不可解释、调试困难。用前须问：这真是个相似性问题？阅读全文

posted @ 2026-01-27 19:34 大模型玩家七七阅读(37) 评论(0) 推荐(1)

摘要：

PPO实战难点不在算法理解，而在系统性不确定：动态数据、不稳reward、多目标冲突。关键在于明确对齐目标、用SFT模型起步、必备reference、设计偏好型reward、聚焦policy更新、善用KL系数调控风险，并以行为变化而非loss曲线评估进展——耐心跑通最小闭环，才是成功核心。阅读全文

posted @ 2026-01-27 17:44 大模型玩家七七阅读(17) 评论(0) 推荐(0)

摘要：

PPO微调本质是“行为选择”而非“知识学习”：它不教模型新能力，而是通过奖励信号与KL约束，在已有能力空间中重校输出概率分布，对齐人类偏好。核心只更新Policy，Reward引导方向，KL保障安全，专治风格、安全、边界问题。阅读全文

posted @ 2026-01-27 16:54 大模型玩家七七阅读(26) 评论(0) 推荐(0)

摘要：

RAG项目常败在文档切分：切得过小导致语义断裂，固定长度破坏表格/列表/步骤等关键结构。真正决定效果的，不是模型或向量库，而是chunk是否具备“语义完整性”——能否独立支撑答案。切分应以“生成可用性”为第一标准，而非检索便利性。阅读全文

posted @ 2026-01-27 11:24 大模型玩家七七阅读(40) 评论(0) 推荐(0)