摘要: 为什么很多团队从 PPO 转向 DPO,却又离不开 PPO PPO与DPO并非新旧替代关系,而是分属对齐不同阶段的工具:PPO用于行为“塑形”(强干预、纠偏乱序),DPO用于偏好“定型”(稳定微调、精细排序)。选型关键看模型是否已基本可控——乱则用PPO,稳则用DPO。 阅读全文
posted @ 2026-01-28 18:04 大模型玩家七七 阅读(8) 评论(0) 推荐(0)
摘要: PPO 真正的应用场景,和你想的可能不一样 PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。 阅读全文
posted @ 2026-01-28 18:02 大模型玩家七七 阅读(6) 评论(0) 推荐(0)
摘要: 智能客服不是问答机器人,微调更不是“多训点数据” 智能客服失败常因误将“问答机器人”当“服务处理器”。其核心不在答对,而在判断:是否该答、答到哪、何时转人工、如何安抚。微调非万能,仅适用于稳定风格、固化明确规则、强化安全拒答三类场景;知识更新、动态状态、争议判断等问题,应交由RAG或规则系统处理。 阅读全文
posted @ 2026-01-28 16:31 大模型玩家七七 阅读(24) 评论(0) 推荐(0)
摘要: 向量数据库实战:从“看起来能用”到“真的能用”,中间隔着一堆坑 本文揭示向量数据库实战的七大关键陷阱:选型前需明确业务本质(模糊匹配 or 精确查询?);embedding 比数据库本身更重要,决定语义“世界观”;文档切分是核心工程,非辅助步骤;建库成功≠可用,TopK 准确率会随数据演进失效;“相似但不可用”是常态,必须引入 rerank;需建立可追溯的bad case排查路径;向量库是长期系统,非一次性组件。核心结论:难在“用对”,不在“用上”。 阅读全文
posted @ 2026-01-28 12:23 大模型玩家七七 阅读(18) 评论(0) 推荐(0)