limingqi - 博客园

[置顶] 自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(176) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要： POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分，结合具体例子会更易理解：一、核心目标让奖励模型（RM）像 “策略侦探” 一样，学会判断两条轨迹（模型输出）是否来自同一个 “政策”（即同一个模型或相似行为模式的模型）。如果来自同一政策，就给它们更高的 “相阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(67) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(130) 评论(0) 推荐(0)

新书上线｜从零玩转智能体，靠OpenClaw思路打造专属AI助手，解放你的双手

摘要：大家好，今天想和大家分享一个我筹备了很久的好消息——我的新书《玩转智能体打造个性化AI》正式上线了！写这本书的初衷，源于身边太多朋友的困惑：看着AI智能体火遍全网，想上手却无从下手，要么被复杂的理论吓退，要么学了Prompt却不知道怎么落地，更不知道如何打造真正适配自己工作、学习的专属AI助手。阅读全文

posted @ 2026-03-27 14:06 limingqi 阅读(19) 评论(0) 推荐(0)

如何挣资本的钱

摘要：想 “挣资本的钱”，本质就一句话：从 “靠出卖时间换钱”，变成 “让钱 / 资源自己生钱”。下面给你一套最现实、能落地的路径，不画大饼。一、先搞懂：资本的钱，到底是什么钱？资本赚钱，只靠三类：钱生钱：利息、股息、基金、房产增值、股权分红杠杆钱：用别人的钱 / 时间放大收益（合理杠杆，不是赌博阅读全文

posted @ 2026-03-24 10:14 limingqi 阅读(28) 评论(0) 推荐(0)

如何做Agent架构设计

摘要：想学会「架构设计」，不用玄学，就走这条最稳、最实用的路线我给你一套能直接照做、从 0 到能独立设计系统架构的完整学习路径，不讲空话，全部是工程师真实成长路线。一、先搞懂：架构到底在干什么？一句话：架构 = 把复杂问题拆干净 + 模块职责定清楚 + 交互关系画明白 + 保证未来好扩展、好维护、不阅读全文

posted @ 2026-03-20 18:11 limingqi 阅读(10) 评论(0) 推荐(0)

生成企业级代码架构的 Prompt 指南

摘要：根据你当前的项目，这个架构的优秀之处在于： 1. 清晰的分层设计 - 应用层、业务层、基础层职责明确2. 插件化架构 - 支持动态扩展，依赖管理完善3. 标准化接口 - 同时支持 REST API 和 MCP 协议4. 类型安全 - 全面使用 Pydantic 和 Type Hints5. 事件驱动阅读全文

posted @ 2026-03-18 16:11 limingqi 阅读(7) 评论(0) 推荐(0)

简单工厂模式 python

摘要：一、核心模式：工厂模式（Factory Pattern）+ 注册表模式（Registry Pattern）这段代码是简单工厂模式（Simple Factory）的典型实现，同时结合了「注册表模式（Registry Pattern）」（也叫注册器模式），属于设计模式中「创建型模式」的组合应用，核心目阅读全文

posted @ 2026-03-18 15:40 limingqi 阅读(7) 评论(0) 推荐(0)

发布 - 订阅模式 python

摘要：一、核心模式：发布 - 订阅模式（Publish-Subscribe Pattern）这段代码是发布 - 订阅模式（Pub/Sub）（也常被称为「观察者模式」的变种）的典型实现，属于设计模式中「行为型模式」，核心是解耦「事件发布者」和「事件订阅者」—— 发布者（EventBus）只负责触发事件，无阅读全文

posted @ 2026-03-18 15:25 limingqi 阅读(7) 评论(0) 推荐(0)

依赖注入模式 python

摘要：一、核心设计模式：依赖注入模式（Dependency Injection, DI）这段代码的核心是依赖注入模式（属于控制反转 IoC 的一种实现方式），同时结合了「插件模式（Plugin Pattern）」的基础框架，是工业级插件化系统中最常用的设计组合。 1. 先明确核心模式的定义依赖注入（D 阅读全文

posted @ 2026-03-18 13:54 limingqi 阅读(4) 评论(0) 推荐(0)

单例模式 python实现

摘要：一、代码核心模式：单例模式（Singleton Pattern）这段代码实现的是单例模式（更具体地说，是「懒汉式单例模式」），这是设计模式中最常用的创建型模式之一。 1. 单例模式的核心定义单例模式的核心目标是保证一个类在整个程序生命周期中只有一个实例对象，并提供一个全局唯一的访问入口。简单来说阅读全文

posted @ 2026-03-18 13:49 limingqi 阅读(3) 评论(0) 推荐(0)

架构设计的思维过程

摘要：高质量的架构 - 插件 + 依赖注入 = 高内聚低耦合- 观察者模式 = 松耦合的通知机制- 单例 + 注册中心 = 全局状态管理- 策略 + 装饰器 = 灵活的功能扩展- 门面 + 代理 = 简化复杂系统 # KSP Env 架构设计思维过程 ## 🎯 架构设计的思维过程 ### 1️⃣ **从阅读全文

posted @ 2026-03-18 10:57 limingqi 阅读(3) 评论(0) 推荐(0)

商道归心，连接方为底色

摘要：人们总以为，商业的底色是利益，是数字的博弈，是资本的流转。可拨开喧嚣的表象，褪去功利的外衣才会发现：商业的本质，从来不是冰冷的交易，而是温暖的人与人的连接。一笔生意的达成，从来不是单向的索取与给予，而是两颗心的呼应，是彼此的信任与成全。货架上的每一件商品，背后都藏着创作者的用心；每一次成交的瞬间，阅读全文

posted @ 2026-03-09 11:36 limingqi 阅读(16) 评论(0) 推荐(0)