[置顶] openclaw 思考

摘要: 一些建议 GUI or CLI 内部对龙虾的引入和使用,主要是 GUI的方式:绑定美信,安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。 外部公司已经趋向CLI:钉钉已经彻底 CLI 化了、一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(254) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(227) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(85) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(150) 评论(0) 推荐(0)

2026年6月8日

企业项目实训大纲

摘要: 结合应用型本科、高职高专学生基础,弱化复杂理论、强化实操、案例、趣味互动,拆分 8 大项目的通俗版讲课大纲,整体遵循「趣味引入→基础认知→案例讲解→上手实操→作品产出→总结拓展」节奏,降低难度、侧重落地应用,配套课堂互动、趣味任务、实景案例。 整体课程说明 授课对象:应用型本科、高职高专 大三及以上 阅读全文

posted @ 2026-06-08 12:30 limingqi 阅读(7) 评论(0) 推荐(0)

2026年6月6日

如何写好skill

摘要: 一、什么是 Skill? 1.1 定义 Skill 是一个文件夹,里面装着指令文档、参考资料、可执行脚本等资源。AI 拿到它,就能胜任一项原本不会的特定工作。 比如一个 pdf-editor 技能文件夹里,可能有一份"怎么处理 PDF"的操作指令、一个旋转 PDF 的 Python 脚本、一份 AP 阅读全文

posted @ 2026-06-06 12:14 limingqi 阅读(16) 评论(0) 推荐(0)

2026年5月18日

《AI Agent工程师面试指南》目录

摘要: 本书定位 面向已具备AI项目经验、正在准备AI Agent工程师技术面试的工程师。本书不从零讲授技术原理,而是以面试真题为线索,将读者已有的零散知识系统化,并精准补齐"知道但说不清"的面试盲区。核心目标:帮助读者在技术面试中做到"问得深、答得稳、追得住"。 第一部分 面试全景与求职准备 第1章 AI 阅读全文

posted @ 2026-05-18 10:29 limingqi 阅读(94) 评论(2) 推荐(0)

2026年5月7日

AI 测试面试经验大纲

摘要: 这份大纲覆盖面试全流程 + 核心模块 + 高频考点 + 避坑技巧,适配校招 / 社招,你可以直接照着准备,也能用来梳理简历、模拟面试。 一、面试前准备(地基必打牢) 1. 简历 & 项目梳理(核心加分项) 必须准备1-2 个完整的 AI 测试项目,按「业务背景→测试目标→方案设计→工具 / 方法→关 阅读全文

posted @ 2026-05-07 13:48 limingqi 阅读(66) 评论(0) 推荐(0)

2026年5月6日

毕业生就业难的根源:商业认知缺失,高校与学生的双重困境

摘要: 每年毕业季,“就业难”都会成为高频话题。本科生求职屡屡碰壁,硕士、博士陷入“高学历低就业”的尴尬,甚至不少AI专业的毕业生,手握扎实的技术功底,却迟迟找不到适配的高薪岗位,或入职后快速陷入职业瓶颈,难以突破薪资天花板。 很多人将这一现象归咎于“学历贬值”“就业市场饱和”,但深耕AI职业规划多年,我发 阅读全文

posted @ 2026-05-06 09:43 limingqi 阅读(41) 评论(0) 推荐(0)

2026年5月4日

面向复杂医疗场景的多模态具身智能体协同决策与可解释性研究--博士研究计划书

摘要: 申请人:[姓名]申请院校:北京理工大学研究方向:人工智能、具身智能、医疗 AI指导教师:[导师姓名]日期:2026 年 4 月 摘要 随着医疗系统复杂性的激增和人工智能技术的快速发展,如何在高风险医疗场景中构建安全、可信赖、可解释的智能决策支持系统成为研究热点。 本研究计划提出一种面向复杂医疗场景的 阅读全文

posted @ 2026-05-04 17:53 limingqi 阅读(39) 评论(0) 推荐(0)

2026年4月29日

如何搭建端到端 AI 团队(洪亮劼专栏总结)

摘要: 端到端 AI 团队的关键,不是简单堆砌研究员与工程师,而是搭建研究与产品的知识飞轮——让产品失败定义研究方向,让研究成果反哺产品迭代,靠“共同语言、共同目标、共同节奏”打破两者间的结构性鸿沟。 一、行业痛点:AI 研究院的普遍困境 过去十年,国内外头部企业(腾讯 AI Lab、百度大脑、Meta F 阅读全文

posted @ 2026-04-29 14:37 limingqi 阅读(34) 评论(0) 推荐(0)

2026年4月15日

WorldPM 偏好模型复现与企业场景落地

摘要: 项目定位:大模型对齐 → 奖励模型 (RM) 训练 → 工业级评测 → 企业数据应用 难度:中高级(适合有 Python/PyTorch/LLM 基础学生) 周期:4 周,每周 1 个模块,可直接作为课程 / 实训 / 比赛项目 一、项目总览 项目背景 大模型落地必须解决对齐人类偏好问题,奖励模型( 阅读全文

posted @ 2026-04-15 17:41 limingqi 阅读(26) 评论(0) 推荐(0)

2026年4月10日

大模型 & 智能体(Agent)求职与面试手册

摘要: 一、开篇:岗位认知(必写!小白必看) 大模型 / Agent 到底招什么样的人 产品岗 vs 算法岗 vs 应用岗 区别 通用底层能力 逻辑思维 沟通表达 学习迭代能力 问题解决能力 AI 专属底层能力 模型认知能力 提示工程思维 RAG 工程思维 工具调用思维 系统设计思维 工程落地能力 工程意识 阅读全文

posted @ 2026-04-10 18:10 limingqi 阅读(315) 评论(0) 推荐(0)

导航