摘要:
参考链接:spinningup 前置知识点 强化学习的基本循环: 智能体(Agent)在环境(Environment)中观察当前状态(State,简称 \(s\)),根据某种策略做出动作(Action,简称 \(a\)),环境会给予反馈奖励(Reward,简称 \(r\)),并进入下一个状态。整个过 阅读全文
posted @ 2026-05-30 11:41
虾饺爱下棋
阅读(73)
评论(0)
推荐(0)
学习与反思 主要是记录自己遇到的问题以及踩的坑 同时欢迎各位大佬,给我提出意见,我一定会好好吸取。_ 准确率只有0.1左右?(or 很低) 有可能是因为权重没有初始化(不一定是必要的) 或者学习率设置的问题,可能设置的太大了,试着调小一些 如何区分验证集和测试集? 训练集 (训练阶段) 用于构建我们 阅读全文