个人网站建设 开题报告html5网站案例
个人网站建设 开题报告,html5网站案例,soso网站提交入口,惠州网站建设哪里有强化学习的任务分类需结合环境特性、学习目标、动作与状态空间等核心维度#xff0c;主流且清晰的分类如下#xff0c;兼顾逻辑性和实用性#xff0c;方便理解记忆#xff1a;一、按环境可观测性#xff08;最基础核心分类#xff09;完全可观测马尔可夫决策过程#xf…强化学习的任务分类需结合环境特性、学习目标、动作与状态空间等核心维度主流且清晰的分类如下兼顾逻辑性和实用性方便理解记忆一、按环境可观测性最基础核心分类完全可观测马尔可夫决策过程MDP智能体能够获取环境的完整状态信息无需猜测隐藏状态决策仅依赖当前状态。例如棋盘类游戏围棋、象棋智能体可看到全部棋盘布局明确每一步的可选动作及结果。部分可观测马尔可夫决策过程POMDP智能体仅能获取环境的部分状态信息需通过历史观测数据推断真实状态决策难度更高。例如自动驾驶无法完全感知所有路况隐患、机器人导航遮挡场景下的位置判断。二、按任务持续特性学习目标导向回合制任务Episodic Task任务有明确的 “开始 - 结束” 节点即一个 “回合”回合结束后得到最终奖励学习目标是最大化单回合总奖励。例如一局王者荣耀、一次机器人从起点到终点的导航、一次游戏闯关。持续型任务Continuous Task任务无明确结束节点智能体持续与环境交互学习目标是最大化长期累积奖励。例如工业设备持续控制维持稳定运行、智能助手长期响应人类指令、自动驾驶汽车持续行驶。三、按环境确定性环境动态特性确定性环境给定当前状态和动作下一个状态、获得的奖励是唯一确定的无随机因素。例如固定规则的迷宫走到某一位置选择 “向右”必然进入下一个固定格子。随机性环境给定当前状态和动作下一个状态、获得的奖励服从概率分布存在随机波动更贴近现实场景。例如扑克牌游戏发牌结果随机、自动驾驶中的突发路况行人突然横穿马路的概率性。四、按动作空间类型智能体决策范围离散动作空间智能体的可选动作是有限集合每个动作相互独立、可枚举。例如游戏中的 “上下左右” 移动、棋类的落子位置选择、开关的 “开 / 关” 操作常用 Q-learning、SARSA 等算法。连续动作空间智能体的可选动作是连续区间动作取值可无限细分。例如机器人关节的转动角度0°-180°、自动驾驶的车速控制0-120km/h、无人机的飞行高度调节常用 DDPG、PPO 等深度强化学习算法。补充以上分类并非孤立一个任务可同时属于多个类别如自动驾驶既是 POMDP、持续型任务也是随机性环境、连续动作空间任务。