公司中英文网站对于网站建设的体会
公司中英文网站,对于网站建设的体会,网站核心词如何做,wordpress作者 页面文章目录Return回报Return的意义Return的计算公式State-value function状态价值函数Bellman Equation贝尔曼方程贝尔曼方程的理解贝尔曼方程的求解贝尔曼方程的简化方式数值例子策略评估Action-value function动作价值函数贝尔曼方程#xff0c;状态价值函数和动作价值函数的关…文章目录Return回报Return的意义Return的计算公式State-value function状态价值函数Bellman Equation贝尔曼方程贝尔曼方程的理解贝尔曼方程的求解贝尔曼方程的简化方式数值例子策略评估Action-value function动作价值函数贝尔曼方程状态价值函数和动作价值函数的关系Return回报Return的意义Return是沿着某一路径的累积折扣奖励Return的作用可用于评估当前策略的价值。Return的计算公式注意全是随机变量意味着可以使用期望消去R t R_tRt与R t 1 R_{t1}Rt1都可以表示t时刻采取行动获得的即刻奖励习惯使用后者。State-value function状态价值函数状态价值函数给定当前状态其平均回报是什么(不知道当前动作和未来的状态和动作)Bellman Equation贝尔曼方程使用期望的加法性质拆分G_t使用全概率公式分别计算两项最终形式贝尔曼方程的理解这是一种自举(bootstrapping)的方法自己推导自己对于所有的状态都适用这一点很重要。简化如果所有策略都是确定性的那么所有的求和符合都可以消去只有一条轨迹。贝尔曼方程的求解特别的性质贝尔曼方程对于所有状态都适用如果我们知道策略对于所有者状态都列举方程可以通过求解线性方程组的形式求解贝尔曼方程。贝尔曼方程的简化方式当前状态的期望奖励和未来状态的期望奖励的总和。当前状态的期望奖励和状态转移概率可以提前计算出来r π ( s ) r_{\pi}(s)rπ(s)代表状态s下的期望即刻奖励注意没有确定动作。P π P_{\pi}Pπ代表当前状态转移矩阵维度为nxn。数值例子通常求解线性方程组或者迭代方式可以求解策略评估贝尔曼方程可以用于策略评估对于好策略状态价值函数的值普遍较大Action-value function动作价值函数核心思想与状态价值函数一致都是未来期望的累积折扣奖励在此基础上给定了某个状态和采取的动作。贝尔曼方程状态价值函数和动作价值函数的关系贝尔曼方程的右半部分等价于动作价值函数Q π ( s , a ) Q_{\pi}(s,a)Qπ(s,a)