Loading
CLOUD09_SPACE
0%
INITIALIZING
策略迭代,值迭代与截断迭代
DOC_ID // 36c226ONLINE

策略迭代,值迭代与截断迭代

2026-5-26
AI
537 CHARS
#强化学习
CLOUD09
type
Post
status
Published
date
May 26, 2026
slug
summary
tags
强化学习
category
AI
icon
password

值迭代

值迭代的合理性来源于压缩映射定理,具体而言,该算法为:
定理 1 保证了当 时,分别收敛于最优状态值和最优策略。
该算法是迭代式的,在每次迭代中包含两个步骤。
  • 在每次迭代中的第一步是策略更新(policy update)步骤。从数学上讲,它的目标是寻找一个能够解决以下优化问题的策略:
    • 其中 是在上一轮迭代中获得的。
  • 第二步被称为值更新(value update)步骤。从数学上讲,它通过以下公式计算一个新的值
    • 其中 将被用于下一次迭代。
上面介绍的值迭代算法是矩阵-向量(matrix-vector)形式。为了实现该算法,我们需要进一步明白它的元素级(elementwise)形式
  • 值更新
这是我们在贝尔曼公式里见到过的,其实在这个情况下进行更新的策略的选择很简单,直接选当前 的情况下,能够使得Q值最大的那个action即可。
其中
  • 策略更新
在我们选择好一个新的策略之后,又可以更新v值了,新的v值当然是基于新的策略来计算的,首先计算出各个action能获得的状态价值:
然后选出其中最大的action作为当前状态下要采取的新action
总的来说,这个流程可以描述成:

策略迭代

NAVIGATION // Related Articles
Loading...
© 2021-2026 Echocean