策略迭代，值迭代与截断迭代

type

Post

status

Published

date

May 26, 2026

slug

summary

值迭代

值迭代的合理性来源于压缩映射定理，具体而言，该算法为：

定理 1 保证了当时，和分别收敛于最优状态值和最优策略。

该算法是迭代式的，在每次迭代中包含两个步骤。

其中是在上一轮迭代中获得的。

其中将被用于下一次迭代。

上面介绍的值迭代算法是矩阵-向量（matrix-vector）形式。为了实现该算法，我们需要进一步明白它的元素级（elementwise）形式。

这是我们在贝尔曼公式里见到过的，其实在这个情况下进行更新的策略的选择很简单，直接选当前的情况下，能够使得Q值最大的那个action即可。

其中

在我们选择好一个新的策略之后，又可以更新v值了，新的v值当然是基于新的策略来计算的，首先计算出各个action能获得的状态价值：

然后选出其中最大的action作为当前状态下要采取的新action

总的来说，这个流程可以描述成：