本文研究马尔科夫决策规划(MDP){S,(A_(i),i∈S),q,Γ,V}的求值运算。为了保证用长期总期望报酬∑ E_π{R_1|y_0=i}作为目标函数具有收敛性,引进一个折扣因子β(0<β<1)使折扣目标函数V_β(π·)达到最优。为了使求值运算程序化,提出了策略迭代法求最优策略f_n~∞和最优报酬函数V_β(f)。本文并给出了策略迭代法的运算框图及数值计算的例子。
杨春巍. F有限折扣模型的策略迭代法[J].土木与环境工程学报(中英文),1988,10(2). Yang Chunwei. THE TACTICS ALTERNATIVE METHOD FOR THE MODEL OF F FINITE DISCOUNT[J]. JOURNAL OF CIVIL AND ENVIRONMENTAL ENGINEERING,1988,10(2).10.11835/j. issn.1674-4764.1988.02.013