F有限折扣模型的策略迭代法

doi:10.11835/j.issn.1674-4764.1988.02.013

首页 > 过刊浏览>1988年第10卷第2期 >. DOI:10.11835/j.issn.1674-4764.1988.02.013

F有限折扣模型的策略迭代法
DOI:
                        10.11835/j.issn.1674-4764.1988.02.013
                    
CSTR:
                        [cstr]
                    
作者:
                        
                        
                    
作者单位:
作者简介:
通讯作者:
中图分类号:
基金项目:

THE TACTICS ALTERNATIVE METHOD FOR THE MODEL OF F FINITE DISCOUNT

Author:

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

本文研究马尔科夫决策规划(MDP){S,(A_(i),i∈S),q,Γ,V}的求值运算。为了保证用长期总期望报酬∑ E_π{R_1|y_0=i}作为目标函数具有收敛性,引进一个折扣因子β(0<β<1)使折扣目标函数V_β(π·)达到最优。为了使求值运算程序化,提出了策略迭代法求最优策略f_n~∞和最优报酬函数V_β(f)。本文并给出了策略迭代法的运算框图及数值计算的例子。

Abstract:

参考文献

相似文献

引证文献

引用本文

杨春巍. F有限折扣模型的策略迭代法[J].土木与环境工程学报（中英文）,1988,10(2). Yang Chunwei. THE TACTICS ALTERNATIVE METHOD FOR THE MODEL OF F FINITE DISCOUNT[J]. JOURNAL OF CIVIL AND ENVIRONMENTAL ENGINEERING,1988,10(2).10.11835/j. issn.1674-4764.1988.02.013

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:
最后修改日期:
录用日期:
在线发布日期:
出版日期:

引用本文

分享

相关视频

文章指标

历史

文章二维码