| 《计算机学报》文章摘要 全文下载 |
文章题目 | 不动点视角下的强化学习算法综述 |
作者 | 陈兴国1),2) 孙丁源昊1) 杨 光2),3) 杨尚东1),2) 高 阳2),3) |
作者单位 | 1)(南京邮电大学大数据安全与智能处理重点实验室 南京 210023)
2)(南京大学计算机软件新技术国家重点实验室 南京 210046)
3)(南京大学深圳研究院 广东深圳 518057)
|
发表年份 | 2023 |
发表月份 | 6期(1246-1271) |
文章摘要 | 摘 要 近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向.
关键词 强化学习;值函数估计;稳定性;同策略;异策略;偏差与方差控制
中图法分类号TP18 DOI号10.11897/SP.J.1016.2023.01246
|