近期,我校自动化学院谢胜利教授团队在《国家科学进展(英文)》上发表了“Learning the Continuous-Time Optimal Decision Law from Discrete-Time Rewards”的研究论文。青年学者陈辞教授为论文第一作者,谢胜利教授为共同通讯作者。这是星空体育·(China)官方网站,登录入口首次以第一单位在该期刊发表论文。该论文被多个国际科技专栏所报道,如美国科学促进会平台(EurekAlert!|AAAS)、澳大利亚最新动态发布平台(MirageNews)、国际技术工程平台(TechXplore)、中国科学出版社(Science China Press)等。
成果简介
奖励是强化学习中的核心概念,寻找能够解释动态系统行为决策的奖励一直是一个公开挑战。该研究创新性地将状态导数反馈回学习过程,从而建立了基于离散时间奖励的强化学习分析框架。该框架与现有的积分强化学习框架有本质区别。在离散时间奖励的指导下,行为决策律的搜索过程分为两个阶段:前馈信号学习和反馈增益学习。
图:基于离散时间奖励的连续时间动态系统强化学习算法框架
研究发现:使用基于离散时间奖励的技术,可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。将上述方法应用于电力系统状态调节,成功实现了输出反馈优化设计。这一过程消除了识别动态模型的中间阶段,并通过去除已有积分强化学习框架中的奖励积分器算子,显著提高了计算效率。
这项研究成功利用离散时间奖励指导发现连续时间动态系统的优化策略,开辟了强化学习反馈控制的新领域,并且创新性地构建了一种理解和改善动态系统的计算工具,可在自然科学、工程学以及社会科学领域发挥重要作用。
该研究工作得到了国家自然科学基金、广东省基础与应用基础研究基金等项目的资助。