乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于随机微分方程的连续性强化学习模型构造系统及方法

本发明公开了一种基于随机微分方程的连续性强化学习模型构造系统及方法,包括动作微分构造模块、环境状态微分构造模块、基础模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块;值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块;环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型,能够实现对动作增量的计算,保证动作的连续性,并能够适用于连续物理系统的实际控制。
上海大学
贾文川 | 程丽梅 | 陈添豪 | 马书根 | 袁建军 | 孙翊 | 蒲华燕 | 鲍晟

More Posts

Send Us A Message