乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于经验新鲜度提升深度强化学习收敛速度的方法及系统

本发明提供一种基于经验新鲜度提升深度强化学习收敛速度的方法及系统,包括:构建DQN网络模型并设置环境超参数,初始化当前价值网络和目标价值网络的网络参数,初始化经验回放区并设置回放计数数组和生命周期指针;基于动作选择策略进行经验积累,计算经验的时序差分误差和新鲜度优先级,并根据生命周期指针更新所述经验回放区;根据经验的采样概率从所述经验回放区中进行采样并更新所述回放计数数组,利用采样到的经验组训练当前价值网络并更新其网络内部参数,以得到最优动作。本申请一方面通过引入新鲜度折扣因子来提高新经验的优先级,另一方面通过引入生命周期指针提高经验回放区的置换效率,从而提升深度强化学习算法的收敛速度。
中国科学院上海高等研究院
马崛 | 宁德军

More Posts

Send Us A Message