乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

一种基于置信区间的深度强化学习动作决策方法

本发明属于人工智能技术领域,公开了一种基于置信区间的深度强化学习动作决策方法,该方法首先提出一种基于深度神经网络的置信区间跨度拟合模型,从根本上解决UCB无法估计高维状态空间下各个动作的置信区间大小的问题;然后提出一种基于目标值原地构建的置信区间跨度平衡模型,利用神经网络反向传播的特性在每次动作决策后更新U网络的参数,从而平衡置信区间跨度;最后引入探索‑利用动态平衡因子α用于平衡训练过程中的探索与利用。该方法应用于解决复杂强化问题,取得了较好的训练效果。

More Posts

Send Us A Message