本发明属于人工智能技术领域,公开了一种基于置信区间的深度强化学习动作决策方法,该方法首先提出一种基于深度神经网络的置信区间跨度拟合模型,从根本上解决UCB无法估计高维状态空间下各个动作的置信区间大小的问题;然后提出一种基于目标值原地构建的置信区间跨度平衡模型,利用神经网络反向传播的特性在每次动作决策后更新U网络的参数,从而平衡置信区间跨度;最后引入探索‑利用动态平衡因子α用于平衡训练过程中的探索与利用。该方法应用于解决复杂强化问题,取得了较好的训练效果。
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日