乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

一种结合模仿学习和强化学习的空战智能决策方法及系统

本发明公开了一种结合模仿学习和强化学习的空战智能决策方法,属于空战领域,方法包括:通过空战智能决策模型对战场态势信息进行处理,获得用于指导本机的决策结果。预训练的空战智能决策模型通过以下步骤获得:针对粗颗粒度的稀疏专家策略数据,使用行为克隆算法对用于模仿学习和强化学习的神经网络架构进行训练,获得策略网络Q1;将策略网络Q1作为生成对抗模仿学习算法中的初始网络,对细颗粒度的密集专家策略进行模仿学习,获得策略网络Q2;将策略网络Q2作为强化学习算法框架中决策网络的初始网络,采用策略梯度方法进行网络训练直至收敛,获得空战智能决策模型。本发明基于能够有效改善样本利用率,并降低累积误差。
复旦大学
王衡 | 任惠民 | 姜超然 | 龚昊为 | 郝帅

More Posts

Send Us A Message