本发明涉及人工智能技术领域,具体涉及一种人机混合决策的机器行为在冲突中的协调方法,包括机器计算的超车收益Rvehicle以及人认为的超车收益Rhuman,Rvehicle=△t·v‑p·L,Rhuman=△t·v‑p·L‑M‑E,实施超车动作时的预期奖励为:r(s,a)=E[rt+1|st=s,at=a,st+1=s’],此时,最优策略π*=argmaxπE[R|π],得到的最大回报R=Σγr‑1t=0’rt+1,遵循策略的预期回报为:Vπ(s)=E[Rt|st=s]=Eπ[Σγk∞k=0rt+k+1|st=s,at=a],其中,γk为折扣因子,t为当前时点,k为远期步长,本发明通过上述基于大数据下人机混合决策的机器行为在人‑机决策冲突中的协调方法,可以使得在自动驾驶的过程中,能够有效区分人或机器槽孔,从而有效提升国内的自动驾驶技术,以及整体的行业水平。
