本发明公开了一种基于忆阻器的在线训练强化学习方法:传感器采集智能体当前状态信息St并转换为数字信号,将其编码并转换为电压信号;第一忆阻器交叉杆阵列接收该信号,并对该信号进行乘累加后将输出电流转换为数字信号存储于数字存储器中;当St全部存储于数字存储器中时,处理器进行归一化处理,之后通过第二忆阻器交叉杆阵列进行缩放和偏移;接着全部数据被激活,经过编码并转换为电压信号后传输至第三忆阻器交叉杆阵列,步骤重复次数与隐藏层数相同;第n忆阻器交叉杆阵列接受电压信号输出电流信号并选出最大电流列所表示的动作At,并对最大电流进行电压转换和存储;根据智能体的动作给予奖惩,并将新状态信息St+1存储到经验池中。
上海交通大学
纪志罡 | 景凌琳 | 杜意德
