一种基于改进奖励函数的芯片布局预训练及优化方法,在离线阶段构建并训练指标预测模型,并利用训练后的指标预测模型生成奖励函数,对基于强化学习的决策网络进行训练;在在线阶段采用训练后的决策网络对芯片提供具体的布局结果。本发明在利用强化学习优化芯片布局的过程)对难以获取的指标构建预训练模型,在强化学习过程)只需要经过预训练模型即可得到每轮迭代的指标,并加入到其反馈机制中。