本发明公开了一种文本解释生成方法及系统。该方法包括:获取实际场景图片以及场景中的非可控智能体,根据非可控智能体对可控智能体的影响程度确定非可控智能体的优先级;在关注区域内选取按优先级由高到低顺序排列的前N类非可控智能体,并对前N类非可控智能体采用语言模板生成文本解释;若生成的文本解释不正确,则提取实际场景图片中的特征信息,并对特征信息采用训练好的GRU模型进行文本解释。本发明的方法及系统,采用了自然语言对模型进行解释,降低了图像解释的模糊性,使模型的决策过程更容易被控制者理解。