广州壁仞申请模型推理方法及装置专利,提高模型推理速度

360影视 2024-12-26 14:12 4

摘要:国家知识产权局信息显示,广州壁仞集成电路有限公司申请一项名为“模型推理方法及装置”的专利,公开号CN 119180342 A,申请日期为2024年10月。

金融界2024年12月26日消息,国家知识产权局信息显示,广州壁仞集成电路有限公司申请一项名为“模型推理方法及装置”的专利,公开号CN 119180342 A,申请日期为2024年10月。

专利摘要显示,本发明涉及大模型推理技术领域,提供一种模型推理方法及装置,该方法包括:基于当前输入推理对象,从模型的候选目标层中选择与所述当前输入推理对象对应的模型推理时需要跳过的目标层;在推理到所述目标层时,确定所述目标层对应的所述当前输入推理对象的键值信息,并将所述键值信息存储在所述目标层对应的键值缓存中;跳过所述目标层的注意力计算,并基于所述目标层对应上一层的推理结果,执行所述目标层的前向传播计算,直到经过模型的所有层,以得到所述当前输入推理对象的推理结果。本发明中,由于在推理到目标层时,不跳过目标层中Attention单元的KV信息计算,只跳过Attention单元的Attention计算,在保留了模型推理的精度的基础上提高了推理速度。

来源:金融界

相关推荐