模型首字推理方法及装置与流程

allin2025-08-06 62

本发明涉及人工智能，尤其涉及一种模型首字推理方法及装置。

背景技术：

1、大语言模型推理主要采用自回归式的应用方案，在模型结构上主要是变换器（transformer）结构，大语言模型推理通常包括预填充阶段和解码阶段。

2、在大语言模型进行推理的过程中，由于权重参数较多，导致首字推理延迟，用户体验较差。对此，通常采用量化的方式对预填充阶段的推理进行优化，以提高首字推理速度。然而，采用量化的方式进行优化后，会导致首字推理出现偏差，进而后续解码得到的分词（token）也会存在较大偏差，影响推理效果。

技术实现思路

1、本发明提供一种模型首字推理方法及装置，用以解决相关技术中存在的缺陷。

2、本发明提供一种模型首字推理方法，包括如下步骤：

3、获取模型的计算图，并从所述计算图中确定所述模型的末个注意力模块所在的计算子图；

4、在所述计算子图中添加剪切节点，基于添加剪切节点后的计算子图，应用输入文本，进行模型首字推理，得到首字推理结果；所述剪切节点位于上一计算子图的输出节点之后，所述剪切节点用于在每个批次的行维度上对上一节点的输出进行剪切操作，所述上一计算子图为所述末个注意力模块的上一注意力模块对应的计算子图。

5、根据本发明提供的一种模型首字推理方法，所述剪切节点包括第一子节点和第二子节点，所述第一子节点为点积缩放注意力节点或点积缩放注意力结构的下一相邻节点，所述第二子节点为所述上一计算子图中输出节点的下一相邻节点；

6、所述第一子节点用于在每个批次的行维度上对所述点积缩放注意力节点或所述或点积缩放注意力结构的输出进行剪切操作，所述第二子节点用于在每个批次的行维度上对所述上一计算子图中输出节点的输出进行剪切操作。

7、根据本发明提供的一种模型首字推理方法，所述剪切节点包括第三子节点，所述第三子节点为所述计算子图中输出节点的下一相邻节点，所述第三子节点用于在每个批次的行维度上对所述计算子图中输出节点的输出进行剪切操作。

8、根据本发明提供的一种模型首字推理方法，所述获取模型的计算图，包括：

9、基于所述模型的结构和计算流程，构建所述模型的初始计算图；

10、对所述初始计算图进行图融合，得到所述计算图。

11、根据本发明提供的一种模型首字推理方法，所述模型的推理结果存储于图形处理器，所述推理结果包括所述首字推理结果；

12、所述方法还包括：

13、对所述图形处理器中的推理结果进行重排，并将重排后的推理结果输出至中央处理器。

14、根据本发明提供的一种模型首字推理方法，所述基于添加剪切节点后的计算子图，应用输入文本，进行模型首字推理，得到首字推理结果，包括：

15、基于添加剪切节点后的计算子图，应用输入文本，进行预填充阶段推理，得到预填充推理结果；

16、基于所述预填充推理结果，进行解码阶段推理，得到所述首字推理结果。

17、本发明还提供一种模型首字推理装置，包括如下模块：

18、获取单元，用于获取模型的计算图，并从所述计算图中确定所述模型的末个注意力模块所在的计算子图；

19、推理单元，用于在所述计算子图中添加剪切节点，基于添加剪切节点后的计算子图，应用输入文本，进行模型首字推理，得到首字推理结果；所述剪切节点位于上一计算子图的输出节点之后，所述剪切节点用于在每个批次的行维度上对上一节点的输出进行剪切操作，所述上一计算子图为所述末个注意力模块的上一注意力模块对应的计算子图。

20、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述模型首字推理方法。

21、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述模型首字推理方法。

22、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述模型首字推理方法。

23、本发明提供的模型首字推理方法及装置，将剪切节点设置于上一计算子图的输出节点之后，从而剪切节点能够在每个批次的行维度上对上一节点的输出进行剪切操作，不仅能够去除冗余计算，提高首字推理效率，且去除冗余计算后也不会影响首字推理结果的计算精度。

技术特征：

1.一种模型首字推理方法，其特征在于，包括：

2.根据权利要求1所述的模型首字推理方法，其特征在于，所述剪切节点包括第一子节点和第二子节点，所述第一子节点为点积缩放注意力节点或点积缩放注意力结构的下一相邻节点，所述第二子节点为所述上一计算子图中输出节点的下一相邻节点；

3.根据权利要求1或2所述的模型首字推理方法，其特征在于，所述剪切节点包括第三子节点，所述第三子节点为所述计算子图中输出节点的下一相邻节点，所述第三子节点用于在每个批次的行维度上对所述计算子图中输出节点的输出进行剪切操作。

4.根据权利要求1所述的模型首字推理方法，其特征在于，所述获取模型的计算图，包括：

5.根据权利要求1所述的模型首字推理方法，其特征在于，所述模型的推理结果存储于图形处理器，所述推理结果包括所述首字推理结果；

6.根据权利要求1所述的模型首字推理方法，其特征在于，所述基于添加剪切节点后的计算子图，应用输入文本，进行模型首字推理，得到首字推理结果，包括：

7.一种模型首字推理装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述模型首字推理方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型首字推理方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型首字推理方法。

技术总结
本发明提供一种模型首字推理方法及装置，所述方法包括：获取模型的计算图，并从计算图中确定模型的末个注意力模块所在的计算子图；在计算子图中添加剪切节点，基于添加剪切节点后的计算子图，应用输入文本，进行模型首字推理，得到首字推理结果；剪切节点位于上一计算子图的输出节点之后，剪切节点用于在每个批次的行维度上对上一节点的输出进行剪切操作。本发明将剪切节点设置于上一计算子图的输出节点之后，从而剪切节点能够在每个批次的行维度上对上一节点的输出进行剪切操作，不仅能够去除冗余计算，提高首字推理效率，且去除冗余计算后也不会影响首字推理结果的计算精度。

技术研发人员：请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名
受保护的技术使用者：上海壁仞科技股份有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-23788.html

专利

最新回复(0)