数据标注方法、装置、电子设备及存储介质与流程

allin2025-02-11 110

本公开涉及人工智能，尤其涉及大数据、深度学习等领域，更具体地，本公开提供了一种数据标注方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术：

1、随着人工智能的发展，越来越多的应用场景需要使用人工智能模型，人工智能模型需要预先使用训练样本进行训练。

技术实现思路

1、本公开提供了一种数据标注方法、装置、电子设备、存储介质以及计算机程序产品。

2、根据本公开的一方面，提供了一种数据标注方法，包括：针对多个数据中的每个数据，确定数据的伪标签和多个估计标签；根据多个估计标签的标签分布，以及标签分布与伪标签之间的关系，确定数据的分组；根据多个数据各自的分组，从多个数据中确定待纠正数据；以及从与待纠正数据满足匹配关系的多个候选标签中，确定待纠正数据的目标标签；其中，匹配关系与待纠正数据的多个估计标签的标签分布相关。

3、根据本公开的另一方面，提供了一种数据标注装置，包括：第一确定模块、分组确定模块、待纠正数据确定模块以及第一目标标签确定模块。第一确定模块用于针对多个数据中的每个数据，确定数据的伪标签和多个估计标签。分组确定模块用于根据多个估计标签的标签分布，以及标签分布与伪标签之间的关系，确定数据的分组。待纠正数据确定模块用于根据多个数据各自的分组，从多个数据中确定待纠正数据。第一目标标签确定模块用于从与待纠正数据满足匹配关系的多个候选标签中，确定待纠正数据的目标标签，其中，匹配关系与待纠正数据的多个估计标签的标签分布相关。

4、根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的方法。

5、根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的方法。

6、根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开提供的方法。

7、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种数据标注方法，包括：

2.根据权利要求1所述的方法，其中，所述从与所述待纠正数据满足匹配关系的多个候选标签中，确定所述待纠正数据的目标标签包括：

3.根据权利要求2所述的方法，其中，

4.根据权利要求2所述的方法，其中，所述根据所述初始标签确定所述目标标签包括：

5.根据权利要求1至4中任意一项所述的方法，其中，所述根据所述多个数据各自的分组，从所述多个数据中确定待纠正数据包括：

6.根据权利要求5所述的方法，还包括：

7.根据权利要求1所述的方法，还包括：

8.根据权利要求1至7中任意一项所述的方法，其中，所述数据的多个估计标签的确定过程包括：

9.根据权利要求8所述的方法，其中，所述利用彼此不同的多个分类模型处理所述数据，得到所述多个分类模型输出的所述多个估计标签包括：

10.根据权利要求1所述的方法，其中，所述数据的伪标签的确定过程包括：

11.根据权利要求10所述的方法，其中，所述针对所述多个聚类簇中的每个聚类簇，根据所述聚类簇中包括的至少一个数据各自的初始伪标签，确定所述聚类簇中每个数据的所述伪标签包括：

12.一种数据标注装置，包括：

13.根据权利要求12所述的装置，其中，所述第一目标标签确定模块包括：

14.根据权利要求13所述的装置，其中，

15.根据权利要求13所述的装置，其中，所述目标标签确定子模块包括：

16.根据权利要求12至15中任意一项所述的装置，其中，所述待纠正数据确定模块包括：

17.根据权利要求16所述的装置，还包括：

18.根据权利要求12所述的装置，还包括：

19.根据权利要求12至18中任意一项所述的装置，其中，所述第一确定模块包括：

20.根据权利要求19所述的装置，其中，所述处理子模块包括：

21.根据权利要求12所述的装置，其中，所述第一确定模块包括：

22.根据权利要求21所述的装置，其中，所述伪标签子模块包括：

23.一种电子设备，包括：

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法。

技术总结
本公开提供了一种数据标注方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及大数据、深度学习等领域。具体实现方案为：针对多个数据中的每个数据，确定数据的伪标签和多个估计标签；根据多个估计标签的标签分布，以及标签分布与伪标签之间的关系，确定数据的分组；根据多个数据各自的分组，从多个数据中确定待纠正数据；以及从与待纠正数据满足匹配关系的多个候选标签中，确定待纠正数据的目标标签；其中，匹配关系与待纠正数据的多个估计标签的标签分布相关。

技术研发人员：武晓飞,裴中佑,施鹏,刘春晓
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-18461.html

专利

最新回复(0)