一种基于大模型的数据库推理方法与装置与流程

allin2026-06-17  16


本申请涉及时空信息处理,尤其涉及一种基于大模型的数据库推理方法与装置。


背景技术:

1、随着人工智能(ai)技术的不断发展和普及,越来越多的人开始使用ai工具来辅助解决工作中的各类实际问题以及提升工作效率。目前在时空信息业务处理过程中,也有利用机器学习从庞杂的数据库中搜索出符合用户需求的信息并进行相应的推理预测。尽管这些数据库推理系统不断改进完善,但仍然无法满足用户对数据挖掘、文本处理、智能检索等需求。

2、对于数据库语句的语义解析,有监督的语义解析方法采用人工标注的解析结果作为训练标签,对解析模型进行训练,这样造成模型对人工标注数据的依赖性较强。而弱监督的语义解析方法,将少量的标注数据或基于人工构建的规则作为训练数据,这些训练数据可能不够完整或不够准确,导致最终的推理结果精度较低。现有技术都存在模型泛化能力差的问题,面对全新的或复杂的查询语句时,其解析结果可能不准确,难以从语义层面适应数据结构的多种表达形式。现有的数据库推理系统,虽然能够实现传统的数据库语句条件查询,但都是基于单一类型的数据库进行推理,无法满足人们对多源业务处理的需求。传统的数据匹配和数据推理主要依赖于人工设定模型和参数调整,不仅增大了开发人员的工作量,而且效率低下,适用范围有限。


技术实现思路

1、本申请实施例通过提供一种基于大模型的数据库推理方法与装置,解决了现有技术中依赖人工设定模型参数及参数调整,效率低下,而且数据推理结果的准确率难以保证的问题。利用改进的向量化处理和关键词匹配技术,充分捕获多目标数据库信息,灵活适应各类业务场景,实现了基于大模型对多目标数据库的推理并转换生成数据库查询语句,执行相应数据库方法完成数据查询即可检索用户所需信息,能够提升用户的使用体验感,提高检索效率与准确率。

2、第一方面,本申请实施例提供了一种基于大模型的数据库推理方法,包括:对多源数据集进行预处理得到目标数据集;将所述目标数据集进行分词并转换为词向量形成词向量集;基于所述词向量集的来源对其进行分区存储生成多个向量数据表,并为所述向量数据表设置向量表id;根据多个所述向量数据表的属性信息构建映射关系,并基于所述映射关系生成向量服务数据接口;在用户的搜索输入到达服务器前将其拦截,并调用所述向量服务数据接口将所述搜索输入转换为搜索向量;为所述搜索向量匹配所述向量数据表得到第一数量的目标向量数据表;将所述搜索向量转换为数据库查询语句,并通过所述数据库查询语句在所述第一数量的所述目标向量数据表中进行查询;将查询结果过滤排序后发送至用户界面。

3、在一种可能的实现方式中,所述对多源数据集进行预处理得到目标数据集,包括:对所述多源数据集进行数据清洗,去除异常值,填充缺失值,纠正错误值;和/或去掉经过数据清洗后的所述多源数据集中与目标业务无关的数据,并对剩余数据进行校验得到初始数据集;和/或将所述初始数据集中的初始数据小写化,并去除其中的无实意字符得到目标数据集。

4、在一种可能实现的方式中,所述将所述目标数据集进行分词并转换为词向量,包括:将所述目标数据集中的目标数据分割为词单元,并为所述词单元添加标记符以标记各所述词单元之间的关系;通过词汇表获取各所述词单元的单元id;根据输入需求对所述词单元进行填充或截断至设定长度;将所述设定长度的所述词单元转换为所述词向量。

5、在一种可能实现的方式中,所述将所述目标数据集进行分词并转换为词向量后,还包括:在所述词向量中嵌入位置信息与段落信息。

6、在一种可能实现的方式中,所述基于所述词向量集的来源对其进行分区存储生成多个向量数据表,包括:建立所述词向量集与数据库的连接,并获取所述词向量集的数据信息;其中,所述数据信息包括单元id与向量数据类型;获取数据库中数据表的表单信息;其中,所述表单信息包括数据表名、字符集、索引信息、存储引擎、排序规则与字段信息,所述字段信息包括字段名、数据类型与字段注释;对所述表单信息进行清洗以使其与对应所述词向量集的数据信息一致;将所述词向量集存入所述向量数据表,根据其中所述词向量的来源对其进行分区得到多个所述向量数据表,并设置数据表id与对应数据库id。

7、在一种可能的实现方式中,所述向量表id由所述数据表id与所述对应数据库id构成。

8、在一种可能的实现方式中,所述通过所述数据库查询语句在所述第一数量的所述目标向量数据表中进行查询前,包括:将分区后的所述向量数据表存入数据源管理平台,根据所述搜索向量在所述数据源管理平台中进行匹配所述向量数据表。

9、第二方面,本申请实施例提供了一种基于大模型的数据库推理装置,包括:数据处理模块,用于对多源数据集进行预处理得到目标数据集;将所述目标数据集进行分词并转换为词向量形成词向量集;存储模块,用于基于所述词向量集的来源对其进行分区存储生成多个向量数据表,并为所述向量数据表设置向量表id;匹配模块,用于根据多个所述向量数据表的属性信息构建映射关系,并基于所述映射关系生成向量服务数据接口;在用户的搜索输入到达服务器前将其拦截,并调用所述向量服务数据接口将所述搜索输入转换为搜索向量;为所述搜索向量匹配所述向量数据表得到第一数量的目标向量数据表;推理模块,用于将所述搜索向量转换为数据库查询语句,并通过所述数据库查询语句在所述第一数量的所述目标向量数据表中进行查询;检索模块,用于将查询结果过滤排序后发送至用户界面。

10、第三方面,本申请实施例提供了一种基于大模型的数据库推理方法的设备,所述设备包括:处理器;用于存储处理器可执行指令的存储器;所述处理器执行所述可执行指令时,实现如第一方面或第一方面任一种可能实现的方式所述的方法。

11、第四方面,本申请实施例提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质包括用于存储计算机程序或指令,当该计算机程序或指令被执行时,使如第一方面或第一方面任一种可能实现的方式所述的方法被实现。

12、本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

13、本申请实施例通过采用了一种基于大模型的数据库推理方法与装置,通过调用向量服务接口完成数据的向量化处理。根据数据来源进行分区存储,构建索引能够提高检索效率。利用向量的相似度计算,匹配推理出相似度最高的业务模式并转换生成数据库查询语句,执行生成的数据库查询语句,对目标数据库进行检索,有效解决了现有技术中数据库推理系统的结果准确率较低以及依赖人工设定模型调整参数效率较低的问题,进而能够从数据的来源、格式等影响因素入手,使得用户在无需掌握数据库相关知识的情况下,只需输入查询关键词就可以自动生成准确性较高的查询结果,能够提升用户体验感。



技术特征:

1.一种基于大模型的数据库推理方法,其特征在于,包括:

2. 根据权利要求1所述的方法,其特征在于,所述对多源数据集进行预处理得到目标数据集,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述目标数据集进行分词并转换为词向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述将所述目标数据集进行分词并转换为词向量后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述词向量集的来源对其进行分区存储生成多个向量数据表,包括:

6.根据权利要求5所述的方法,其特征在于,所述向量表id由所述数据表id与所述对应数据库id构成。

7.根据权利要求1所述的方法,其特征在于,所述通过所述数据库查询语句在所述第一数量的所述目标向量数据表中进行查询前,包括:

8.一种基于大模型的数据库推理装置,其特征在于,包括:

9.一种用于执行基于大模型的数据库推理方法的设备,其特征在于,包括:

10.一种非易失性计算机可读存储介质,其特征在于,包括用于存储计算机程序或指令,当该计算机程序或指令被执行时,使如权利要求1至7中任一项所述的方法被实现。


技术总结
本申请公开了一种基于大模型的数据库推理方法与装置,将目标数据集进行分词并转换为词向量形成词向量集;基于词向量集的来源对其进行分区存储生成多个向量数据表,并为向量数据表设置向量表ID;根据多个向量数据表的属性信息构建映射关系,并基于映射关系生成向量服务数据接口;在用户的搜索输入到达服务器前将其拦截,并调用向量服务数据接口将搜索输入转换为搜索向量;为搜索向量匹配向量数据表得到第一数量的目标向量数据表;将搜索向量转换为数据库查询语句,并通过数据库查询语句在第一数量的目标向量数据表中进行查询;将查询结果过滤排序后发送至用户界面。该方法实现了数据库推理并生成数据库查询语句,提高检索的准确率与效率。

技术研发人员:谢佳康,张博,高力浩,丁宜忠,仇艺伟
受保护的技术使用者:土豆数据时空智能科技(德清)有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-28473.html

最新回复(0)