一种基于LLM的实时AI智能问诊系统的制作方法

allin2025-08-08  30


本发明涉及医疗问诊系统,特别涉及一种基于llm的实时ai智能问诊系统。


背景技术:

1、目前,ai智能问诊系统实现的具体方案有:1.采用第三方云端llm进行文字对话,2.采用cnn算法进行专业训练引导,实现实时对话。

2、但是,方案1采用第三方llm模型,并且需要互联网支持,这极大地影响了ai的响应速度与用户的使用场景,并且对ai功能的支持也受制于云端模型,交互性较差。方案2采用卷积神经网络进行ai训练,这种算法降低了ai的可引导性,使得每一个对话场景都需要单独训练ai模型,极大地增加了ai的训练成本。

3、因此,综上所述,现有技术方案均无法有效的保证ai的实时性与丰富的交互性。


技术实现思路

1、本发明的主要目的在于提供一种基于llm的实时ai智能问诊系统,可以有效解决背景技术中的问题。

2、为实现上述目的,本发明采取的技术方案为:

3、一种基于llm的实时ai智能问诊系统,一种基于llm的实时ai智能问诊系统,其特征在于:包括a单元、b单元、c单元和d单元,所述d单元为3d模拟程序,所述b单元包括stt语音识别和tts文转音,所述a单元为本地大语言模型,所述c单元为prompt数据库。

4、进一步的,3d模拟程序,将展现真实的医院场景,用户启用pc设备麦克风后可自由问诊,也可读取单元c的prompt模拟特定病例问诊,场景程序将通过http://127.0.0.1:9880与单元b的ai语音模型进行通信,得到分析结果的字节流后,通过http://127.0.0.1:11434与单元a的本地大语言模型进行通信,通过大语言模型分析后得到的字节流将传回单元b的ai语音模型,得到最终音频输出给3d模拟程序,模拟程序完成人物语音、动作和表情反馈,完成整个问答过程,整个过程操作简单,并且得益于语言大模型部署于本地,整个问答过程响应时间仅为500ms左右,获得了实时的问答体验。

5、进一步的,stt语音识别和tts文转音,在本地pc安装本发明提供的基于transfomer架构与rvc(rate-distortion optimization)技术的stt(语音识别)和tts(文字转音频)ai语音模型,确保本地9880端口未被占用,该ai语音模型基于transfomer架构,融合了rvc技术,通过深度学习模型识别包括梅尔频率倒谱系数(mfcc)、梅尔频率倒谱系数变异(mfcc-delta)、梅尔频率倒谱系数加速度(mfcc-acceleration)等声学特征来识别语音;通过深度学习模型根据文本生成语音,并且通过信噪比(signal-to-noise ratio,snr)进行速率失真优化,达到模型最小失真。

6、进一步的,大语言模型,是在本地pc安装本发明提供的基于gpt(generative pre-trained transformer)架构的大语言模型,运行大语言模型,确保11434接口未被占用。该模型采用transformer架构,包含位置编码,自注意力机制,多头注意力,前馈神经网络,残差连接,层归一化等技术,该模型经过大数据引导训练,仅需少量prompt(文本引导)引导即可完成医学问诊场景模拟。

7、进一步的,prompt数据库,用于存储医学病例的引导文本,用于实现特定病例问诊的正确引导。

8、与现有技术相比,本发明具有如下有益效果:

9、本发明中,可以通过计算机图形技术,让用户置身于医院场景中,并与ai病人进行问诊交互。同时,本发明采用基于本地大语言模型的ai技术,兼具语音识别与文转音功能,能够快速准确地理解用户口述的问题,并给出相应的语音回答,实现实时人机对话,提高了医疗问诊的准确性和效率。并且,基于llm的ai可引导性强,能够轻松模拟各种医疗问诊场景。



技术特征:

1.一种基于llm的实时ai智能问诊系统,其特征在于:包括a单元、b单元、c单元和d单元,所述d单元为3d模拟程序,所述b单元包括stt语音识别和tts文转音,所述a单元为本地大语言模型,所述c单元为prompt数据库。

2.根据权利要求1所述的一种基于llm的实时ai智能问诊系统,其特征在于:3d模拟程序,将展现真实的医院场景,用户启用pc设备麦克风后可自由问诊,也可读取单元c的prompt模拟特定病例问诊,场景程序将通过http://127.0.0.1:9880与单元b的ai语音模型进行通信,得到分析结果的字节流后,通过http://127.0.0.1:11434与单元a的本地大语言模型进行通信,通过大语言模型分析后得到的字节流将传回单元b的ai语音模型,得到最终音频输出给3d模拟程序,模拟程序完成人物语音、动作和表情反馈,完成整个问答过程,整个过程操作简单,并且得益于语言大模型部署于本地,整个问答过程响应时间仅为500ms左右,获得了实时的问答体验。

3.根据权利要求1所述的一种基于llm的实时ai智能问诊系统,其特征在于:stt语音识别和tts文转音,在本地pc安装本发明提供的基于transfomer架构与rvc(rate-distortionoptimization)技术的stt(语音识别)和tts(文字转音频)ai语音模型,确保本地9880端口未被占用,该ai语音模型基于transfomer架构,融合了rvc技术,通过深度学习模型识别包括梅尔频率倒谱系数(mfcc)、梅尔频率倒谱系数变异(mfcc-delta)、梅尔频率倒谱系数加速度(mfcc-acceleration)等声学特征来识别语音;通过深度学习模型根据文本生成语音,并且通过信噪比(signal-to-noise ratio,snr)进行速率失真优化,达到模型最小失真。

4.根据权利要求1所述的一种基于llm的实时ai智能问诊系统,其特征在于:大语言模型,是在本地pc安装本发明提供的基于gpt(generative pre-trained transformer)架构的大语言模型,运行大语言模型,确保11434接口未被占用。该模型采用transformer架构,包含位置编码,自注意力机制,多头注意力,前馈神经网络,残差连接,层归一化等技术,该模型经过大数据引导训练,仅需少量prompt(文本引导)引导即可完成医学问诊场景模拟。

5.根据权利要求1所述的一种基于llm的实时ai智能问诊系统,其特征在于:prompt数据库,用于存储医学病例的引导文本,用于实现特定病例问诊的正确引导。


技术总结
本发明公开了一种基于LLM的实时AI智能问诊系统,一种基于LLM的实时AI智能问诊系统,其特征在于:包括A单元、B单元、C单元和D单元,所述D单元为3D模拟程序,所述B单元包括STT语音识别和TTS文转音,所述A单元为本地大语言模型,所述C单元为Prompt数据库。本发明所述的一种基于LLM的实时AI智能问诊系统,能够通过计算机图形技术,让用户置身于医院场景中,并与AI病人进行问诊交互。同时,本发明采用基于本地大语言模型的AI技术,兼具语音识别与文转音功能,能够快速准确地理解用户口述的问题,并给出相应的语音回答,实现实时人机对话,提高了医疗问诊的准确性和效率。并且,基于LLM的AI可引导性强,能够轻松模拟各种医疗问诊场景。

技术研发人员:夏盛磊,张植
受保护的技术使用者:南通友合智能科技有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-23850.html

最新回复(0)