本发明涉及视频生成,尤其涉及一种智能视频生成系统。
背景技术:
1、随着社交媒体和短视频平台的兴起,人们开始用视频分享自己的生活,用视频制作新闻短讯,制作产品或公司的宣传片。从大量的视频中选取需要的视频内容需要花费大量的时间,而视频内容的编辑和视频效果的优化通常需要专业的视频编辑软件和技能,这对于普通用户来说是耗时且困难的。
2、主流的视频生成系统,以人脸识别为基础来生成视频集锦,是视频片段的简单拼接,生成的视频不具有艺术美感。同时应用场景限制比较多,主要应用于旅游景点、游乐场、体育馆、博物馆等地方,用来生产游客游览参观的视频集锦。在没有捕捉到人脸的时候也不能生成最终的视频集锦。
3、因此,需要一种智能视频生成系统来解决上述技术问题。
技术实现思路
1、为解决上述技术问题,本发明提供的一种智能视频生成系统,包括视频内容智能分析单元、智能音频单元、智能文案单元、智能特效单元和智能视频片段挑选单元;其中,
2、视频内容智能分析单元:用于对视频文件或视频流进行内容智能分析,通过协同智能音频单元,提取视频文件或视频流中的人物信息存入数据库中;其中,包括人脸识别模块、人脸表情分析模块、人体姿势识别模块、文字识别模块和物体识别模块;
3、智能音频单元:用于提供语音-文字转换、文字-语音转换和音频节奏提取服务;其中,包括语音转文字模块、文字转语音模块和音频节奏分析模块;
4、智能文案单元:用于提供文案关键词提取和智能文案扩写服务;其中,包括文案关键词提取模块和智能文案扩写模块;
5、智能特效单元:用于提供特效信息查询服务;其中,特效信息包括特效声音、视频特技和视频过渡特技,并分别存储在特效声音库、视频特技库和视频过渡特技库中;
6、智能视频片段挑选单元:协同视频内容智能分析单元、智能音频单元、智能文案单元和智能特效单元,根据用户选择的挑选模式挑选对应的视频文件片段或视频流片段;将各视频文件片段或视频流片段进行时间轴对齐后,裁切为若干视频片,为各视频片段添加特效声音、视频特技和视频过渡特技,并按照时间线将各视频片段串联为完整视频进行输出。
7、作为更进一步的解决方案,所述视频内容智能分析单元通过如下步骤对视频文件或视频流进行内容智能分析:
8、对视频文件或视频流抽帧进行抽帧操作,得到若干帧图片,并附上各帧图片对应的时间戳;
9、通过文字识别模块对各帧图片进行文字识别,将识别得到的文字信息、所在帧的图片信息和对应时间戳进行组合,得到视频文字信息并存入数据库中;
10、通过物体识别模块对各帧图片进行物体识别,将识别得到的物体信息、所在帧的图片信息和对应时间戳进行组合,得到视频物体信息并存入数据库中;
11、通过人脸识别模块对各帧图片进行人脸识别,并记录人脸特征信息;
12、通过人脸表情分析模块对各帧图片进行人脸表情分析,并记录人脸表情信息;
13、通过人体姿势识别模块对各帧图片进行人体姿势识别,并记录人体姿势信息。
14、作为更进一步的解决方案,所述视频内容智能分析单元从视频文件或视频流中分离出音频信息,并将音频信息发送至智能音频单元;所述智能音频单元协同进行音频信息处理,通过语音转文字模块进行语音-文字转换,将转换得到的语音文字信息、所在帧的图片信息和对应时间戳进行组合,得到视频语音信息并存入数据库中。
15、作为更进一步的解决方案,所述视频内容智能分析单元通过将视频文字信息、视频物体信息、人脸特征信息、人脸表情信息、人体姿势信息和视频语音信息进行组合,得到视频文件或视频流的人物信息并存入数据库中。
16、作为更进一步的解决方案,还定义有消极表情和不文明姿势,并将数据库中存在消极表情和/或不文明姿势的人物信息剔除。
17、作为更进一步的解决方案,所述智能特效单元通过如下步骤进行特效信息查询:
18、智能视频片段挑选单元将视频片段对应的视频文字信息、视频物体信息和视频语音信息传入智能特效单元;
19、通过文字段内容分别对视频文字信息、视频物体信息和视频语音信息进行信息归类整理,将具备相似或相同文字段内容归为同一信息类;
20、按照同类信息数量对各信息类进行数量排序,选举出同类信息数量最多的信息类;
21、将得到的信息类分别在特效声音库、视频特技库和视频过渡特技库进行查询,判断是否查询到对应的特效声音、视频特技或视频过渡特技;
22、若查询到对应的特效声音、视频特技或视频过渡特技,则输出对应的特效信息;若未查询到,则选择同类信息数量次多的信息类再次进行查询;
23、若遍历查询完所有信息类或者特效声音、视频特技或视频过渡特技均完成特效信息输出,则结束查询并将输出的特效信息返回给智能视频片段挑选单元。
24、作为更进一步的解决方案,当挑选模式设置为人物模式时,所述智能视频片段挑选单元执行如下处理步骤:
25、s101:用户设置需要进行视频生成的人物照片;
26、s102:通过视频内容智能分析单元对人物照片进行内容智能分析,提取人物照片中的人物特征信息;
27、s103:将人物特征信息和数据库中的人物信息进行特征比对;遍历数据库中所有人物信息,将特征相似度达到挑选阈值的人物信息进行输出;
28、s104:汇总输出的人物信息并按照所对应时间戳进行先后排序,得到人物挑选片段信息序列;
29、s105:提取人物挑选片段信息序列所对应的视频文件片段或视频流片段,将各视频文件片段或视频流片段进行时间轴对齐后,裁切为若干视频片段并送入智能特效单元进行特效信息查询;
30、s106:智能特效单元返回各视频片段的特效信息,将各视频片段按照特效信息,添加对应的特效声音、视频特技和视频过渡特技,得到若干特效视频片段;
31、s107:将特效视频片段按照裁切顺序排列,在裁切位置处进行首尾拼接,串联为完整视频进行输出。
32、作为更进一步的解决方案,当挑选模式设置为文案模式时,所述智能视频片段挑选单元执行如下处理步骤:
33、s201:用户设置需要进行视频生成的文案内容;
34、s202:智能文案单元根据用户设置判断是否进行文案扩写;若是,则通过智能文案扩写模块对文案内容进行扩写优化;若否,则直接进行下一步操作;
35、s203:智能音频单元通过文字转语音模块对文案内容进行文字-语音转换,得到文案音频文件;
36、s204:智能文案单元通过文案关键词提取模块对文案内容进行关键词提取,得到文案关键词信息并存入数据库中;
37、s205:文案关键词信息和数据库中人物信息的视频文字信息、视频物体信息和视频语音信息进行文字段内容匹配;遍历数据库中所有人物信息,将文字段内容匹配度达到挑选阈值的人物信息进行输出;
38、s206:汇总输出的人物信息并按照所对应文案关键词在文案内容中出现的先后顺序进行排序,得到文案挑选片段信息序列;
39、s207:提取文案挑选片段信息序列所对应的视频文件片段或视频流片段,将各视频文件片段或视频流片段进行时间轴对齐后,裁切为若干视频片段并送入智能特效单元进行特效信息查询;
40、s208:智能特效单元返回各视频片段的特效信息,将各视频片段按照特效信息,添加对应的特效声音、视频特技和视频过渡特技,得到若干特效视频片段;
41、s209:将特效视频片段按照裁切顺序排列,在裁切位置处进行首尾拼接,串联为完整视频进行输出。
42、作为更进一步的解决方案,当挑选模式设置为人物文案模式时,所述智能视频片段挑选单元执行如下处理步骤:
43、s301:根据用户设置需要进行视频生成的人物照片,执行步骤s101-s104,得到人物挑选片段信息序列;根据用户设置需要进行视频生成的文案内容,执行步骤s201-s206,得到文案挑选片段信息序列;
44、s302:将人物挑选片段信息序列和文案挑选片段信息序列中,时间相互重合或者时间连续的视频文件片段或视频流片段挑选出来;
45、s303:将挑选出来的各视频文件片段或视频流片段进行时间轴对齐后,裁切为若干视频片段并送入智能特效单元进行特效信息查询;
46、s304:智能特效单元返回各视频片段的特效信息,将各视频片段按照特效信息,添加对应的特效声音、视频特技和视频过渡特技,得到若干特效视频片段;
47、s305:将特效视频片段按照裁切顺序排列,在裁切位置处进行首尾拼接,串联为完整视频进行输出。
48、作为更进一步的解决方案,所述智能视频片段挑选单元在进行视频片段裁切时;
49、若有背景音乐,则通过智能音频单元的音频节奏分析模块,对背景音乐进行音频节奏提取得到音频节奏信息,根据音频节奏信息确定对应的音频节奏点,并从音频节奏点处裁切视频片段;若无背景音乐,则直接通过各视频文件片段或视频流片段对应的人物信息,提取人物信息中存在的时间戳并进行前后时间排序,并从时间戳处裁切视频片段。
50、与相关技术相比较,本发明提供的一种智能视频生成系统具有如下有益效果:
51、本发明通过视频内容智能分析单元对用户上传的视频文件或视频流进行内容智能分析,提取其中所记录的人脸特征信息、人脸表情信息、人体姿势信息、视频文字信息和视频物体信息,再协同智能音频单元提取视频语音信息,并一并组合成人物信息存入数据库中;智能视频片段挑选单元则先根据用户选择的挑选模式,挑选对应的视频文件片段或视频流片段,再进行时间轴对齐后裁切为若干视频片,最后再通过智能特效单元为各视频片段添加特效声音、视频特技和视频过渡特技,并按照时间线将各视频片段串联为完整视频。本发明能动态生成不同形式、不同内容、不同剪辑、不同特效的视频,且这些不同均和视频的人物信息相关,其生成的视频和内容之间存在内在关联,能避免单一依靠人脸来生成视频的固定性、单一性和同质化的问题。
1.一种智能视频生成系统,其特征在于,包括视频内容智能分析单元、智能音频单元、智能文案单元、智能特效单元和智能视频片段挑选单元;其中,
2.根据权利要求1所述的一种智能视频生成系统,其特征在于,所述视频内容智能分析单元通过如下步骤对视频文件或视频流进行内容智能分析:
3.根据权利要求2所述的一种智能视频生成系统,其特征在于,所述视频内容智能分析单元从视频文件或视频流中分离出音频信息,并将音频信息发送至智能音频单元;所述智能音频单元协同进行音频信息处理,通过语音转文字模块进行语音-文字转换,将转换得到的语音文字信息、所在帧的图片信息和对应时间戳进行组合,得到视频语音信息并存入数据库中。
4.根据权利要求3所述的一种智能视频生成系统,其特征在于,所述视频内容智能分析单元通过将视频文字信息、视频物体信息、人脸特征信息、人脸表情信息、人体姿势信息和视频语音信息进行组合,得到视频文件或视频流的人物信息并存入数据库中。
5.根据权利要求4所述的一种智能视频生成系统,其特征在于,还定义有消极表情和不文明姿势,并将数据库中存在消极表情和/或不文明姿势的人物信息剔除。
6.根据权利要求1所述的一种智能视频生成系统,其特征在于,所述智能特效单元通过如下步骤进行特效信息查询:
7.根据权利要求4所述的一种智能视频生成系统,其特征在于,当挑选模式设置为人物模式时,所述智能视频片段挑选单元执行如下处理步骤:
8.根据权利要求1所述的一种智能视频生成系统,其特征在于,当挑选模式设置为文案模式时,所述智能视频片段挑选单元执行如下处理步骤:
9.根据权利要求7与权利要求8任一项所述的一种智能视频生成系统,其特征在于,当挑选模式设置为人物文案模式时,所述智能视频片段挑选单元执行如下处理步骤:
10.根据权利要求1所述的一种智能视频生成系统,其特征在于,所述智能视频片段挑选单元在进行视频片段裁切时;