1.本公开的实施例涉及图像处理技术领域,具体地,涉及一种可变场景的直播方法及装置。
背景技术:2.目前,很多视频直播平台都提供了人像抠图的能力,但是直播人像抠图的功能局限于更换直播背景,例如直播主播进行直播的时候进行人像抠图以后更换直播背景为舞台、户外等。而且,提供人像抠图功能的平台大部分都是采用绿幕抠图的方式,这是方式依赖于绿幕场景的搭建,占用空间大、成本高,不利于推广到广大用户群体。
3.对主播直播的场景切换速度比较慢,直播场景的切换速度跟不上直播对信号传输速度的要求,场景的切换过程对直播质量产生影响。
技术实现要素:4.本文中描述的实施例提供了一种可变场景的直播方法、装置以及存储有计算机程序的计算机可读存储介质,以解决现有技术对主播直播的场景切换速度比较慢,直播场景的切换速度跟不上直播对信号传输速度的要求的问题。
5.根据本公开的第一方面,提供了一种可变场景的直播方法。所述可变场景的直播方法包括:将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑;将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景;从录制的待直播视频中采样各帧图像;通过卷积神经网络对采样得到的各帧图像进行人像抠图处理;根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;将各帧合成场景后的人像图像合成为视频后输出,以进行直播。
6.作为本公开的可变场景的直播方法的一个实施例,所述根据对应场景的需求对待编辑的场景文件进行编辑的步骤,包括:从所述原始场景文件中选取文件生成图层,其中,所述图层包括前景图层和背景图层。
7.作为本公开的可变场景的直播方法的一个实施例,在所述从所述原始场景文件中选取文件生成图层的步骤之后,所述可变场景的直播方法还包括:对图层进行属性调整,所述属性包括位置、大小和旋转角度中至少一项。
8.作为本公开的可变场景的直播方法的一个实施例,在所述从所述原始场景文件中选取文件生成图层的步骤之后,所述可变场景的直播方法还包括:对图层设置滤镜风格。
9.作为本公开的可变场景的直播方法的一个实施例,在所述从所述原始场景文件中选取文件生成图层的步骤之后,所述可变场景的直播方法还包括:对图层进行动画特效处理。
10.作为本公开的可变场景的直播方法的一个实施例,所述将人像抠图处理后得到的人像与场景标识对应的场景文件合成的步骤,包括:将抠图处理后得到的人像作为人像图
层;将所述人像图层放在所述前景图层和所述背景图层之间进行图层合成,得到合成场景后的图像。
11.作为本公开的可变场景的直播方法的一个实施例,当所述至少一个场景为多个场景时,所述可变场景的直播方法还包括:在进行直播的过程中,改变与当前场景对应的预设的场景标识;根据改变后的预设的场景标识,将人像抠图处理后得到的人像与改变后的场景标识对应的下一场景文件合成,得到合成了下一场景后的各帧图像;将合成了下一场景后的各帧图像合成为视频后输出,接着进行与下一场景对应的直播。
12.根据本公开的第二方面,提供了一种可变场景的直播装置。所述可变场景的直播装置包括:编辑单元,用于将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑;保存单元,用于将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景;采样单元,用于从录制的待直播视频中采样各帧图像;抠图单元,用于通过卷积神经网络对采样得到的各帧图像进行人像抠图处理;合成单元,用于根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;输出单元,用于将各帧合成场景后的人像图像合成为视频后输出,以进行直播。
13.根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述可变场景的直播方法。
14.根据本公开的第四方面,提供一种存储有计算机指令的计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述可变场景的直播方法。
15.本公开实施例的可变场景的直播方法将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑;将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景;从录制的待直播视频中采样各帧图像;通过卷积神经网络对采样得到的各帧图像进行人像抠图处理;根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;将各帧合成场景后的人像图像合成为视频后输出,以进行直播。在直播之前编辑完成场景,直播过程中采用神经网络模型进行抠图并将抠图得到的人像与场景融合,能够在直播过程中切换场景,采用本公开实施例的方案可以使切换场景的速度更快,切换场景不会明显地影响直播质量。
附图说明
16.为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
17.图1为本公开实施例提供的可变场景的直播方法的流程图;
18.图2为本公开一个示例提供的图1中步骤的流程图;
19.图3为本公开一个示例提供的可变场景的直播方法的流程图
20.图4为本公开实施例提供的可变场景的直播装置的结构示意图;以及
21.图5示出了能够用于实现本公开的示例性电子设备的结构框图。
22.在附图中,最后两位数字相同的标记对应于相同的元素。需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
23.为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
24.除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。如在此所使用的,将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。
25.目前,提供图像抠图功能的直播平台,都需要在录制视频的过程中主播在绿幕前活动,不能超出绿幕的范围,限制了主播的活动范围。而且,为了后期进行人像抠图,必须在主播录制视频时放置绿幕作为视频背景,绿幕面积小的话会限制主播的活动,绿幕面积大的话既增加硬件成本和人工成本,又会占用视频录制场地的空间。
26.另外,主播直播的人像抠图的功能仅局限于更换直播背景,例如直播主播进行直播的时候进行人像抠图以后更换直播背景为舞台、户外等,只能更换直播的背景,而且呈现效果单一,无法与各种直播主题相契合。
27.图1为本公开实施例提供的可变场景的直播方法的流程图。
28.如图1所示,在步骤s110,将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑。
29.所述待编辑的场景文件可以是根据场景的预设需求,获取到的素材,比如图片、图形、动态视频、以及符号等中至少一种素材。
30.作为一种可选的实施方式,所述步骤s110根据对应场景的需求对待编辑的场景文件进行编辑,可以包括:从所述待编辑的场景文件中选取文件生成图层,其中,所述图层包括前景图层和背景图层。例如,对于外景场景,前景可以为一棵树,背景可以为山水风景。对于内景场景,前景可以为窗户或镜头图片,背景可以为室内沙发书架等等。
31.作为一种可选实施方式,在从所述待编辑的场景文件中选取文件生成图层之后,该实施例的可变场景的直播方法还可以包括对图层进行属性调整,所述属性包括位置、大小和旋转角度等中至少一项。也就是说,图层的位置、大小和旋转角度都是可以由用户进行配置的。
32.作为一种可选实施方式,在从所述待编辑的场景文件中选取文件生成图层之后,该实施例的可变场景的直播方法还可以包括对图层设置滤镜风格。例如,对于室外场景,可以通过滤镜风格将图层设置为阳光明媚的风格。滤镜风格设置的主要目的是使画面与直播主题更契合。
33.作为一种可选实施方式,在从所述待编辑的场景文件中选取文件生成图层之后,
该实施例的可变场景的直播方法还可以包括对图层进行动画特效处理。动画特效是应用在直播时的整个画面的,主要目的是使直播更有氛围感。
34.作为一个具体的例子,场景包括图层信息、滤镜风格、以及动画特效。图层可以根据与主播人像图层的前后关系依次为前景图层、人像图层、背景图层三种,其中,人像图层的来源是直播用的视频画面进行人像抠图后得到的人像画面。
35.在步骤s120,将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景。
36.在步骤s130,从录制的待直播视频中采样各帧图像。
37.从视频中采样图像所采用的技术在此不做限定,可以采用任何现有技术从录制的待直播视频中采样各帧图像。
38.在步骤s140,通过卷积神经网络对采样得到的各帧图像进行人像抠图处理。
39.作为卷积神经网络的一个具体例子,卷积神经网络包括编解码器网络和细化网络两个部分,第一部分是一个深度卷积编解码器网络,它以图像和相应的三分图作为输入,预测图像的阿尔法抠图;第二部分是一个小的卷积网络,它对第一个网络的阿尔法抠图预处理进行了细化,使其具有更精确的阿尔法通道(αchannel或alpha channel)值和更锐化的边缘。其中,阿尔法通道(即alpha通道)是指一张图片的透明和半透明度。
40.使用卷积神经网络来从给定的原图和三分图中预测阿尔法通道,具体为:将包括rgb三通道的原图和单通道的三分图拼接成一个4通道图像,然后输入卷积神经网络,首先借助卷积神经网络(即编码器)从图像中提取特征,这使得图像的分辨率下降,然后利用反池化(即解码器)提升分辨率并预测与输入一样大小的alpha通道,整个编码-解码的过程组成网络的第一阶段(编码器-解码器阶段)。
41.因为网络只关心三分图的不确定区域(即灰色区域),对于确定区域由三分图提供alpha通道值,显然有理由相信网络的预测值要比输入的三分图更准确,如果用这个预测的alpha通道替换原来的三分图,和原图再次合并重新进行编码-解码过程,那么新的预测值将更加准确,不过缺点也很明显,就是网络太大了。为了兼顾利用预测的更准确的alpha通道,又不至于使网络结构太复杂,将原图和预测的alpha通道合并之后,进行了4次卷积运算,输出最终的alpha通道的预测值,这个过程称为网络的细化阶段。
42.另外,为了训练抠图用的卷积神经网络,将真实图像中的对象合成到新的背景中来创建一个更大的数据集。
43.因此,本公开实施例可以采用深度学习构建的模型来进行人像抠图,并将抠图的图层应用于对应直播主题的场景中,以达到沉浸式直播的效果。
44.在步骤s150,根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像。
45.如图2所示,所述步骤s150中将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,包括:
46.步骤s151,将抠图处理后得到的人像作为人像图层。
47.步骤s152,将所述人像图层放在前景图层和背景图层之间进行图层合成,得到合成场景后的人像图像。
48.具体来说,前景图层是人像图层前面的图层,背景图层是人像图层后面的图层。
49.在步骤s160,将各帧合成场景后的人像图像合成为视频后输出,以进行直播。
50.如图3所示,当所述至少一个场景为多个场景时,该实施例的可变场景的直播方法还可以包括如下步骤:
51.步骤s161,在进行直播的过程中,改变与当前场景对应的预设的场景标识;
52.步骤s162,根据改变后的预设的场景标识,将人像抠图处理后得到的人像与改变后的场景标识对应的下一场景文件合成,得到合成了下一场景后的各帧图像;
53.步骤s163,将合成了下一场景后的各帧图像合成为视频后输出,进行与下一场景对应的直播。
54.可见,本公开的实施例提供了2种模式,分别是编辑模式和录制模式。在编辑模式下,用户可以通过加载场景文件的方式导入场景,然后对场景进行编辑,编辑结束后可以对场景进行保存。场景的编辑可以包括图层编辑和特效编辑。录制模式可以包括3个步骤,分别是开始录制、切换场景、以及结束录制。
55.本公开实施例的可变场景的直播方法能够在直播过程中切换场景,采用本公开实施例的方案可以使切换场景的速度更快,切换场景不会明显地影响直播质量。本公开实施例采用神经网络模型来进行人像抠图,是一种轻量级的人像抠图手段,这种轻量级的人像抠图采用纯软件的人像抠图手段,相比于绿幕人像抠图更简单、快捷,不需要绿幕,因此可以低成本、简单快捷地进行直播环境的搭建。本公开实施例的可变场景的直播方法为了提供更多的直播功能,直播主播可以根据不同的直播主题对场景进行切换操作,从而让观众有沉浸式体验。而且,本公开的实施例的场景不仅包括人像的背景,还包括前景。本公开实施例的方案还包括对直播进行高自由度的场景编辑功能,全方面满足直播主播的主题、氛围要求。
56.图4为本公开实施例提供的可变场景的直播装置的结构示意图。
57.如图4所示,本公式实施例的可变场景的直播装置400包括编辑单元410、保存单元420、采样单元430、抠图单元440、合成单元450、以及输出单元460。其中,
58.所述编辑单元410用于将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑。
59.作为一种可选的实施方式,所述编辑单元410可以包括图层生成模块,所述图层生成模块用于从所述原始场景文件中选取文件生成图层,其中,所述图层包括前景图层和背景图层。
60.作为一种可选的实施方式,所述编辑单元410可以包括属性调整模块,所述属性调整模块用于对图层进行属性调整,所述属性包括位置、大小和旋转角度中至少一项。
61.作为一种可选的实施方式,所述编辑单元410可以包括滤镜风格设置模块,所述滤镜风格设置模块用于对图层设置滤镜风格。
62.作为一种可选的实施方式,所述编辑单元410可以包括动画特效处理模块,所述动画特效处理模块对图层进行动画特效处理。
63.所述保存单元420用于将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景。
64.所述采样单元430用于从录制的待直播视频中采样各帧图像。
65.所述抠图单元440用于通过卷积神经网络对采样得到的各帧图像进行人像抠图处
理。
66.所述合成单元450用于根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像。
67.作为一种可选的实施方式,所述合成单元550可以进一步用于将抠图处理后得到的人像作为人像图层,将所述人像图层放在所述前景图层和所述背景图层之间进行图层合成,得到合成场景后的图像。
68.所述输出单元460用于将各帧合成场景后的人像图像合成为视频后输出,以进行直播。
69.作为一种可选的实施方式,所述可变场景的直播装置还可以包括场景切换模块,所述场景切换模块用于在进行直播的过程中,改变与当前场景对应的预设的场景标识;根据改变后的预设的场景标识,将人像抠图处理后得到的人像与改变后的场景标识对应的下一场景文件合成,得到合成了下一场景后的各帧图像;将合成了下一场景后的各帧图像合成为视频后输出,接着进行与下一场景对应的直播。
70.本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
71.本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
72.本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
73.参考图5,现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
74.如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序,来执行各种适当的动作和处理。在ram 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
75.电子设备500中的多个部件连接至i/o接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
76.计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,前述通过预测单应矩阵实现配准的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述实施例的通过预测单应矩阵实现配准的方法。
77.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
78.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
79.如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
80.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
81.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
82.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
83.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
84.类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
85.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
86.此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
87.本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
88.应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要
求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
技术特征:1.一种可变场景的直播方法,包括:将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑;将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景;从录制的待直播视频中采样各帧图像;通过卷积神经网络对采样得到的各帧图像进行人像抠图处理;根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;将各帧合成场景后的人像图像合成为视频后输出,以进行直播。2.根据权利要求1所述的可变场景的直播方法,其中,所述根据对应场景的需求对待编辑的场景文件进行编辑的步骤,包括:从所述原始场景文件中选取文件生成图层,其中,所述图层包括前景图层和背景图层。3.根据权利要求2所述的可变场景的直播方法,其中,在所述从所述原始场景文件中选取文件生成图层的步骤之后,还包括:对图层进行属性调整,所述属性包括位置、大小和旋转角度中至少一项。4.根据权利要求2所述的可变场景的直播方法,其中,在所述从所述原始场景文件中选取文件生成图层的步骤之后,还包括:对图层设置滤镜风格。5.根据权利要求2-4中任一项所述的可变场景的直播方法,其中,在所述从所述原始场景文件中选取文件生成图层的步骤之后,还包括:对图层进行动画特效处理。6.根据权利要求2所述的可变场景的直播方法,其中,所述将人像抠图处理后得到的人像与场景标识对应的场景文件合成的步骤,包括:将抠图处理后得到的人像作为人像图层;将所述人像图层放在所述前景图层和所述背景图层之间进行图层合成,得到合成场景后的图像。7.根据权利要求1所述的可变场景的直播方法,其中,当所述至少一个场景为多个场景时,所述方法还包括:在进行直播的过程中,改变与当前场景对应的预设的场景标识;根据改变后的预设的场景标识,将人像抠图处理后得到的人像与改变后的场景标识对应的下一场景文件合成,得到合成了下一场景后的各帧图像;将合成了下一场景后的各帧图像合成为视频后输出,接着进行与下一场景对应的直播。8.一种可变场景的直播装置,包括:编辑单元,用于将待编辑的场景文件与至少一个场景分别对应起来,并根据对应场景的需求对待编辑的场景文件进行编辑;保存单元,用于将编辑后的场景文件与对应场景的场景标识对应保存,其中,所述场景标识用于指示对应场景;采样单元,用于从录制的待直播视频中采样各帧图像;抠图单元,用于通过卷积神经网络对采样得到的各帧图像进行人像抠图处理;
合成单元,用于根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;输出单元,用于将各帧合成场景后的人像图像合成为视频后输出,以进行直播。9.一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。10.一种存储有计算机指令的计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
技术总结本公开的实施例提供一种可变场景的直播方法和装置。该方法包括:将待编辑的场景文件与至少一个场景分别对应,并根据对应场景的需求对待编辑的场景文件进行编辑;将编辑后的场景文件与对应场景的场景标识对应保存景;从录制的待直播视频中采样各帧图像;通过卷积神经网络对采样得到的各帧图像进行人像抠图;根据预设的场景标识,将人像抠图处理后得到的人像与场景标识对应的当前场景文件合成,得到合成场景后的人像图像;将各帧合成场景后的人像图像合成为视频后输出,以进行直播。在直播前编辑完成场景,直播过程中采用神经网络模型进行抠图并将抠图得到的人像与场景融合,能在直播过程中切换场景,使切换场景的速度更快,不会明显影响直播质量。明显影响直播质量。明显影响直播质量。
技术研发人员:蔡炜焕 董崇洋 王云云 王涛
受保护的技术使用者:稿定(厦门)科技有限公司
技术研发日:2022.03.29
技术公布日:2022/7/5