基于GAN网络的现场混音方法、装置、设备及介质.pdf

上传人:没水****6 文档编号:10147731 上传时间:2021-06-05 格式:PDF 页数:16 大小:677.81KB
收藏 版权申诉 举报 下载
基于GAN网络的现场混音方法、装置、设备及介质.pdf_第1页
第1页 / 共16页
基于GAN网络的现场混音方法、装置、设备及介质.pdf_第2页
第2页 / 共16页
基于GAN网络的现场混音方法、装置、设备及介质.pdf_第3页
第3页 / 共16页
文档描述:

《基于GAN网络的现场混音方法、装置、设备及介质.pdf》由会员分享,可在线阅读,更多相关《基于GAN网络的现场混音方法、装置、设备及介质.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010879611.3 (22)申请日 2020.08.27 (71)申请人 济南浪潮高新科技投资发展有限公 司 地址 250100 山东省济南市高新区浪潮路 1036号S05楼北六楼 (72)发明人 孙善宝罗清彩谭强 (74)专利代理机构 北京君慧知识产权代理事务 所(普通合伙) 11716 代理人 董延丽 (51)Int.Cl. G10L 13/033(2013.01) G10L 25/03(2013.01) G10L 25/30(2013.01) G10L 25/51。

2、(2013.01) G06K 9/62(2006.01) G06N 3/04(2006.01) (54)发明名称 一种基于GAN网络的现场混音方法、 装置、 设 备及介质 (57)摘要 本申请公开了一种基于GAN网络的现场混音 方法、 装置、 设备及介质, 包括: 通过收集设备收 集现场的音频数据; 将所述现场的音频数据输入 至预先训练的现场混音模型, 并输出现场音频数 据的混音结果, 其中, 所述现场混音模型是基于 GAN网络训练生成, 所述现场混音模型包括辨别 器与生成器。 本说明书实施例采用GAN网络和深 度学习技术, 构建了现场的现场混音模型, 与传 统声音融合技术相比, 采用GAN网。

3、络构建的现场 混音模型, 在没有调音师的情况下也可以很好地 合成具有复杂分布的声音, 节省人力, 并可以提 高音频的混音成音的效率。 权利要求书2页 说明书10页 附图3页 CN 112116906 A 2020.12.22 CN 112116906 A 1.一种基于GAN网络的现场混音方法, 其特征在于, 所述方法包括: 通过收集设备收集现场的音频数据; 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的混音 结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别器与 生成器。 2.根据权利要求1所述的基于GAN网络的现场混音方法, 其特征。

4、在于, 所述将所述现场 的音频输入至预先训练的现场混音模型之前, 所述方法还包括: 通过收集设备收集样本集, 其中, 所述样本集包括多个现场的音频数据与多个混音后 的音频数据; 建立初始的现场混音模型, 其中, 所述初始的现场混音模型包括初始的辨别器与初始 的生成器; 根据所述样本集训练初始的现场混音模型, 确定出最终的现场混音模型。 3.根据权利要求2所述的基于GAN网络的现场混音方法, 其特征在于, 所述通过收集设 备收集样本集之后, 所述方法还包括: 根据预先设定的时间间隔, 对所述样本集中的多个现场的音频数据与多个混音后的音 频数据进行分割, 确定出多个样本数据; 所述根据所述样本集训。

5、练初始的现场混音模型, 确定出最终的现场混音模型, 具体包 括: 根据所述样本集中的多个样本数据训练初始的现场混音模型, 确定出最终的现场混音 模型。 4.根据权利要求2所述的基于GAN网络的现场混音方法, 其特征在于, 所述根据所述样 本集训练初始的现场混音模型, 确定出最终的现场混音模型, 具体包括: 固定所述初始的辨别器的网络参数, 通过所述样本集训练所述初始的生成器, 确定出 所述初始的生成器的网络参数, 以便所述初始的辨别器无法区分混音后的音频数据来自训 练后的生成器, 还是来自真实的音频数据; 固定训练后生成器的网络参数, 通过所述样本集训练所述初始的辨别器, 确定出所述 初始的辨。

6、别器的网络参数, 以便训练后的辨别器可以区分是真实的音轨数据与训练后生成 器生成的音轨数据, 其中, 所述音轨数据来自不同音频输入设备产生的音频数据; 交替训练所述初始的辨别器与所述初始的生成器, 得到最终的现场混音模型。 5.根据权利要求2所述的基于GAN网络的现场混音方法, 其特征在于, 所述根据所述样 本集训练初始的现场混音模型, 确定出最终的现场混音模型之后, 所述方法还包括: 通过收集设备收集现场的音频数据, 根据所述最终的现场混音模型的生成器, 确定出 现场音频数据的混音结果; 根据所述现场音频数据的混音结果, 微调所述最终的现场混音模型中生成器与辨别器 的网络参数, 确定出符合现。

7、场要求的现场混音模型。 6.根据权利要求1所述的基于GAN网络的现场混音方法, 其特征在于, 所述生成器用于 将多路音频融合形成两路输出音频, 所述生成器包括提取单路音轨的卷积层网络、 多路向 量融合的卷积层网络、 注意力机制网络与全连接层网络; 所述提取单路音轨的卷积层网络 用于实现单路音频数据的特征提取, 形成特征向量; 所述多路向量融合的卷积层网络用于 权利要求书 1/2 页 2 CN 112116906 A 2 将来自多个音轨的特征向量的融合; 所述注意力机制网络包括多个注意力网络和归一化 层, 所述注意力机制网络用于负责完成时间序列下的一段音频间的特征融合, 并将所述归 一化层输出的。

8、音频数据与来自所述现场音轨数据进行求和, 再经过所述全连接层网络, 最 终输出两路音轨数据。 7.根据权利要求1所述的基于GAN网络的现场混音方法, 其特征在于, 所述辨别器是基 于神经网络的二元分类器, 所述辨别器是根据Wasserstein距离确定。 8.一种基于GAN网络的现场混音装置, 其特征在于, 所述装置包括: 收集单元, 用于通过收集设备收集现场的音频数据; 结果单元, 用于将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场 音频数据的混音结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模 型包括辨别器与生成器。 9.一种基于GAN网络的现场混。

9、音设备, 其特征在于, 所述设备包括: 至少一个处理器; 以及, 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够: 通过收集设备收集现场的音频数据; 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的混音 结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别器与 生成器。 10.一种基于GAN网络的现场混音介质, 存储有计算机可执行指令, 其特征在于, 所述计 算机可执行指令设置为: 通过收集设备收集现场的音频数据; 将所述。

10、现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的混音 结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别器与 生成器。 权利要求书 2/2 页 3 CN 112116906 A 3 一种基于GAN网络的现场混音方法、 装置、 设备及介质 技术领域 0001 本申请涉及计算机技术领域, 尤其涉及一种基于GAN网络的现场混音方法、 装置、 设备及介质。 背景技术 0002 现场直播又称实况转播, 是电视台对一些重要新闻事件或大型活动进行现场拾 音、 拍摄并同时发送给受众的播出方式。 这些大型活动如文艺演出、 节日庆典等, 现场声音 通过混音台输出。

11、分轨直录的声音, 通过成音控台完成现场成音, 经过转播车将节目信号传 送回台, 再广播出去到电视机前观众面前。 混音成音的工作由现场调音师来完成, 现场包括 乐器、 人声等三十几个音轨, 而最终输出到电视机前只有两个音轨, 同时需要消去现场的各 种杂音, 以达到更好的收看效果, 这对现场调音师有很高的要求。 现有技术中, 若是现场调 音师的水平不高, 生成得混音效果可能很差。 发明内容 0003 有鉴于此, 本申请实施例提供了一种基于GAN网络的现场混音方法、 装置、 设备及 介质, 用于解决现有技术中, 若是现场调音师的水平不高, 生成得混音效果可能很差的问 题。 0004 本申请实施例采用。

12、下述技术方案: 0005 本申请实施例提供一种基于GAN网络的现场混音方法, 所述方法包括: 0006 通过收集设备收集现场的音频数据; 0007 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的 混音结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别 器与生成器。 0008 需要说明的是, 本说明书实施例采用GAN网络和深度学习技术, 构建了现场的现场 混音模型, 与传统声音融合技术相比, 采用GAN网络构建的现场混音模型, 在没有调音师的 情况下也可以很好地合成具有复杂分布的声音, 节省人力, 并可以提高音频的混音成音的 效率。 0。

13、009 进一步的, 所述将所述现场的音频输入至预先训练的现场混音模型之前, 所述方 法还包括: 0010 通过收集设备收集样本集, 其中, 所述样本集包括多个现场的音频数据与多个混 音后的音频数据; 0011 建立初始的现场混音模型, 其中, 所述初始的现场混音模型包括初始的辨别器与 初始的生成器; 0012 根据所述样本集训练初始的现场混音模型, 确定出最终的现场混音模型。 0013 进一步的, 所述通过收集设备收集样本集之后, 所述方法还包括: 0014 根据预先设定的时间间隔, 对所述样本集中的多个现场的音频数据与多个混音后 说明书 1/10 页 4 CN 112116906 A 4 的。

14、音频数据进行分割, 确定出多个样本数据; 0015 所述根据所述样本集训练初始的现场混音模型, 确定出最终的现场混音模型, 具 体包括: 0016 根据所述样本集中的多个样本数据训练初始的现场混音模型, 确定出最终的现场 混音模型。 0017 需要说明的是, 考虑音频的时序性以及上下文的关联, 通过上述方式将音频数据 进行小段分割, 使得最终的现场混音模型的混合声音的效果更好。 0018 进一步的, 所述根据所述样本集训练初始的现场混音模型, 确定出最终的现场混 音模型, 具体包括: 0019 固定所述初始的辨别器的网络参数, 通过所述样本集训练所述初始的生成器, 确 定出所述初始的生成器的网。

15、络参数, 以便所述初始的辨别器无法区分混音后的音频数据来 自训练后的生成器, 还是来自真实的音频数据; 0020 固定训练后生成器的网络参数, 通过所述样本集训练所述初始的辨别器, 确定出 所述初始的辨别器的网络参数, 以便训练后的辨别器可以区分是真实的音轨数据与训练后 生成器生成的音轨数据, 其中, 所述音轨数据来自不同音频输入设备产生的音频数据; 0021 交替训练所述初始的辨别器与所述初始的生成器, 得到最终的现场混音模型。 0022 需要说明的是, 通过交替训练生成器和辨别器, 完成现场混音模型的训练, 最终可 以将生成器用于大型活动现场的混音成音。 0023 进一步的, 所述根据所述。

16、样本集训练初始的现场混音模型, 确定出最终的现场混 音模型之后, 所述方法还包括: 0024 通过收集设备收集现场的音频数据, 根据所述最终的现场混音模型的生成器, 确 定出现场音频数据的混音结果; 0025 根据所述现场音频数据的混音结果, 微调所述最终的现场混音模型中生成器与辨 别器的网络参数, 确定出符合现场要求的现场混音模型。 0026 需要说明的是, 本说明书实施例通过进行有针对性的训练, 微调现场混音模型的 网络参数, 进而形成符合现场要求的现场混音模型, 可以混合出更加有渲染力音频数据。 0027 进一步的, 所述生成器用于将多路音频融合形成两路输出音频, 所述生成器包括 提取单。

17、路音轨的卷积层网络、 多路向量融合的卷积层网络、 注意力机制网络与全连接层网 络; 所述提取单路音轨的卷积层网络用于实现单路音频数据的特征提取, 形成特征向量; 所 述多路向量融合的卷积层网络用于将来自多个音轨的特征向量的融合; 所述注意力机制网 络包括多个注意力网络和归一化层, 所述注意力机制网络用于负责完成时间序列下的一段 音频间的特征融合, 并将所述归一化层输出的音频数据与来自所述现场音轨数据进行求 和, 再经过所述全连接层网络, 最终输出两路音轨数据。 0028 本说明书实施例采用卷积神经网络和注意力机制也能更好的实现并行化, 加速神 经网络的推理执行, 提高音频的混音成音效率, 提升。

18、直播的实时性。 同时, 本说明书实施例 构建注意力机制的神经网络来实现多路音频数据的融合, 可以兼顾到音频混音更多的特 征。 0029 进一步的, 所述辨别器是基于神经网络的二元分类器, 所述辨别器是根据 Wasserstein距离确定。 说明书 2/10 页 5 CN 112116906 A 5 0030 需要说明的是, 二元分类器的辨别器可以用于区分是真实的成音音轨数据还是由 生成器生成的音轨数据, 并且, 采用Wasserstein距离可以确定出更合适的辨别器, 使得辨 别器的辨别效果更好。 0031 本申请实施例还提供一种基于GAN网络的现场混音装置, 所述装置包括: 0032 收集单。

19、元, 用于通过收集设备收集现场的音频数据; 0033 结果单元, 用于将所述现场的音频数据输入至预先训练的现场混音模型, 并输出 现场音频数据的混音结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混 音模型包括辨别器与生成器, 所述辨别器是根据输出的Wasserstein距离训练得到。 0034 本申请实施例还提供一种基于GAN网络的现场混音设备, 所述设备包括: 0035 至少一个处理器; 以及, 0036 与所述至少一个处理器通信连接的存储器; 其中, 0037 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一 个处理器执行, 以使所述至少一个处。

20、理器能够: 0038 通过收集设备收集现场的音频数据; 0039 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的 混音结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别 器与生成器。 0040 本申请实施例还提供一种基于GAN网络的现场混音介质, 存储有计算机可执行指 令, 所述计算机可执行指令设置为: 0041 通过收集设备收集现场的音频数据; 0042 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场音频数据的 混音结果, 其中, 所述现场混音模型是基于GAN网络训练生成, 所述现场混音模型包括辨别 器与生成器。 0。

21、043 本申请实施例采用的上述至少一个技术方案能够达到以下有益效果: 本说明书实 施例采用GAN网络和深度学习技术, 构建了现场的现场混音模型, 与传统声音融合技术相 比, 采用GAN网络构建的现场混音模型, 在没有调音师的情况下也可以很好地合成具有复杂 分布的声音, 节省人力, 并可以提高音频的混音成音的效率。 附图说明 0044 此处所说明的附图用来提供对本申请的进一步理解, 构成本申请的一部分, 本申 请的示意性实施例及其说明用于解释本申请, 并不构成对本申请的不当限定。 在附图中: 0045 图1为本说明书实施例一提供的一种基于GAN网络的现场混音方法的流程示意图; 0046 图2为本。

22、说明书实施例二提供的一种基于GAN网络的现场混音方法的流程示意图; 0047 图3为本说明书实施例二提供的基于GAN网络的现场混音模型的示意图; 0048 图4为本说明书实施例三提供一种基于GAN网络的现场混音装置的结构示意图。 具体实施方式 0049 近年来, 人工智能技术发展迅速, 其商业化速度超出预期, 人工智能将会给整个社 会带来颠覆性的变化, 已经成为未来各国重要的发展战略。 特别是以深度学习为核心的算 说明书 3/10 页 6 CN 112116906 A 6 法演进, 其超强的进化能力, 在大数据的支持下, 通过训练构建得到类似人脑结构的大规模 神经网络, 已经可以解决各类问题。。

23、 0050 生成式对抗网络(GAN,Generative Adversarial Networks)是近年来复杂分布上 无监督学习最重要的方法之一, 目前已被广泛应用于生成领域, GAN可以产生令人印象深刻 的结果, 并且可以控制平滑且合理的语义变化, 成为最重要的学习任意复杂数据分布的生 成模型框架。 0051 现场直播又称实况转播, 是电视台对一些重要新闻事件或大型活动进行现场拾 音、 拍摄并同时发送给受众的播出方式。 这些大型活动如文艺演出、 节日庆典等, 现场声音 通过混音台输出分轨直录的声音, 通过成音控台完成现场成音, 经过转播车将节目信号传 送回台, 再广播出去到电视机前观众面前。

24、。 混音成音的工作由现场调音师来完成, 现场包括 乐器、 人声等三十几个音轨, 而最终输出到电视机前只有两个音轨, 同时需要消去现场的各 种杂音, 以达到更好的收看效果, 这对现场调音师有很高的要求。 现有技术缺乏一种实现现 场混音的方式。 0052 为使本申请的目的、 技术方案和优点更加清楚, 下面将结合本申请具体实施例及 相应的附图对本申请技术方案进行清楚、 完整地描述。 显然, 所描述的实施例仅是本申请一 部分实施例, 而不是全部的实施例。 基于本申请中的实施例, 本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例, 都属于本申请保护的范围。 0053 以下结合附图, 。

25、详细说明本申请各实施例提供的技术方案。 0054 图1为本说明书实施例一提供的一种基于GAN网络的现场混音方法的流程示意图, 本说明书实施例可以由现场混音模型的执行单元执行下述步骤, 具体步骤可以包括: 0055 步骤S101, 通过收集设备收集现场的音频数据。 0056 在本说明书实施例的步骤S101中, 收集设备可以为录音设备。 0057 步骤S102, 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场 音频数据的混音结果。 0058 在本说明书实施例的步骤S102中, 在现场混音模型可以是基于GAN网络训练生成, 现场混音模型可以包括辨别器与生成器。 0059 在本说明书实。

26、施例的步骤S102中, 生成器可以用于将多路音频融合形成两路输出 音频, 生成器可以包括提取单路音轨的卷积层网络、 多路向量融合的卷积层网络、 注意力机 制网络与全连接层网络; 所述提取单路音轨的卷积层网络可以用于实现单路音频数据的特 征提取, 形成特征向量; 多路向量融合的卷积层网络可以用于将来自多个音轨的特征向量 的融合; 所述注意力机制网络可以包括多个注意力网络和归一化层, 注意力机制网络可以 用于负责完成时间序列下的一段音频间的特征融合, 并将所述归一化层输出的音频数据与 来自所述现场音轨数据进行求和, 再经过所述全连接层网络, 最终输出两路音轨数据。 0060 需要说明的是, 本说明。

27、书实施例采用卷积神经网络和注意力机制也能更好的实现 并行化, 加速神经网络的推理执行, 提高音频的混音成音效率, 提升直播的实时性。 同时, 本 说明书实施例构建注意力机制的神经网络来实现多路音频数据的融合, 可以兼顾到音频混 音更多的特征。 0061 在本说明书实施例的步骤S102中, 辨别器可以是基于神经网络的二元分类器。 本 说明书实施例的二元分类器可以采用one-versus-all(OvA)策略, 简称一对多。 由于本说明 说明书 4/10 页 7 CN 112116906 A 7 书实施例的数据集包括多个现场的音频数据与多个混音后的音频数据, 可以构建一个二元 分类器。 训练时将现。

28、场的音频数据归为一类, 混音后的音频数据归为另一类, 这样会有一个 决策分数(概率), 然后可以取最高决策分数的一个类别作为该样本的类别, 通过上述方式 可以便于建立本说明书实施例所需的辨别器。 0062 需要说明的是, 本说明书实施例采用GAN网络和深度学习技术, 构建了现场的现场 混音模型, 与传统声音融合技术相比, 采用GAN网络构建的现场混音模型, 在没有调音师的 情况下也可以很好地合成具有复杂分布的声音, 节省人力, 并可以提高音频的混音成音的 效率。 0063 与本说明书实施例一相对应的是, 图2为本说明书实施例二提供的一种基于GAN网 络的现场混音方法的流程示意图, 本说明书实施。

29、例可以由现场混音模型的执行单元执行下 述步骤, 具体步骤可以包括: 0064 步骤S201, 通过收集设备收集样本集, 其中, 所述样本集包括多个现场的音频数据 与多个混音后的音频数据。 0065 在本说明书实施例的步骤S201中, 收集设备可以为录音设备。 混音后的音频数据 可以为现场的音频数据经过调音完成的音频数据。 0066 步骤S202, 建立初始的现场混音模型。 0067 在本说明书实施例的步骤S202中, 在初始的现场混音模型可以是基于GAN网络训 练生成, 初始的现场混音模型可以包括初始的辨别器与初始的生成器。 0068 在本说明书实施例的步骤S202中, 生成器可以用于将多路音。

30、频融合形成两路输出 音频, 生成器可以包括提取单路音轨的卷积层网络、 多路向量融合的卷积层网络、 注意力机 制网络与全连接层网络; 所述提取单路音轨的卷积层网络可以用于实现单路音频数据的特 征提取, 形成特征向量; 多路向量融合的卷积层网络可以用于将来自多个音轨的特征向量 的融合; 所述注意力机制网络可以包括多个注意力网络和归一化层, 注意力机制网络可以 用于负责完成时间序列下的一段音频间的特征融合, 并将所述归一化层输出的音频数据与 来自所述现场音轨数据进行求和, 再经过所述全连接层网络, 最终输出两路音轨数据。 0069 需要说明的是, 本说明书实施例采用卷积神经网络和注意力机制也能更好的。

31、实现 并行化, 加速神经网络的推理执行, 提高音频的混音成音效率, 提升直播的实时性。 同时, 本 说明书实施例构建注意力机制的神经网络来实现多路音频数据的融合, 可以兼顾到音频混 音更多的特征。 0070 在本说明书实施例的步骤S202中, 辨别器可以是基于神经网络的二元分类器, 可 以 用于区分是真实的成音音轨数据还是由生成器生成的音轨数据, 并可以采用 Wasserstein距离来进行衡量。 其中, Wasserstein距离可以用来表示两个分布的相似程度。 Wasserstein距离可以是在最优路径规划下的最小消耗。 0071 需要说明的是, 本说明书实施例的二元分类器可以采用one-。

32、versus-all(OvA)策 略, 简称一对多。 由于本说明书实施例的数据集包括多个现场的音频数据与多个混音后的 音频数据, 可以构建一个二元分类器。 训练时将现场的音频数据归为一类, 混音后的音频数 据归为另一类, 这样会有一个决策分数(概率), 然后可以取最高决策分数的一个类别作为 该样本的类别, 通过上述方式可以便于建立本说明书实施例所需的辨别器。 0072 步骤S203, 根据所述样本集训练初始的现场混音模型, 确定出最终的现场混音模 说明书 5/10 页 8 CN 112116906 A 8 型。 0073 在本说明书实施例的步骤S203中, 本步骤具体可以包括: 0074 固定。

33、所述初始的辨别器的网络参数, 通过所述样本集训练所述初始的生成器, 确 定出所述初始的生成器的网络参数, 以便所述初始的辨别器无法区分混音后的音频数据来 自训练后的生成器, 还是来自真实的音频数据; 0075 固定训练后生成器的网络参数, 通过所述样本集训练所述初始的辨别器, 确定出 所述初始的辨别器的网络参数, 以便训练后的辨别器可以区分是真实的音轨数据与训练后 生成器生成的音轨数据, 其中, 所述音轨数据来自不同音频输入设备产生的音频数据; 0076 交替训练所述初始的辨别器与所述初始的生成器, 得到最终的现场混音模型。 0077 需要说明的是, 通过交替训练生成器和辨别器, 完成现场混音。

34、模型的训练, 最终可 以将生成器用于大型活动现场的混音成音。 此外, 根据所述样本集训练初始的现场混音模 型时, 需要通过卷积神经网络来提取多路音频数据特征。 0078 步骤S204, 通过收集设备收集现场的音频数据, 根据所述最终的现场混音模型的 生成器, 确定出现场音频数据的混音结果。 0079 步骤S205, 根据所述现场音频数据的混音结果, 微调所述最终的现场混音模型中 生成器与辨别器的网络参数, 确定出符合现场要求的现场混音模型。 0080 在本说明书实施例的步骤S204与S205中, 通过进行有针对性的训练, 微调现场混 音模型的网络参数, 进而形成符合现场要求的现场混音模型, 可。

35、以混合出更加有渲染力音 频数据。 0081 步骤S206, 通过收集设备收集现场的音频数据。 0082 步骤S207, 将所述现场的音频数据输入至预先训练的现场混音模型, 并输出现场 音频数据的混音结果。 0083 进一步的, 所述通过收集设备收集样本集之后, 所述方法还包括: 0084 根据预先设定的时间间隔, 对所述样本集中的多个现场的音频数据与多个混音后 的音频数据进行分割, 确定出多个样本数据; 0085 所述根据所述样本集训练初始的现场混音模型, 确定出最终的现场混音模型, 具 体包括: 0086 根据所述样本集中的多个样本数据训练初始的现场混音模型, 确定出最终的现场 混音模型。 。

36、0087 需要说明的是, 考虑音频的时序性以及上下文的关联, 通过上述方式将音频数据 进行小段分割, 使得最终的现场混音模型的混合声音的效果更好。 0088 需要说明的是, 本说明书实施例采用GAN网络和深度学习技术, 构建了现场的现场 混音模型, 与传统声音融合技术相比, 采用GAN网络构建的现场混音模型, 在没有调音师的 情况下也可以很好地合成具有复杂分布的声音, 节省人力, 并可以提高音频的混音成音的 效率。 0089 需要说明的是, 本说明书实施例的技术方案包括: 0090 一种基于GAN的现场混音方法, 采用基于GAN网络的现场混音模型, 参见图3, 示出 了基于GAN网络的现场混音。

37、模型的示意图, 由生成器和辨别器构成, 通过卷积神经网络来提 取多路音频数据特征, 同时考虑音频的时序性以及上下文的关联, 将音频数据进行小段分 说明书 6/10 页 9 CN 112116906 A 9 割, 构建注意力机制的神经网络来实现多路音频数据的融合; 通过交替训练生成器和辨别 器, 完成现场混音模型的训练, 最终将生成器用于大型活动现场的混音成音。 另外, 根据混 音现场的实际状况, 可以对音频数据采样, 并进行有针对性的训练, 微调模型参数, 形成更 加准确、 符合现场要求的混音模型。 其中, 0091 现场音轨是指来自现场不同音频输入设备产生的音频数据; GAN网络包括生成器 。

38、和辨别器; 生成器负责实现多路音频融合形成两路输出音频, 生成器网络由提取单路音轨 的卷积层网络、 多路向量融合的卷积层网络、 注意力机制网络、 全连接层网络等部分构成; 提取单路音轨的卷积层网络主要由卷积层构成, 实现单路音频数据的特征提取, 形成特征 向量; 多路向量融合的卷积层网络由卷积层构成, 完成来自多个音轨的特征向量的融合; 注 意力机制网络由多头注意力网络和归一化层构成, 负责完成时间序列下的一段音频间的特 征融合; 将归一化层输出的音频数据与来自现场音轨数据进行求和, 经过全连接层网络, 最 终输出两路音轨数据; 辨别器是基于神经网络的二元分类器, 区分是真实的成音音轨数据 还。

39、是由所生成器生成的音轨数据, 可以采用Wasserstein距离来进行衡量。 0092 本说明书实施例在进行现场混音模型训练时, 具体包括: 0093 步骤301、 收集大量现场的音频数据和混音后的音频数据, 对音频数据根据时间间 隔进行分割, 其中, 混音后的音频数据可以为现场的音频数据经过调音完成的音频数据; 0094 步骤302、 固定辨别器的网络参数, 更新生成器的网络参数, 使得辨别器无法区分 混音后的音频是来自生成器产生的音频, 还是来自真实的音频数据; 0095 步骤303、 固定生成器网络参数, 训练辨别器, 根据输出的Wasserstein距离, 将误 差反向传播, 更新辨别。

40、器的网络参数, 使得辨别器可以区分是真实的成音音轨数据还是由 所述的生成器生成的音轨数据; 0096 步骤304、 交替训练辨别器和生成器网络, 得到最终的现场混音模型。 0097 本说明书实施例在进行现场混音模型使用前, 具体包括: 0098 步骤401、 彩排阶段, 现场进行音频数据采集, 利用现场混音模型的生成器网络实 现现场混音成音; 0099 步骤402、 根据成音情况, 进行微调, 达到比较满意的成音效果; 0100 步骤403、 现场进行小样本的训练, 微调模型参数, 形成更加准确、 符合现场要求的 混音模型; 0101 步骤404、 直播现场, 采用符合现场要求的混音模型的生成。

41、器网络完成现场声音的 混音成音任务, 并将声音送往转播设备。 0102 本说明书实施例的优点在于: 0103 本说明书实施例采用GAN网络和深度学习技术, 构建了现场混音成音模型, 将声音 分成固定的小段, 采用卷积神经网络来提取其特征; 同时考虑音频的时序性以及上下文的 关联, 将音频数据进行小段分割, 构建注意力机制的神经网络来实现多路音频数据的融合, 可以兼顾到音频混音更多的特征。 与传统声音融合技术相比, 采用GAN网络能够更好地合成 具有复杂分布的声音, 同时可以根据现场的实际状况, 对音频数据采样, 并进行有针对性的 训练, 微调模型参数,形成更加有渲染力音频数据。 另外, 采用卷。

42、积神经网络和注意力机制 也能更好的实现并行化, 加速神经网络的推理执行, 提高音频的混音成音效率, 提升直播的 实时性。 说明书 7/10 页 10 CN 112116906 A 10 0104 与本说明书实施例二相对应的是, 图4为本说明书实施例三提供一种基于GAN网络 的现场混音装置的结构示意图, 装置可以包括: 收集单元1与结果单元2。 0105 收集单元1用于通过收集设备收集现场的音频数据。 0106 结果单元2用于将所述现场的音频数据输入至预先训练的混音模型, 并输出现场 音频数据的混音结果, 其中, 所述混音模型是基于GAN网络训练生成, 所述混音模型包括辨 别器与生成器, 所述辨。

43、别器是根据输出的Wasserstein距离训练得到。 0107 本申请实施例还提供一种基于GAN网络的现场混音设备, 所述设备包括: 0108 至少一个处理器; 以及, 0109 与所述至少一个处理器通信连接的存储器; 其中, 0110 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一 个处理器执行, 以使所述至少一个处理器能够: 0111 通过收集设备收集现场的音频数据; 0112 将所述现场的音频数据输入至预先训练的混音模型, 并输出现场音频数据的混音 结果, 其中, 所述混音模型是基于GAN网络训练生成, 所述混音模型包括辨别器与生成器。 0113 本申请实施例还。

44、提供一种基于GAN网络的现场混音介质, 存储有计算机可执行指 令, 所述计算机可执行指令设置为: 0114 通过收集设备收集现场的音频数据; 0115 将所述现场的音频数据输入至预先训练的混音模型, 并输出现场音频数据的混音 结果, 其中, 所述混音模型是基于GAN网络训练生成, 所述混音模型包括辨别器与生成器。 0116 在20世纪90年代, 对于一个技术的改进可以很明显地区分是硬件上的改进(例如, 对二极管、 晶体管、 开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。 然 而, 随着技术的发展, 当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。 设计人员几乎都通过。

45、将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。 因 此, 不能说一个方法流程的改进就不能用硬件实体模块来实现。 例如, 可编程逻辑器件 (Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array, FPGA)就是这样一种集成电路, 其逻辑功能由用户对器件编程来确定。 由设计人员 自行编程来把一个数字系统 “集成” 在一片PLD上, 而不需要请芯片制造厂商来设计和制作 专用的集成电路芯片。 而且, 如今, 取代手工地制作集成电路芯片, 这种编程也多半改用 “逻 辑编译器(logic compiler。

46、)” 软件来实现, 它与程序开发撰写时所用的软件编译器相类似, 而要编译之前的原始代码也得用特定的编程语言来撰写, 此称之为硬件描述语言 (Hardware Description Language, HDL), 而HDL也并非仅有一种, 而是有许多种, 如ABEL (Advanced Boolean Expression Language)、 AHDL(Altera Hardware Description Language)、 Confluence、 CUPL(Cornell University Programming Language)、 HDCal、 JHDL (Java Hardw。

47、are Description Language)、 Lava、 Lola、 MyHDL、 PALASM、 RHDL(Ruby Hardware Description Language)等, 目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。 本领域技术人员也应 该清楚, 只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中, 就可以很容易得到实现该逻辑方法流程的硬件电路。 0117 控制器可以按任何适当的方式实现, 例如, 控制器可以采取例如微处理器。

48、或处理 说明书 8/10 页 11 CN 112116906 A 11 器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可 读介质、 逻辑门、 开关、 专用集成电路(Application Specific Integrated Circuit, ASIC)、 可编程逻辑控制器和嵌入微控制器的形式, 控制器的例子包括但不限于以下微控制 器: ARC 625D、 Atmel AT91SAM、 Microchip PIC18F26K20以及Silicone Labs C8051F320, 存 储器控制器还可以被实现为存储器的控制逻辑的一部分。 本领域技术人员也知道, 。

49、除了以 纯计算机可读程序代码方式实现控制器以外, 完全可以通过将方法步骤进行逻辑编程来使 得控制器以逻辑门、 开关、 专用集成电路、 可编程逻辑控制器和嵌入微控制器等的形式来实 现相同功能。 因此这种控制器可以被认为是一种硬件部件, 而对其内包括的用于实现各种 功能的装置也可以视为硬件部件内的结构。 或者甚至, 可以将用于实现各种功能的装置视 为既可以是实现方法的软件模块又可以是硬件部件内的结构。 0118 上述实施例阐明的系统、 装置、 模块或单元, 具体可以由计算机芯片或实体实现, 或者由具有某种功能的产品来实现。 一种典型的实现设备为计算机。 具体的, 计算机例如可 以为个人计算机、 膝。

50、上型计算机、 蜂窝电话、 相机电话、 智能电话、 个人数字助理、 媒体播放 器、 导航设备、 电子邮件设备、 游戏控制台、 平板计算机、 可穿戴设备或者这些设备中的任何 设备的组合。 0119 为了描述的方便, 描述以上装置时以功能分为各种单元分别描述。 当然, 在实施本 申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。 0120 本领域内的技术人员应明白, 本发明的实施例可提供为方法、 系统、 或计算机程序 产品。 因此, 本发明可采用完全硬件实施例、 完全软件实施例、 或结合软件和硬件方面的实 施例的形式。 而且, 本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 。

展开阅读全文
内容关键字: 基于 GAN 网络 现场 方法 装置 设备 介质
关于本文
本文标题:基于GAN网络的现场混音方法、装置、设备及介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10147731.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1 
 


收起
展开