方法、计算机程序、编码器和监视设备.pdf

上传人:li****8 文档编号:10124992 上传时间:2021-06-04 格式:PDF 页数:20 大小:733.94KB
收藏 版权申诉 举报 下载
方法、计算机程序、编码器和监视设备.pdf_第1页
第1页 / 共20页
方法、计算机程序、编码器和监视设备.pdf_第2页
第2页 / 共20页
方法、计算机程序、编码器和监视设备.pdf_第3页
第3页 / 共20页
文档描述:

《方法、计算机程序、编码器和监视设备.pdf》由会员分享,可在线阅读,更多相关《方法、计算机程序、编码器和监视设备.pdf(20页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010506983.1 (22)申请日 2020.06.05 (30)优先权数据 19179214.2 2019.06.10 EP (71)申请人 安讯士有限公司 地址 瑞典浪德 (72)发明人 M耶拉奇M特德沃 M杰勒德范星 里卡多王德洛夫 (74)专利代理机构 北京德琦知识产权代理有限 公司 11018 代理人 康泉宋志强 (51)Int.Cl. G10L 19/00(2013.01) G10L 19/16(2013.01) (54)发明名称 一种方法、 计算机程序、 。

2、编码器和监视设备 (57)摘要 本发明公开了一种方法、 计算机程序、 编码 器和监视设备, 在用于利用可变比特率来编码音 频信号的方法中: 接收包括多个连续的音频帧的 音频信号; 并且对于音频信号的每个连续的音频 帧: 相对于多个频率子带在频域中表示音频帧; 使用特定于频率子带的背景模型将每个频率子 带的音频帧分类为背景或前景; 编码音频信号的 每个连续的音频帧, 其中为音频帧的每个频率子 带分配比特数, 其中如果音频帧在频率子带中被 分类为前景, 则为频率子带分配的比特数高于如 果音频帧在频率子带中被分类为背景时为频率 子带分配的比特数。 权利要求书2页 说明书11页 附图6页 CN 112。

3、151043 A 2020.12.29 CN 112151043 A 1.一种用于利用可变比特率来编码音频信号(30)的方法(100), 所述方法(100)包括: 接收(S102)待编码的音频信号(30), 所述音频信号(30)包括多个连续的音频帧(32); 对于所述音频信号(30)的每个连续的音频帧(32): 相对于多个频率子带(34)在频域中表示(S104)所述音频帧(32); 使用特定于所述频率子带(34)的背景模型, 将每个频率子带(34)中的所述音频帧(32) 分类(S106)为背景或前景; 编码(S108)所述音频信号(30)的每个连续的音频帧(32), 其中为所述音频帧(32)的。

4、每 个频率子带(34)分配比特数, 其中如果所述音频帧(32)在频率子带(34)中被分类为前景, 则为所述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被 分类为背景时为所述频率子带(34)分配的比特数。 2.根据权利要求1所述的方法(100), 其中, 分配用于编码所述音频帧(32)的背景分类频率子带(34)的比特数取决于所述音频帧 (32)的背景分类频率子带(34)的频率范围; 和/或 分配用于编码所述音频帧(32)的前景分类频率子带(34)的比特数取决于所述音频帧 (32)的前景分类频率子带(34)的频率范围。 3.根据权利要求1所述的方法(100), 其。

5、中所述音频信号(30)被编码, 使得与如果在第 一音频帧之前的音频帧中的相同的第一频率子带被分类为背景相比, 如果在所述第一音频 帧之前的所述音频帧中的所述相同的第一频率子带被分类为前景, 则分配至所述第一音频 帧的背景分类第一频率子带的比特数更高。 4.根据权利要求1所述的方法(100), 其中分配用于编码(S108)所述音频帧(32)的频率 子带(34)的所述比特数进一步取决于心理声学模型。 5.根据权利要求2所述的方法(100), 其中根据心理声学模型, 分配用于编码(S108)所 述音频帧(32)的频率子带(34)的比特数取决于所述音频帧(32)的所述频率子带(34)的所 述频率范围。。

6、 6.根据权利要求1的所述方法(100), 其中分配用于编码(S108)所述音频帧的背景分类 频率子带(34)的比特数与所述音频帧(32)的所述背景分类频率子带(34)代表的频率范围 无关, 并且其中分配用于编码(S108)所述音频帧(32)的前景分类频率子带(34)的比特数与 所述音频帧(32)的所述前景分类频率子带(34)所属的频率范围无关。 7.根据权利要求1的所述方法(100), 所述方法(100)进一步包括: 对于所述音频信号(30)的音频帧(32): 对于所述音频帧(32)的频率子带(34): 基于所述音频帧(32)的所述频率子带(34)的频率内容, 更新(S110)与所述音频帧(。

7、32) 的所述频率子带(34)对应的特定于所述频率子带(34)的所述背景模型。 8.根据权利要求1所述的方法(100), 其中特定于频率子带(34)的所述背景模型包括高 斯混合模型GMM(50), 所述GMM(50)包括多个高斯分布(52), 每个高斯分布表示所述频率子 带(34)中的能量等级的概率分布。 9.根据权利要求8所述的方法(100), 其中如果所述音频帧(32)的频率子带(34)的能量 等级在特定于所述频率子带(34)的所述背景模型的GMM(50)的所述高斯分布(52)中的一个 的均值附近的预定数量的标准偏差(54)之内, 并且如果所述高斯分布(52)的权重高于阈 权利要求书 1/。

8、2 页 2 CN 112151043 A 2 值, 则所述音频帧(32)的所述频率子带(34)被分类为背景, 其中所述权重表示所述音频帧 (32)的所述频率子带(34)的能量等级在所述高斯分布(52)的均值附近的所述预定数量的 标准偏差(54)之内的概率。 10.根据权利要求8所述的方法(100), 其中所述能量等级是功率谱密度PSD测量值。 11.根据权利要求1所述的方法(100), 其中所述方法进一步包括: 将所述音频信号(30)的编码的音频帧(32)与元数据一起传输(S112), 其中所述元数据 表示所述音频帧(32)的所述频率子带(34)的所述分类(36)。 12.一种计算机程序产品,。

9、 包括存储计算机可读指令的非暂时性计算机可读介质, 所述 计算机可读指令在处理器(14)上执行时将使所述处理器(14)执行根据权利要求1所述的方 法(100)。 13.一种用于利用可变比特率来编码音频信号(30)的编码器(10), 所述编码器(10)包 括接收器(12)和一个或多个处理器(14), 其中所述接收器(12)被配置成接收待编码的音频信号(30), 所述音频信号(30)包括多 个连续的音频帧(32), 并且 其中所述一个或多个处理器(14)被配置成: 对于所述音频信号(30)的每个连续的音频帧(32): 相对于多个频率子带(34)在频域中表示所述音频帧(32); 使用特定于所述频率子。

10、带(34)的背景模型将每个频率子带(34)中的所述音频帧(32) 分类为背景或前景; 编码所述音频信号(30)的每个连续的音频帧(32), 其中为所述音频帧(32)的每个频率 子带(34)分配比特数, 其中如果所述音频帧(32)在频率子带(34)中被分类为前景, 则为所 述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被分类为 背景时为所述频率子带(34)分配的比特数。 14.一种监视设备(1), 包括: 麦克风(2), 被配置成记录音频信号(30); 根据权利要求13所述的编码器(10), 被配置成从所述麦克风(2)接收所述音频信号 (30)并利用可变比特率来。

11、编码所述音频信号(30)。 权利要求书 2/2 页 3 CN 112151043 A 3 一种方法、 计算机程序、 编码器和监视设备 技术领域 0001 本发明总体上涉及音频信号编码, 并且更具体地涉及可变比特率音频信号编码。 背景技术 0002 音频编解码器可以对音频数据进行数字编码, 并对得到的比特流进行压缩, 使得 可以有效地存储或传输音频数据。 在存储或传输之后, 相同的音频编解码器可以用于进行 解码, 使得可以重建音频。 一些音频编解码器使用恒定比特率(CBR)(例如256Kbps)来压缩 音频数据。 其他音频编解码器支持使用可变比特率(VBR)来压缩音频数据。 使用VBR编码, 编。

12、 码后的音频数据的比特率可以动态地变化。 例如, 比特率可以根据音频数据包含多少离散 频率而变化, 其中很少有离散频率比复杂信号需要更少的比特。 因此, 比特率可能随时间例 如在65Kbps和320Kbps之间变化。 VBR编码的一个优点是它通常比CBR编码生成更少的数据。 因此, 可以减少对存储的音频数据的存储空间要求。 以类似的方式, 可以减少对传输的音频 数据的带宽要求。 0003 然而, 在音频编码领域还存在改进的空间, 以进一步减小输出数据的大小。 发明内容 0004 本发明的目的是提供音频数据的改进的编码。 本发明的另一目的是减少对传输的 音频数据的带宽要求和/或减少对存储的音频数。

13、据的存储空间要求。 0005 本发明的这些和其他目的至少由独立权利要求中限定的本发明实现。 优选的实施 例在从属权利要求中提出。 0006 根据本发明的第一方面, 提供了一种用于利用可变比特率来编码音频信号的方 法, 该方法包括: 0007 接收待编码的音频信号, 该音频信号包括多个连续的音频帧; 0008 对于音频信号的每个连续的音频帧: 0009 表示相对于多个频率子带的在频域中的音频帧; 0010 使用特定于频率子带的背景模型将每个频率子带中的音频帧分类为背景或前景; 0011 编码音频信号的每个连续的音频帧, 其中为音频帧的每个频率子带分配比特数, 其中如果音频帧在频率子带中被分类为前。

14、景, 则为频率子带分配的比特数高于如果音频帧 在频率子带中被分类为背景时为频率子带分配的比特数。 0012 应当理解, 音频信号可以是任何类型的音频信号, 例如可以是由诸如监控照相机 或麦克风的监视设备记录的音频信号。 音频信号的每个连续的音频帧可以具有例如20毫 秒、 60毫秒或150毫秒的持续时间。 音频帧可以是未压缩的或压缩的。 0013 还应当理解, 音频帧可以例如通过执行傅立叶变换在频域中表示。 例如, 这可以使 用快速傅立叶变换(FFT)或改进离散余弦变换(MDCT)来完成。 在频域中, 音频帧的特定频率 子带可以例如将在该特定频率子带内的音频帧中出现的声音表示为多个频率分量。 频。

15、率分 量的幅度可以表示音频帧中该频率分量的响度。 多个频率子带可以包括例如2个、 3个、 5个、 说明书 1/11 页 4 CN 112151043 A 4 8个、 16个等频率子带。 频率子带的边界的间隔可以是或可以不是等距的。 频率子带可以是 对数间隔的, 其中每个子带的宽度是前一个子带的宽度的2倍。 在一个示例中, 存在对数间 隔的8个频率子带, 这里具有最低频率范围的频率子带可以覆盖20-40Hz。 在另一示例中, 最 低频率范围从0Hz开始。 0014 还应当理解, 背景模型可以配置成根据音频帧的频率子带所包含的声音的重要性 来分类音频帧的频率子带。 重要的声音在本文可以被分类为前景。

16、, 而不重要的声音被分类 为背景。 例如, 如果音频帧的频率子带包含重要的声音, 则音频帧的频率子带可以被分类为 前景。 在另一示例, 如果音频帧的频率子带主要包含不重要的声音, 则该音频帧的频率子带 被分类为背景。 声音的重要性可以基于该特定声音被包括在在前的音频帧的频率子带中的 频率来确定。 0015 还应当理解, 背景模型可以配置成根据音频帧的频率子带所包含声音的预期值来 分类音频帧的频率子带。 不预期的声音在本文可以被分类为前景, 而预期的声音被分类为 背景。 例如, 如果音频帧的频率子带包含预期的或常见的声音或完全没有声音, 则音频帧的 频率子带可以被分类为背景。 在另一示例中, 如。

17、果频率子带的内容不符合背景分类的要求, 则音频帧的频率子带被分类为前景。 0016 还应当理解, 由于背景模型是特定于频率子带的, 因此用于将音频帧的频率子带 分类为前景或背景的背景模型条件可以从一个频率子带变化到另一个频率子带。 例如, 监 视设备可以监视第一机器可能正在运行或第一机器和第二机器可能正在运行的车间。 在特 定频率子带中, 处于第一等级的响度可以表示第一机器正在运行, 并且处于第二等级的响 度可以表示第一机器和第二机器正在运行。 因此, 如果在该频率子带中的音频帧显示处于 低等级、 第一等级或第二等级的响度, 则音频帧的频率子带可以被分类为背景。 这可能构成 不重要的或预期的声。

18、音。 然而, 如果该频率子带中的音频帧显示响度在这些等级之间或之 上, 则该频率子带可以被分类为前景。 这可能构成重要的或不预期的声音, 例如叠加在第一 机器运行的声音上的语音, 或者机器在运行时遇到困难, 导致音频帧中的一个或多个子带 的不同的响度。 在不同的频率子带中, 可以不同地选择响度等级, 以反映在该频率子带中应 该构成前景和背景声音的内容。 关于响度等级之外的其他特征, 背景模型还可以特定于频 率子带。 例如, 如果音频帧的频率子带的频率分量的相对幅度对应于不重要的或预期的声 谱, 则这可能导致背景分类。 在另一示例, 在某个频率子带内一个或几个关键频率分量的出 现可以触发音频帧中。

19、该频率子带的前景分类。 例如, 警报器经常使用由三个相邻的完整音 调组成的三全音。 因此, 三个对应的频率分量的出现可以被视为频谱指纹, 该频谱指纹指示 警报器已经关闭并且触发了前景分类。 0017 本发明的实现是通过为音频帧的每个频率子带分配比特数来促进音频信号的有 效编码, 使得没有发生重要的或不预期的情况的频率子带可以被给予/分配少量的比特, 并 且从而被压缩到高等级。 当可以为不同的频率子带单独设置比特数时, 分配至整个音频帧 的比特总数可以是小的。 相反, 如果在不区分不同频率子带的情况下按帧确定总比特数, 则 可能需要更大的总比特数。 0018 本发明的另一实现是由于可以针对每个频。

20、率子带定制比特分配条件, 因此使用针 对各自的频率子带中的每一个的特定背景模型来确定它们各自的分类进一步促进了音频 信号的有效编码。 说明书 2/11 页 5 CN 112151043 A 5 0019 因此, 该方法的优点是它促进了减少对传输的音频数据的带宽要求和/或促进了 减少对存储的音频数据的存储空间要求。 0020 另一优点是解码的音频信号的感知质量高。 该方法可以提供基于内容的压缩, 其 中可能具有不重要或预期的特性的背景声音比可能具有重要的或不预期的特性的前景声 音被压缩得更严重。 因此, 该方法可以将给定的带宽或存储空间资源集中在高质量最重要 的音频信号部分上, 从而一旦对音频信。

21、号进行解码就提供音频信号的高的感知质量。 0021 应当理解, 编码步骤可以将比特分配至音频信号的频率跨度, 其中该频率跨度与 分类步骤的频率子带相同或不同。 在第一示例中, 编码步骤中两个相邻的频率跨度对应于 分类步骤中的一个单个频率子带。 在这种情况下, 如果单个频率子带被分类为前景, 则相邻 的两个频率跨度可以被给予相同的比特数, 其中比特数对应于由单个频率子带的前景分类 所确定的比特数。 在第二示例, 编码步骤中的一个单个频率跨度对应于分类步骤中的两个 不同的频率子带。 在这种情况下, 频率子带中任何一个的前景分类或两个频率子带的前景 分类可以导致编码步骤的频率跨度被给予与前景分类所确。

22、定的比特数对应的比特数。 0022 还应当理解, 如果分类步骤的频率子带和编码步骤的频率跨度不同, 则可以分解 分类步骤的频率子带或编码步骤的频率跨度。 在第一示例中, 当频率子带被分类为前景时, 可以使用与编码步骤的频率跨度匹配的分解的频率子带来对该频率子带进行分解和重新 分析。 可以这样做以确定应该为哪个编码器频率跨度分配对应于前景分类的比特数。 在分 类步骤中不使用与在编码器中相同的频率子带的原因可能是不同的频率子带分配给出了 更好的分类结果。 在第二示例中, 如果编码器给出分解编码器步骤的频率跨度的可能性, 则 可能仅将比特分配至与分类步骤的前景子带相匹配的分解的频率跨度。 0023 。

23、还应当理解, 编码步骤可以将比特分配至音频帧, 其中编码步骤的音频帧持续时 间与分类步骤的音频帧持续时间相同或不同。 例如, 分类步骤可以具有60毫秒的音频帧持 续时间, 而编码步骤具有20毫秒的音频帧持续时间。 0024 分配用于对音频帧的背景分类频率子带进行编码的比特数可以取决于音频帧的 背景分类频率子带的频率范围。 替代地或附加地, 分配用于对音频帧的前景分类频率子带 进行编码的比特数可以取决于音频帧的前景分类频率子带的频率范围。 0025 例如, 覆盖20-40Hz频率范围的频率子带如果被分类为前景, 则可以被分配5比特/ 样本, 如果被分类为背景, 则可以被分配1比特/样本, 而80。

24、-160Hz的频率范围如果被分类为 前景, 则可以被分配7比特/样本, 如果被分类为背景, 则可以被分配2比特/样本。 0026 对分配的比特数使用频率依赖性的优点是, 它促进音频信号的有效编码。 例如, 可 以将更多的比特分配至比其他频率子带更重要的频率子带。 例如, 当频率子带被分类为前 景时, 在表示该频率子带或表示该频率子带的一部分的频率范围内预期出现重要的声音的 频率子带可以被分配大的比特数。 分配的比特数还可以取决于表示频率子带的频率范围的 大小。 例如, 与频率范围小的情况相比, 如果频率范围大, 则对应于前景和背景分类的比特 数都可能更高。 0027 固定的总比特数可以用于分配。

25、至音频帧的不同频率子带。 固定的总比特数从一帧 到连续帧可以是恒定的。 在一个示例中, 最小的比特数或零比特可以被分配至具有背景分 类的频率子带。 固定的总比特数的剩余部分可以分布在其余的前景分类频率子带中。 0028 可以对音频信号进行编码, 使得与如果在第一音频帧之前的音频帧中的相同的第 说明书 3/11 页 6 CN 112151043 A 6 一频率子带被分类为背景相比, 如果在第一音频帧之前的音频帧中的相同的第一频率子带 被分类为前景, 则分配至第一音频帧的背景分类第一频率子带的比特数更高。 0029 作为示例, 第零音频帧中的频率子带如果被分类为前景, 则可以被分配400比特, 如。

26、果被分类为背景, 则可以被分配50比特。 如果第零音频帧中的频率子带被分类为背景, 并 且随后的第一音频帧中的相同的频率子带也被分类为背景, 则第一音频帧中的相同的频率 子带也可以被分配50比特。 相反, 如果第零音频帧中的频率子带被分类为前景, 但随后的第 一音频帧中的相同的频率子带被分类为背景, 则第一音频帧中的相同的频率子带可以被分 配例如350比特。 0030 分配的比特数不仅取决于当前音频帧的频率子带的分类, 而且还取决于在前的音 频帧的频率子带的分类, 具有这种分配的比特数的优点可以是它促进了鲁棒的编码。 如果 考虑在前的音频帧的频率子带的分类, 则错误的背景分类的后果可能不太严重。

27、。 与当在前 的分类是背景时相比, 当在前的分类是前景时, 背景分类是错误的可能性更大。 因此, 当发 生从前景分类到背景分类的切换时, 分配的比特数可以逐渐地而不是瞬时地减少。 这可以 减少由于基于错误分类的高等级的压缩而导致的重要的音频分量的损失。 0031 另一个优点可以是编码的音频信号变得听起来令人愉快。 压缩等级的快速变化可 能在解码后对重建的信号的感知误差方面生成信号伪影。 0032 应当理解, 分配的比特数不仅取决于紧接在前的音频帧的分类。 它还可以取决于 其他在前的音频帧的分类。 例如, 背景到前景的转变可以触发分配的比特数从低值到高值 的立即变化, 而前景到背景的转变可以触发。

28、分配的比特数的逐渐减少。 在最后的前景分类 之后, 例如, 对于每个新的背景分类, 分配的比特的减少可以是相同的, 直到达到低值为止。 0033 分配用于对音频帧的频率子带进行编码的比特数可以进一步取决于心理声学模 型。 0034 应当理解, 心理声学模型可以是人类对声音感知的模型。 0035 心理声学模型可以例如根据响度标度反映感知的极限。 心理声学模型在本文例如 可以是等响度轮廓, 其表示例如声压作为频率的函数, 其中即使人耳的声压不同, 等响度轮 廓上的不同音调也会被人耳感知为具有相同的响度。 在本文中, 如果频率子带接近人耳最 敏感的频率, 则与如果远离该频率相比, 分配用于对音频帧的。

29、频率子带进行编码的比特数 可能更高。 在该实施例中, 如果频率子带接近等响度轮廓的最小值, 则与远离该最小值相 比, 分配用于对音频帧的频率子带进行编码的比特数可能更高。 应当理解, 也可以使用反映 人耳在声音响度标度方面的感知极限的其他标度。 0036 心理声学模型可以例如反映掩蔽效应, 其中人耳是否能检测到一定幅度的第一频 率分量取决于是否存在不同的第二频率分量。 当存在第二频率分量时, 第一频率分量可能 被掩蔽, 并且不能被人耳检测到。 根据该实施例, 与如果频率子带的内容没有被掩蔽相比, 如果该频率子带的内容被掩蔽了, 则分配用于对音频帧的频率子带进行编码的比特数可能 更低。 0037。

30、 根据心理声学模型来分配比特数的优点是可以提供高质量的压缩。 人耳难以感知 的音频信号部分可能会被压缩到比人耳敏感的部分更高的等级。 0038 根据心理声学模型, 分配用于对该音频帧的频率子带进行编码的比特数可以取决 于音频帧的频率子带的频率范围。 说明书 4/11 页 7 CN 112151043 A 7 0039 心理声学模型可以例如反映人耳的在频率标度方面的感知限制。 心理声学模型可 以是例如巴克标度, 该巴克标度可以是对人类听觉系统的分辨率进行建模的非线性频率标 度。 在本文, 巴克标度上的一个巴克距离可以等于所谓的临界带宽, 该临界带宽对于某些频 率与该频率成对数比例。 在本文, 分。

31、配用于对音频帧的频率子带进行编码的比特数可以与 以巴克距离测量的频率范围成比例。 应当理解, 反映人耳在频率标度方面的感知限制的其 他标度也可以被使用。 0040 根据心理声学模型, 基于音频帧的频率子带的频率范围来分配比特数的优点是可 以提供高质量的压缩。 与人耳具有低频分辨率的频率子带相比, 更多的比特可以被分配至 人耳具有高频分辨率的频率子带。 0041 分配用于对音频帧的背景分类频率子带进行编码的比特数可以独立于音频帧的 背景分类频率子带表示的频率范围, 并且分配用于对音频帧的前景分类频率子带进行编码 的比特数可以独立于音频帧的前景分类频率子带所属的频率范围。 0042 该实施例的优点。

32、是可以促进快速编码。 例如, 将相同的低比特数分配至音频帧的 所有背景分类频率子带可能比确定应该为每个背景分类频率子带分别分配多少比特更快。 此外, 例如, 将相同的高比特数分配至音频帧的所有前景分类频率子带可能比确定应该为 每个前景分类频率子带分别分配多少比特更快。 0043 方法还可以包括: 0044 对于音频信号的音频帧: 0045 对于音频帧的频率子带; 0046 基于音频帧的频率子带的频率内容, 更新特定于与音频帧的频率子带对应的频率 子带的背景模型。 0047 在本文中, 频率内容可以是频率子带中表示的声音的特性。 频率内容可以是例如 整个频率子带的功率谱密度(PSD)、 频率子带。

33、中的功率谱密度测量、 频率子带中的频率分量 的幅度、 频率子带中的多个频率分量的幅度、 频率子带中的频率分量的分布, 或频率子带的 能量等级(帧x的带b的子带能量)。 0048 更新背景模型的优点是可以促进进一步减少用于传输编码的音频信号的带宽要 求和/或减少用于存储编码的音频信号的存储空间要求, 并且/或者改进音频信号在解码后 的感知质量。 0049 更新背景模型可能会导致自适应背景模型随时间变化。 因此, 背景模型可以在音 频信号的记录期间适应环境的变化。 例如, 当引入新的声音时, 该声音可以被分类为前景, 使得许多比特被分配用于新声音的编码。 然而, 如果声音继续出现在后续的音频帧中,。

34、 则声 音可能会变得无趣。 然后可以更新模型, 使得在以后的音频帧中将声音识别为背景。 由于声 音可能被压缩到更高等级, 因此可以节省资源。 0050 更新背景模型还可以在背景模型的部署期间节省资源。 如果使用静态模型, 则可 能需要先对其进行训练, 然后才能准确地分类不同的声音。 就时间或金钱而言, 收集和选择 训练数据可能是昂贵的。 基于背景模型分类的频率子带的内容而进行更新的背景模型可以 进行自我训练。 例如, 可以将其部署为通用模型, 然后适应其所处的环境, 从而节省时间和 金钱。 0051 特定于频率子带的背景模型可以包括高斯混合模型GMM, 该GMM包括多个高斯分 说明书 5/11。

35、 页 8 CN 112151043 A 8 布, 高斯分布中的每一个表示频率子带中的能量等级的概率分布。 0052 在本文中, 能量等级或子带能量可以该频率子带中表示的声音响度的特性。 能量 等级可以是例如整个频率子带的PSD、 频率子带中的PSD测量值、 频率子带中的声音的小波 能量、 频率子带中的频率分量的幅度、 频率子带中的多个频率分量的幅度总和, 或频率子带 中的全部频率分量的幅度总和。 高斯分布在本文中可以例如由均值和标准偏差或均值和方 差表示。 高斯分布可以是或可以不是标准化的, 其中标准化的高斯分布具有等于1的积分。 在本文中, 由高斯分布表示的概率分布可以提供频率子带中的能量等。

36、级测量值的不同的可 能结果的概率。 多个高斯分布可以例如由3至6个高斯分布或2至10个高斯分布组成。 0053 在说明性的示例中, 每个高斯分布是特定声音的整个频率子带的PSD的概率分布。 第一高斯分布可以例如表示第一背景声音(例如第一机器运行的声音)。 如果音频帧的整个 频率子带的PSD具有与第一高斯分布的均值相同的值, 则这可以被认为是指示音频帧的频 率子带的内容是第一机器的声音的高概率。 如果音频帧的整个频率子带的PSD具有略高于 或略低于第一高斯分布均值的值, 则这可以指示频率子带的内容是第一声音的概率略低。 因此, 概率分布可以是将频率子带的测量的能量等级转换为频率子带具有特定内容(。

37、例如 包含第一机器的声音)的概率的函数。 内容是背景声音的高概率反过来可以指示可以保证 频率子带的背景分类。 然而, 应当理解, 也可能存在确定分类的其他指示。 0054 使用这样的背景模型可以是识别频率子带的内容的有效方式。 分类所需要的处理 能力因此可能是低的。 0055 这样的背景模型也是识别频率子带内容的准确的方式。 概率分布可以是例如连续 函数, 与例如仅将测量的能量等级和阈值比较相比, 该连续函数可能是确定内容的更准确 的方式。 通过使用多个高斯分布, 可以包括表示频率子带的不同内容的多个背景模型。 因 此, 高斯分布的混合可以表示复杂的概率分布, 其可以描述例如频率子带的内容是几。

38、种不 同声音中的一个的概率。 0056 这样的背景模型也可能是实现自适应模型的有效方式。 音频帧的频率子带可以被 看作是建立了该频率子带中不同的声音有多常见的统计的样本。 例如, 如果测量的PSD值略 低于特定于频率子带的高斯分布的均值, 则对于随后的音频帧, 可以稍微减小该高斯分布 的均值。 0057 如果音频帧的频率子带的能量等级在特定于该频率子带的背景模型的GMM的高斯 分布中的一个的均值附近的预定数量的标准偏差之内, 并且如果所述高斯分布的权重高于 阈值, 则音频帧的频率子带可以被分类为背景, 其中权重表示音频帧的频率子带的能量等 级将在所述高斯分布的均值附近的预定数量的标准偏差之内的。

39、概率。 0058 预定数量的标准偏差可以是任何合适的数量, 例如2、 2.5或3个标准偏差。 0059 该实施例的优点是可以促进频率子带的分类中的高准确度。 尽管声音例如随着时 间变化, 但在本文中各种声音可以被准确地分类。 例如, 某些背景声音的响度可能会变化。 背景声音例如可以是在房间背景中工作的人的杂音。 然后, 背景声音的响度可能会根据人 数而变化。 当响度在一定范围内时, 在本文中可能希望将杂音分类为背景。 响度等级的预期 范围然后可以由高斯分布在均值和标准偏差方面来定义。 如果音频帧的频率子带的能量等 级在均值附近的预定数量的标准偏差之内, 则这可能表示该频率子带的内容可能是背景声。

40、 音。 然而, 这可能不足以触发背景分类。 由高斯分布表示的背景模型例如可以是不确定的。 说明书 6/11 页 9 CN 112151043 A 9 因此, 高斯分布的权重可以解释不确定性。 然后, 可以通过预定数量的标准偏差来调整背景 模型在指示频率子带的内容可能是某个背景声音方面的限制程度。 然后, 可以由权重来调 整频率子带的内容可能是某个背景声音的指示是否应该导致背景分类。 当更新背景模型 时, 测量的PSD值在第一高斯分布的均值附近的预定数量的标准偏差内可以使第一高斯分 布的权重例如增加预定值。 替代地或附加地, GMM的剩余高斯分布的权重可以减小预定值。 0060 能量等级可以是功。

41、率谱密度(PSD)测量。 0061 PSD在本文中可以表示功率如何在音频信号的频率分量之间分布功率。 可以使用 例如尤尔沃克(Yule-Walker)自回归方法或巴特利特(Bartlett)方法来测量PSD。 例如对于 频率子带内的一个频率分量或多个频率分量, PSD可以例如是整个频率子带的PSD测量, 或 频率子带内的PSD测量。 0062 使用这种能量等级的定义的优点是促进频率子带的分类中的高准确度。 PSD值可 以是响度的准确的表示。 此外, 从傅里叶变换计算PSD值是易于计算的。 分类所需的计算能 力因此可以是低的。 0063 方法可以进一步包括: 0064 与元数据一起传输音频信号的。

42、编码的音频帧, 其中该元数据表示音频帧的频率子 带的分类。 0065 与编码的音频帧一起传输元数据的优点是可以促进有效解码。 例如, 可以使用不 同的方法来解码前景频率子带和背景频率子带。 如果使用元数据标记了频率子带的分类, 则可以容易地确定应该将哪种方法应用于哪个频率子带。 这可以节省处理资源。 0066 音频信号的编码可以由Opus音频编解码器执行。 0067 Opus音频编解码器可以在内部确定对由编码器编码的不同频率子带的比特的分 配。 例如, 在Opus中, 可以为此目的使用名为最大分配向量的机制。 然后, 本发明可以修改比 特的分配, 以减少被视为背景的频带的比特数, 而牺牲被视为。

43、前景的频带中的比特数。 应当 理解, 也可以使用除Opus之外的其他编解码器。 0068 根据本发明概念的第二方面, 提供了一种计算机程序产品, 其包括存储计算机可 读指令的计算机可读介质, 当由处理单元执行时, 该计算机可读指令将使处理单元执行根 据前述权利要求中任一项所述的方法。 0069 该第二方面的效果和特征总体上类似于以上结合第一方面描述的效果和特征。 关 于第一方面提到的实施例总体上与第二方面兼容。 0070 这样的计算机程序产品因此可以提供安装和执行程序的可能性, 以便获得上述方 法的优点。 0071 根据本发明概念的第三方面, 提供了一种用于利用可变比特率来编码音频信号的 编码。

44、器, 该编码器包括接收器和一个或多个处理器, 0072 其中接收器被配置成接收待编码的音频信号, 该音频信号包括多个连续的音频 帧, 和: 0073 其中一个或多个处理器被配置成: 0074 对于音频信号的每个连续的音频帧: 0075 相对于多个频率子带在频域中表示音频帧; 0076 使用特定于频率子带的背景模型将每个频率子带中的音频帧分类为背景或前景; 说明书 7/11 页 10 CN 112151043 A 10 0077 编码音频信号的每个连续的音频帧, 其中为音频帧的每个频率子带分配比特数, 其中如果音频帧在频率子带中被分类为前景, 则为频率子带分配的比特数高于如果音频帧 在频率子带中。

45、被分类为背景时为频率子带分配的比特数。 0078 该第三方面的效果和特征总体上类似于以上结合第一方面描述的效果和特征。 关 于第一方面提到的实施例总体上与第三方面兼容。 0079 应当理解, 编码器可以物理地连接至记录音频信号的设备。 然而, 还应当理解, 编 码器可以无线地连接至记录音频信号的设备, 编码器可以例如位于服务器中, 其中服务器 与记录音频信号的设备通信。 0080 根据本发明概念的第四方面, 提供了一种监视设备, 包括: 0081 麦克风, 被配置成记录音频信号; 0082 根据第三方面的编码器, 被配置成从麦克风接收音频信号, 并利用可变比特率来 编码音频信号。 0083 该。

46、第四方面的效果和特征总体上类似于其以上结合第一方面描述的效果和特征。 关于第一方面提到的实施例总体上与第四方面兼容。 0084 组合麦克风和编码器的优点是监视设备可以在很大程度上自主操作。 例如, 监视 设备可以在没有其他设备或服务器支持的情况下将编码的音频信号传输到网络上。 附图说明 0085 通过以下参考附图的说明性和非限制性的详细描述, 将更好地理解本发明构思的 以上以及其他目的、 特征和优点。 在附图中, 除非另有说明, 否则相同的附图标记表示相同 的元件。 0086 图1是监视设备中的编码器的图示。 0087 图2是无线连接至麦克风的编码器的图示。 0088 图3是用于利用可变比特率。

47、来编码音频信号的方法的流程图。 0089 图4是在频域中表示并分类的音频信号。 0090 图5是高斯混合模型。 0091 图6是逐渐的比特率下降压缩的示意性图示。 具体实施方式 0092 结合附图, 下文根据优选的实施例来描述本发明的技术内容和详细描述, 而非用 于限制所要求保护的范围。 本发明可以以多种不同的形式来实施, 并且不应被解释为仅限 于本文所阐述的实施例; 相反, 提供这些实施例是为了透彻和完整, 并将本发明的范围完全 传达给本领域技术人员。 0093 图1和图2是包括接收器12和处理器14的编码器10的示意性图示。 在图1中, 编码器 10位于监视设备1中, 该监视设备1进一步包。

48、括麦克风2, 该麦克风2被配置成记录被传递至 接收器12的音频信号30。 监视设备1可以能够或者可能无法附加地记录视频信号。 在图2中, 编码器10支持多个麦克风2。 因此, 编码器10可以是独立监视设备的一部分或中央支持单元 (例如网络视频记录器或网络音频记录器)的一部分。 0094 编码器10例如从麦克风2接收音频信号30, 并且通过使用处理器14处理信号来编 说明书 8/11 页 11 CN 112151043 A 11 码音频信号30。 然后, 编码的音频信号例如可以通过例如局域网来传输。 编码的音频信号也 可以本地地存储在监视设备1或远程存储介质上。 0095 从麦克风2传递至编码器。

49、10的音频信号30可以是撞击到麦克风2的声波的模拟或 数字表示。 接收的音频信号30包括多个连续的音频帧32。 音频信号30的每个连续的音频帧 32可以表示一定持续时间(例如60毫秒)的音频信号的时间段。 音频帧32可以例如通过由比 特串表示的每个时间段来明确限定。 音频帧32还可以例如由限定每个音频帧32的开始的帧 时钟来隐式限定。 音频帧32可以是未压缩的。 然而, 音频帧32也可以是压缩的。 音频信号30 可以例如被预压缩, 并且编码器10然后可以添加进一步的压缩。 0096 图1图示出麦克风2和编码器10之间的有线连接, 音频信号30通过该有线连接被传 递至编码器10。 图2图示了编码。

50、器10和麦克风2之间的无线连接。 0097 图3示出了说明用于利用可变比特率来编码音频信号30的方法100的流程图。 方法 100例如可以由编码器10使用, 以利用可变比特率来编码音频信号30。 应当理解, 图3并未限 定方法100的步骤的特定顺序。 0098 根据方法100, 音频信号30被接收S102, 该音频信号30包括多个连续的音频帧32。 0099 然后, 相对于多个频率子带34在频域中表示S104每个连续的音频帧32(在下文结 合图4进一步参见)。 例如, 这可以使用快速傅立叶变换(FFT)或改进离散余弦变换(MDCT)来 完成。 一旦在频域中表示音频帧32, 则每个频率子带34可。

展开阅读全文
内容关键字: 方法 计算机 程序 编码器 监视 设备
关于本文
本文标题:方法、计算机程序、编码器和监视设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10124992.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1