语音识别方法、装置和电子设备.pdf

上传人:王** 文档编号:14252349 上传时间:2023-11-24 格式:PDF 页数:21 大小:3.19MB
收藏 版权申诉 举报 下载
语音识别方法、装置和电子设备.pdf_第1页
第1页 / 共21页
语音识别方法、装置和电子设备.pdf_第2页
第2页 / 共21页
语音识别方法、装置和电子设备.pdf_第3页
第3页 / 共21页
文档描述:

《语音识别方法、装置和电子设备.pdf》由会员分享,可在线阅读,更多相关《语音识别方法、装置和电子设备.pdf(21页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310233856.2(22)申请日 2023.03.10(71)申请人 海信视像科技股份有限公司地址 266555 山东省青岛市经济技术开发区前湾港路218号(72)发明人 刘煜海(74)专利代理机构 北京国之大铭知识产权代理有限公司 11565专利代理师 王雪(51)Int.Cl.G10L 15/22(2006.01)G10L 15/32(2013.01)(54)发明名称一种语音识别方法、装置和电子设备(57)摘要本公开提供一种语音识别方法、装置和电子设备,涉及语音识别技术领域,解决了现。

2、有技术中如何提高电视机的语音识别的准确率的问题。该方法包括:接收语音信息;对语音信息进行预处理,得到待识别音频数据,以及待识别音频数据的音频长度;其中,预处理包括回声消除、波束形成、降噪、增益补偿和静音抑制中的一项或者多项;向包含至少两个语音识别引擎的服务器发送待识别音频数据;接收服务器发送的每个语音识别引擎的理论识别结果;基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别结果。权利要求书2页 说明书10页 附图8页CN 116504240 A2023.07.28CN 116504240 A1.一种语音识别方法,其特征在于,包括:接收待识别音频数据,以及所述待识别音频数据的。

3、音频长度;向包含至少两个语音识别引擎的服务器发送所述待识别音频数据;接收所述服务器发送的每个所述语音识别引擎的理论识别结果;基于目标语速区间、所述音频长度以及所述语音识别结果,确定所述语音信息对应的实际识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述向包含至少两个语音识别引擎的服务器发送所述待识别音频数据,包括:按照至少两个语音识别引擎中每个所述语音识别引擎的封装格式对所述待识别音频数据进行封装,生成每个所述语音识别引擎对应的封装数据;向包含至少两个语音识别引擎的服务器发送所述封装数据。3.根据权利要求1所述的语音识别方法,其特征在于,所述基于目标语速区间、所述音频长度以及所述。

4、语音识别结果,确定所述语音信息对应的实际识别结果,包括:按照所述语音识别结果对应的生成时间的先后顺序,依次对每个所述语音识别结果执行如下操作:获取所述语音识别结果中包含的总字数;在所述总字数大于目标阈值的情况下,基于目标语速区间和所述音频长度,得到所述语音信息对应的实际字数范围;基于所述实际字数范围和所述语音识别结果中包含的总字数,确定所述语音信息对应的实际识别结果。4.根据权利要求3所述的语音识别方法,其特征在于,所述方法还包括:在所述总字数小于或等于所述目标阈值,且以所述总字数对应的语音识别结果的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况下,确定识别所述语音信息失败。5.根。

5、据权利要求3所述的语音识别方法,其特征在于,所述方法还包括:在所述总字数小于或等于所述目标阈值,且以所述总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取所述其它的语音识别结果中包含的总字数。6.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述实际字数范围和所述语音识别结果中包含的总字数,确定所述语音信息对应的实际识别结果,包括:在所述总字数大于所述目标阈值,且所述语音识别结果中包含的总字数归属于所述实际字数范围内的情况下,确定所述语音信息对应的实际识别结果为所述总字数对应的语音识别结果。7.根据权利要求3所述的语音识别方法,其特征在于,所述基。

6、于所述实际字数范围和所述语音识别结果中包含的总字数,确定所述语音信息对应的实际识别结果,包括:在所述总字数大于所述目标阈值,且所述语音识别结果中包含的总字数不归属于所述实际字数范围内,且以所述总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取所述其它的语音识别结果中包含的总字数。8.根据权利要求1所述的语音识别方法,其特征在于,所述获取待识别音频数据,以及所述待识别音频数据的音频长度,包括:接收语音信息;权利要求书1/2 页2CN 116504240 A2对所述语音信息进行预处理,得到待识别音频数据,以及所述待识别音频数据的音频长度;其中,所述预处理包括。

7、回声消除、波束形成、降噪、增益补偿和静音抑制中的一项或者多项。9.一种语音识别装置,其特征在于,包括:接收单元,用于待识别音频数据,以及所述待识别音频数据的音频长度;所述处理单元,还用于控制发送单元向包含至少两个语音识别引擎的服务器发送所述接收单元接收的所述待识别音频数据;所述接收单元,还用于接收所述服务器发送的每个所述语音识别引擎的理论识别结果;所述处理单元,还用于基于目标语速区间、所述音频长度以及所述接收单元接收的所述语音识别结果,确定所述语音信息对应的实际识别结果。10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所。

8、述电子设备实现权利要求18任一项所述的语音识别装置。权利要求书2/2 页3CN 116504240 A3一种语音识别方法、装置和电子设备技术领域0001本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置和电子设备。背景技术0002随着语音识别技术的发展,智能语音交互技术逐渐成为终端设备(如手机、平板电脑或智能家电等智能家居产品)的标准配置。在智能语音交互场景下,用户可以通过语音控制智能家电,以智能家电为电视机为例,用户可以通过语音控制电视机,实现看视频、听音乐或查天气等一系列电视控制操作。然而,由于每个用户的语言习惯的不同,电视机经常会出现无法准确识别用户输入的语音信息,导致无法及时响。

9、应用户的语音信息,导致用户的体验较差。0003因此,如何提高电视机的语音识别的准确率成了一个亟待解决的问题。发明内容0004为了解决上述技术问题,本公开提供了一种语音识别方法、装置和电子设备。0005本公开的技术方案如下:0006第一方面,本公开提供一种语音识别方法,包括:接收待识别音频数据,以及待识别音频数据的音频长度;向包含至少两个语音识别引擎的服务器发送待识别音频数据;接收服务器发送的每个语音识别引擎的理论识别结果;基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别结果。0007第二方面,本公开提供一种语音识别装置,包括:接收单元,用于待识别音频数据,以及待识别音频数。

10、据的音频长度;处理单元,还用于控制发送单元向包含至少两个语音识别引擎的服务器发送接收单元接收的待识别音频数据;接收单元,还用于接收服务器发送的每个语音识别引擎的理论识别结果;处理单元,还用于基于目标语速区间、音频长度以及接收单元接收的语音识别结果,确定语音信息对应的实际识别结果。0008第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如第一方面提供的任一项的语音识别方法。0009第四方面,本发明提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行如第一方面提供的任一项的语音识。

11、别方法。0010第五方面,本发明提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面提供的任一项的语音识别方法。0011需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与语音识别装置的处理器封装在一起的,也可以与语音识别装置的处理器单独封装,本公开对此不作限定。0012本公开中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的描述的有益效果,可以参说明书1/10 页4CN 116504240 A4考第一方面的有益效果分析,此处不再赘。

12、述。0013在本公开中,上述语音识别装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。0014本公开的这些方面或其他方面在以下的描述中会更加简明易懂。0015本公开提供的技术方案与现有技术相比具有如下优点:0016在接收到待识别音频数据,以及待识别音频数据的音频长度。之后,通过将待识别音频数据发送至包含至少两个语音识别引擎的服务器进行识别,从而接收到服务器发送的每个语音识别引擎的理论识别结果。之后,基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别。

13、结果。0017此外,将本公开提供的图像识别方法应用于电视机时,电视机可以通过多个语音识别引擎对待识别音频数据进行识别,从而避免由于单个语音识别引擎无法识别待识别音频数据,导致无法及时响应用户的语音信息的问题。由于出现无法时响应用户的语音信息的问题的次数降低了,因此可以提升语音识别的准确率,解决了如何提高电视机的语音识别的准确率的问题。附图说明0018此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。0019为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本。

14、领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。0020图1为本申请实施例提供的语音识别方法的场景示意图;0021图2为本申请实施例提供的语音识别方法中显示设备的结构示意图之一;0022图3为本申请实施例提供的语音识别方法中显示设备的结构示意图之二;0023图4为本申请实施例提供的语音识别方法的流程示意图之一;0024图5为本申请实施例提供的语音识别方法的流程示意图之二;0025图6为本申请实施例提供的语音识别方法的流程示意图之三;0026图7为本申请实施例提供的语音识别方法的流程示意图之四;0027图8为本申请实施例提供的语音识别方法的流程示意图之五;0。

15、028图9为本申请实施例提供的语音识别方法的流程示意图之六;0029图10为本申请实施例提供的显示设备的结构示意图;0030图11为本申请实施例提供的一种芯片系统的示意图。具体实施方式0031为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。0032在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采说明书2/10 页5CN 116504240 A5用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。0033需要说明。

16、的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。0034图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场。

17、景的示意图,如图1所示,用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。0035在一些实施例中,本申请实施例提供电子设备可以为上述显示设备200。其中,用户在使用显示设备200的过程中,需要使用语音控制显示设备200执行相应的操作时,用户可以通过与该显示设备200建立通信连接的。

18、手机或者控制装置100输入对应的语音信息,如:用户通过该手机的麦克风传感器拾取用户输入的语音信息,或者用户通过该控制装置100的麦克风传感器拾取用户输入的语音信息。之后,显示设备200在接收到该手机或者该控制装置100发送的语音信息后,对该语音信息进行预处理处理,得到待识别音频数据,以及待识别音频数据的音频长度。之后,显示设备200将待识别音频数据上传至服务器400进行处理。服务器400在接收到显示设备200发送的待识别音频数据后,将待识别音频数据输入至至少两个语音识别引擎中进行识别,得到每个语音识别引擎的理论识别结果。之后,服务器400将理论识别结果发送至显示设备200。显示设备200在接收。

19、到服务器400发送的理论识别结果后,基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别结果。之后,显示设备200可以按照目标方式提示该实际识别结果。其中,目标方式包括文字、语音等。0036在一些实施例中,本申请实施例提供电子设备可以为上述服务器400。其中,用户在使用显示设备200的过程中,需要使用语音控制显示设备200执行相应的操作时,用户可以通过与该显示设备200建立通信连接的手机或者控制装置100输入对应的语音信息,如:用户通过该手机的麦克风传感器拾取用户输入的语音信息,或者用户通过该控制装置100的麦克风传感器拾取用户输入的语音信息。之后,显示设备200在接收到该手。

20、机或者该控制装置100发送的语音信息后,将该语音信息发送至服务器400进行处理。服务器400在接收到显示设备200发送的语音信息后,对该语音进行预处理处理,得到待识别音频数据,以及待识别音频数据的音频长度。之后,服务器400将待识别音频数据输入至至少两个语音识别引擎中进行识别,得到每个语音识别引擎的理论识别结果。服务器400基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别结果。服务器400将该实际识别结果发送至显示设备200。显示设备200在接收到服务器400发送的实际识别结果后,以目标方说明书3/10 页6CN 116504240 A6式提示该实际识别结果。0037图2。

21、示出了根据示例性实施例中显示设备200的硬件配置框图。如图2所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为具有触控功能的显示器,如触控显示器。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐。

22、解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。0038在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。0039在一些示例中,以申请一个或多个实施例的显示设备200为电视机1,并且电视机1的操作系统为Android系统为例,如图3所示,电视机1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,应用程序框架(Application Framework)层(简称“框架层”)22,安卓运行时(Androi。

23、d runtime)和系统库层(简称“系统运行库层”)23,以及内核层24。0040其中,应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括第一应用,第一应用可以提供语音控制功能。框架层22为应用层21的应用程序提供应用编程接口(application programming interface,API)和编程框架。系统运行库层23为上层即框架层22提供支撑,当框架层22被使用时,安卓操作系统会运行系统运行库层23中包含的C/C+库以实现框架层22要实现的功能。内核层24作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。0041在一些示。

24、例中,电视机1开机后,第一应用启动。之后,用户在使用电视机1的过程中,需要使用语音控制电视机1执行相应的操作时,用户可以通过与该电视机1建立通信连接的手机或者控制装置100输入对应的语音信息,如:用户通过该手机的麦克风传感器拾取用户输入的语音信息,或者用户通过该控制装置100的麦克风传感器拾取用户输入的语音信息。之后,电视机1的处理单元202确定接收单元201在接收到该手机或者该控制装置100发送的语音信息后,对该接收单元201接收的语音信息进行预处理处理,得到待识别音频数据,以及待识别音频数据的音频长度。之后,显示设备200的处理单元202控制发送单元203将待识别音频数据上传至服务器400。

25、进行处理。服务器400的接收单元401的处理单元402确定接收单元401接收到显示设备200发送的待识别音频数据后,将待识别音频数据输入至至少两个语音识别引擎中进行识别,得到每个语音识别引擎的理论识别结果。之后,服务器400的处理单元102控制发送单元403将理论识别结果发送至显示设备200。显示设备200的处理单元202确定接收单元201接收到服务器400发送的理论识别结果后,基于目标语速区间、音频长度以及接收单元401接收的语音识别结果,确定语音信息对应的实际识别结果。0042具体的,电视机1的存储单元204中用于存储每个语音识别引擎的封装格式,以及电视机1的操作系统等数据。0043以下实。

26、施例中以执行本公开实施例提供的语音识别方法的执行主体为上述电视说明书4/10 页7CN 116504240 A7机1为例,对本申请实施例的方法进行说明。0044本申请实施例提供一种语音识别方法,如图4所示,该语音识别方法可以包括S11S14。0045S11、接收待识别音频数据,以及待识别音频数据的音频长度。0046S12、向包含至少两个语音识别引擎的服务器400发送待识别音频数据。0047在一些示例中,本公开实施例提供的语音识别方法,通过多个语音识别引擎的相互冗余,在某个语音识别引擎异常,如:识别结果返回超时、识别结果返回慢等场景下,其他的语音识别引擎还可以继续对待识别音频数据进行分析,从而能。

27、够快速、准确的响应用户语音信息,提升用户的体验。0048在一些示例中,不同的语音识别引擎对应的引擎配置参数不同,服务器400在接收到待识别音频数据后,以并行的方式将待识别音频数据输入至每个语音识别引擎,这样多个语音识别引擎就可以同时处理该待识别音频数据。在实际的应用中,不同的语音识别引擎在处理相同的待识别音频数据时的处理速度不同,因此电视机1会依次接收到服务器400发送的理论识别结果。0049之后,电视机1基于目标语速区间、音频长度以及当前接收的语音识别结果,确定语音信息对应的实际识别结果。如:电视机1通过获取当前的语音识别结果中包含的总字数。之后,电视机1基于总字数与目标阈值(如目标阈值等于。

28、0)的大小关系,确定语音信息对应的实际识别结果。如:0050在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况下,确定识别语音信息失败,即语音信息对应的实际识别结果为识别语音信息失败。0051或者,在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,重新获取其它的语音识别结果中包含的总字数,并基于重新获取的该总字数与目标阈值(如目标阈值等于0)的大小关系,确定语音信息对应的实际识别结果。0052或者,在总字数大于目标阈值的情况下,基于目标语速区间和音频长度,得到语。

29、音信息对应的实际字数范围。基于实际字数范围和语音识别结果中包含的总字数,确定语音信息对应的实际识别结果。如:在总字数大于目标阈值,且语音识别结果中包含的总字数归属于实际字数范围内的情况下,确定语音信息对应的实际识别结果为总字数对应的语音识别结果。0053或者,在总字数大于目标阈值,且语音识别结果中包含的总字数不归属于实际字数范围内,且以总字数对应的语音识别结果的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况下,确定识别语音信息失败,即语音信息对应的实际识别结果为识别语音信息失败。0054或者,总字数大于目标阈值,且语音识别结果中包含的总字数不归属于实际字数范围内,且以总字数对应的语。

30、音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取其它的语音识别结果中包含的总字数,并基于重新获取的该总字数与目标阈值(如目标阈值等于0)的大小关系,确定语音信息对应的实际识别结果。0055示例性的,以目标阈值等于0,预设时长为3s,音频长度为16s,目标语速区间为1,说明书5/10 页8CN 116504240 A84,当前的语音识别结果中包含的总字数为0为例对本公开实施例提供的语音识别方法进行描述,具体的实现过程如下:0056电视机1确定当前的语音识别结果(如称为语音识别结果1)中包含的总字数0等于目标阈值0,且以语音识别结果1的生成时间为起点的预设时长内未接收到。

31、其它的语音识别结果的情况下,确定识别语音信息失败,即语音信息对应的实际识别结果为识别语音信息失败。之后,电视机1以目标方式显示识别语音信息失败。同时,电视机1将之后接收的其它的语音识别结果(如语音识别结果2、语音识别结果3等)舍弃,重新等待新的语音信息。0057或者,电视机1确定当前的语音识别结果(如称为语音识别结果1)中包含的总字数0等于目标阈值0,且以语音识别结果1的生成时间为起点的预设时长内接收到其它的语音识别结果(如称为语音识别结果2)的情况下,获取语音识别结果2的总字数。如语音识别结果2的总字数为12时,此时电视机1确定语音识别结果2的总字数12大于目标阈值0,且语音识别结果2包含的。

32、总字数12归属于实际字数范围4,16内,确定语音信息对应的实际识别结果为该总字数12对应的语音识别结果,即确定语音信息对应的实际识别结果为语音识别结果2。之后,电视机1以目标方式显示语音识别结果2。同时,电视机1将之后接收的其它的语音识别结果(如语音识别结果3、语音识别结果4等)舍弃,重新等待新的语音信息。0058示例性的,以目标阈值等于0,预设时长为3s,音频长度为16s,目标语速区间为1,4,当前的语音识别结果中包含的总字数为12为例对本公开实施例提供的语音识别方法进行描述,具体的实现过程如下:0059电视机1确定当前的语音识别结果(如称为语音识别结果1)中包含的总字数12大于目标阈值0,。

33、且语音识别结果1包含的总字数12归属于实际字数范围4,16内,确定语音信息对应的实际识别结果为该总字数12对应的语音识别结果,即确定语音信息对应的实际识别结果为语音识别结果1。之后,电视机1以目标方式显示语音识别结果1。同时,电视机1将之后接收的其它的语音识别结果(如语音识别结果2、语音识别结果3等)舍弃,重新等待新的语音信息。0060示例性的,以目标阈值等于0,预设时长为3s,音频长度为16s,目标语速区间为1,4,当前的语音识别结果中包含的总字数为18为例对本公开实施例提供的语音识别方法进行描述,具体的实现过程如下:0061电视机1确定当前的语音识别结果(如称为语音识别结果1)中包含的总字。

34、数18大于目标阈值0,且语音识别结果1包含的总字数18不归属于实际字数范围4,16内,且以语音识别结果1的生成时间为起点的预设时长内接收到其它的语音识别结果(如称为语音识别结果2)的情况下,获取语音识别结果2的总字数。如语音识别结果2的总字数为12时,此时电视机1确定语音识别结果2的总字数12大于目标阈值0,且语音识别结果2包含的总字数12归属于实际字数范围4,16内,确定语音信息对应的实际识别结果为该总字数12对应的语音识别结果,即确定语音信息对应的实际识别结果为语音识别结果2。之后,电视机1以目标方式显示语音识别结果2。同时,电视机1将之后接收的其它的语音识别结果(如语音识别结果3、语音识。

35、别结果4等)舍弃,重新等待新的语音信息。0062或者,电视机1确定当前的语音识别结果(如称为语音识别结果1)中包含的总字数18大于目标阈值0,且语音识别结果1包含的总字数18不归属于实际字数范围4,16内,且以语音识别结果1的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况说明书6/10 页9CN 116504240 A9下,确定识别语音信息失败,即语音信息对应的实际识别结果为识别语音信息失败。之后,电视机1以目标方式显示识别语音信息失败。同时,电视机1将之后接收的其它的语音识别结果(如语音识别结果2、语音识别结果3等)舍弃,重新等待新的语音信息。0063在一些示例中,音频长度等于待。

36、识别音频数据的VAD开始时间与待识别音频数据的VAD结束时间的差值。0064在一些示例中,电视机1可以通过超文本传输协议(Hyper Text Transfer Protocol,HTTP)或他方者其法,与服务器400进行通信。0065S13、接收服务器400发送的每个语音识别引擎的理论识别结果。0066S14、基于目标语速区间、音频长度以及语音识别结果,确定语音信息对应的实际识别结果。0067在一些示例中,人正常说话语速约为每秒14的字,因此可以确定目标语速区间为1,4。0068由上述可知,电视机可以通过多个语音识别引擎对待识别音频数据进行识别,从而避免由于单个语音识别引擎无法识别待识别音频。

37、数据,导致无法及时响应用户的语音信息的问题。由于出现无法时响应用户的语音信息的问题的次数降低了,因此可以提升语音识别的准确率。0069在一些可实施的示例中,结合图4,如图5所示,上述S11具体可以通过下述S110和S111实现。0070S110、接收语音信息。0071在一些示例中,在对该语音信息进行处理时,需要先对语音信息进行预处理,从而可以去除语音信息中的无用信息(如噪声等),提高别出用户输入的语音信息对应的语义的准确率。0072S111、对语音信息进行预处理,得到待识别音频数据,以及待识别音频数据的音频长度。其中,预处理包括回声消除(Acoustic Echo Cancellation,A。

38、EC)、波束形成(Beam Forming,BF)、降噪(noise suppression,NS)、增益补偿(Automatic Gain Control,AGC)和静音抑制(Voice Activity Detection,VAD)中的一项或者多项。0073在一些可实施的示例中,结合图4,如图6所示,上述S12具体可以通过下述S120和S121实现。0074S120、按照至少两个语音识别引擎中每个语音识别引擎的封装格式对待识别音频数据进行封装,生成每个语音识别引擎对应的封装数据。0075S121、向包含至少两个语音识别引擎的服务器400发送封装数据。0076在一些示例中,不同的语音识别引擎。

39、所使用的封装格式不同,因此需要针对每个语音识别引擎对待识别音频数据进行封装,从而得到每个语音识别引擎对应的封装数据。之后,服务器400以并行的方式将封装数据,输入至该封装数据对应的语音识别引擎中进行识别,得到每个语音识别引擎对封装数据的语音识别结果。0077在一些可实施的示例中,结合图4,如图7所示,上述S14具体可以通过下述S140实现。0078S140、按照语音识别结果对应的生成时间的先后顺序,依次对每个语音识别结果执行如下操作:获取语音识别结果中包含的总字数;在总字数大于目标阈值的情况下,基于说明书7/10 页10CN 116504240 A10目标语速区间和音频长度,得到语音信息对应的。

40、实际字数范围;基于实际字数范围和语音识别结果中包含的总字数,确定语音信息对应的实际识别结果。0079在一些示例中,实际字数范围等于音频长度与目标语速区间的比值,如音频长度为16,目标语速区间为1,4,则用户在音频长度为16的待识别语音数据中最多可以说16个字,最少可以说4个字,即实际字数范围为4,16。0080在一些可实施的示例中,结合图7,如图8所示,上述S14具体可以通过下述S141实现。0081S141、在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况下,确定识别语音信息失败。0082在一些可实施的示例中,结合图7,如图。

41、8所示,上述S14具体可以通过下述S142实现。0083S142、在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取其它的语音识别结果中包含的总字数。0084在一些可实施的示例中,结合图8,如图9所示,上述S140具体可以通过下述S1400实现。0085S1400、在总字数小于或等于目标阈值,且语音识别结果中包含的总字数归属于实际字数范围内的情况下,确定语音信息对应的实际识别结果为总字数对应的语音识别结果。0086在一些可实施的示例中,结合图8,如图9所示,上述S140具体可以通过下述S1401实现。0087S1401、在。

42、总字数小于或等于目标阈值,且语音识别结果中包含的总字数不归属于实际字数范围内,且以总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取其它的语音识别结果中包含的总字数。0088上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应。

43、用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。0089本申请实施例可以根据上述方法示例对语音识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。0090如图10所示,本申请的实施例提供一种显示设备200的结构示意图。包括通信器101和处理器102。0091通信器101,配置为接收待识别音频数据,以及待识别音频数据的音频长度。

44、。处理器102,配置为控制通信器101向包含至少两个语音识别引擎的服务器发送通信器101接收说明书8/10 页11CN 116504240 A11的待识别音频数据;通信器101,还配置为接收服务器发送的每个语音识别引擎的理论识别结果;通信器102,还配置为基于目标语速区间、音频长度以及通信器101接收的语音识别结果,确定语音信息对应的实际识别结果。0092在一些可实施的示例中,通信器101进一步配置为接收语音信息;处理器102,进一步配置为对通信器101接收的语音信息进行预处理,得到待识别音频数据,以及待识别音频数据的音频长度。其中,预处理包括回声消除、波束形成、降噪、增益补偿和静音抑制中的一。

45、项或者多项。0093在一些可实施的示例中,处理器102,进一步配置为按照至少两个语音识别引擎中每个语音识别引擎的封装格式对待识别音频数据进行封装,生成每个语音识别引擎对应的封装数据;处理器102,进一步配置为控制通信器101向包含至少两个语音识别引擎的服务器发送封装数据。0094在一些可实施的示例中,处理器102,进一步配置为按照语音识别结果对应的生成时间的先后顺序,依次对每个语音识别结果执行如下操作:获取语音识别结果中包含的总字数;在总字数大于目标阈值的情况下,基于目标语速区间和音频长度,得到语音信息对应的实际字数范围;基于实际字数范围和语音识别结果中包含的总字数,确定语音信息对应的实际识别。

46、结果。0095在一些可实施的示例中,处理器102,还配置为在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内未接收到其它的语音识别结果的情况下,确定识别语音信息失败。0096在一些可实施的示例中,处理器102,还配置为在总字数小于或等于目标阈值,且以总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取其它的语音识别结果中包含的总字数。0097在一些可实施的示例中,处理器102,还配置为在语音识别结果中包含的总字数归属于实际字数范围内的情况下,确定语音信息对应的实际识别结果为总字数对应的语音识别结果。0098在一些可实施的示。

47、例中,处理器102,还配置为在语音识别结果中包含的总字数不归属于实际字数范围内,且以总字数对应的语音识别结果的生成时间为起点的预设时长内接收到其它的语音识别结果的情况下,获取其它的语音识别结果中包含的总字数。0099其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。0100当然,本申请实施例提供的显示设备200包括但不限于上述模块,例如显示设备200还可以包括存储器103。存储器103可以用于存储该显示设备200的程序代码,还可以用于存储显示设备200在运行过程中生成的数据,如写请求中的数据等。0101作为一个示例,结合图3,显示设备200中。

48、的接收单元201和发送单元203二者实现的功能通信器102的功能相同,处理单元202实现的功能与处理器101的功能相同,存储单元204实现的功能与存储器103的功能相同。0102如图11所示,本申请实施例还提供一种芯片系统,该芯片系统可以应用于前述实施例中的显示设备200。该芯片系统包括至少一个处理器1501和至少一个接口电路1502。该处理器1501可以是上述显示设备200中的处理器。处理器1501和接口电路1502可通过线路说明书9/10 页12CN 116504240 A12互联。该处理器1501可以通过接口电路1502从上述显示设备200的存储器接收并执行计算机指令。当计算机指令被处理。

49、器1501执行时,可使得显示设备200执行上述实施例中显示设备200执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。0103本申请实施例还提供一种计算机可读存储介质,用于存储上述显示设备200运行的计算机指令。0104以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。说明书10/10 页13CN 116504240 A13图1图2说明书附图1/8 页14CN 116504240 A14图3图4说明书附图2/8 页15CN 116504240 A15图5说明书附图3/8 页16CN 116504240 A16图6说明书附图4/8 页17CN 116504240 A17图7说明书附图5/8 页18CN 116504240 A18图8说明书附图6/8 页19CN 116504240 A19图9图10说明书附图7/8 页20CN 116504240 A20图11说明书附图8/8 页21CN 116504240 A21。

展开阅读全文
内容关键字: 语音 识别 方法 装置 电子设备
关于本文
本文标题:语音识别方法、装置和电子设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14252349.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1