[发明专利]一种基于SVM-GMM模型的语音识别方法在审

专利信息
申请号: 201811584656.7 申请日: 2018-12-24
公开(公告)号: CN109461457A 公开(公告)日: 2019-03-12
发明(设计)人: 祝玉军;刘波;方群;何昕;赵大东;刘毅杨;康龙龙;方银银 申请(专利权)人: 安徽师范大学;赛尔网络有限公司
主分类号: G10L25/27 分类号: G10L25/27;G10L25/51
代理公司: 北京国坤专利代理事务所(普通合伙) 11491 代理人: 黄耀钧
地址: 241000 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于SVM‑GMM模型的语音识别方法,包括声音数据模块、GMM分类器模块、SVM分类器模块、投票模块和决策模块。本发明的有益效果是:本发明将高斯混合模型和支撑向量机模型结合起来建立SVM和GMM的混合模型,其混合模型的辨识度优异于独立的GMM模型及独立的SVM模型,采用GMM‑SVM多模型语音识别方法相较于与传统单个GMM及SVM分类器在辨识能力上有着大幅度的提升,使得识别性能更佳,有良好的经济效益和社会效益,适合推广使用。
搜索关键词: 语音识别 混合模型 高斯混合模型 分类器模块 支撑向量机 决策模块 模型结合 声音数据 识别性能 投票模块 辨识度 辨识
【主权项】:
1.一种基于SVM‑GMM模型,其特征在于:包括声音数据模块(1),所述声音数据模块(1)的输出端连接GMM分类器模块(2)和SVM分类器模块(3)的输入端,且所述GMM分类器模块(2)和SVM分类器模块(3)的输出端连接投票模块(4)的输入端;所述投票模块(4)的输出端连接决策模块(5)的输出端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽师范大学;赛尔网络有限公司,未经安徽师范大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811584656.7/,转载请声明来源钻瓜专利网。

同类专利
  • 人机对话异常检测系统及方法-201610794627.8
  • 俞凯;曹迪;陈露;郑达 - 上海交通大学
  • 2016-08-31 - 2019-11-08 - G10L25/27
  • 一种人机对话异常检测系统及方法,首先通过收集历史对话收据并进行标注,利用标注好的数据对异常检测模型进行训练,在收到实时对话数据时利用训练好的异常检测模型进行异常检测并获得结果;该系统包括语音识别模块(ASR模块)、语音合成模块(TTS模块)、语义识别模块(SLU模块)、对话状态跟踪模块(DST模块)、对话决策模块(DM模块)、数据库查询模块(DATA模块)、自然语言生成模块(NLG模块)、异常检测及处理模块。本发明能够保证机器能够给出的回复都是可靠的,从而可以应用在任何场景下。
  • 报警数据的传输方法、装置、系统及计算机可读存储介质-201910729559.0
  • 王俊 - 中南大学湘雅二医院
  • 2019-08-08 - 2019-11-05 - G10L25/27
  • 本发明公开了一种报警数据的传输方法,应用于报警侦听终端,该方法包括以下步骤:采集当前环境的声音信号;对声音信号进行特征提取,得到特征提取结果;利用机器学习算法模型对特征提取结果进行测试识别,得到测试识别结果;当根据测试识别结果确定声音信号包含医疗监护设备报警数据时,将医疗监护设备报警数据发送给用户客户端。应用本发明实施例所提供的技术方案,实现了对医疗设备报警声音的及时掌握并响应,较大地节省了医护资源,较大地降低了声音信号中存在的隐私声音信息被窃听的概率,降低了数据传输成本。本发明还公开了一种报警数据的传输装置、设备及存储介质,具有相应技术效果。
  • 一种声乐综合训练系统-201610805710.0
  • 苏娜 - 河北师范大学
  • 2016-08-30 - 2019-10-25 - G10L25/27
  • 本发明公开了一种声乐综合训练系统,包括声音采集模块、喉头位置检测模块、呼吸频率采集模块、特征信号采集模块、数据处理模块、音高节拍提取模块、泛音特征提取模块、音符音高和音符时值模型建立模块、乐谱生成模块、演唱技能初级评估模块、演唱技能综合评估模块、综合培训方案输出模块、数学模型建立模块、虚拟参数作动模块、虚拟传感器、仿真分析模块。本发明实现了整个声乐训练过程中的数据的自动采集以及评估,可一次性完成喉头的位置及稳定性情况、声音的音色情况、音频穿透力情况、泛音运用情况、吐字在发声中的保持情况、高低音标准情况、呼吸控制情况的训练和检测分析,并得到针对性的培训方案,真正意义上实现了因材施教。
  • 一种音频分析仪及其内部自校准方法-201510960227.5
  • 宋志刚;薛沛祥;王建中;缪国锋 - 中国电子科技集团公司第四十一研究所
  • 2015-12-18 - 2019-06-04 - G10L25/27
  • 本发明公开了一种音频分析仪及其内部自校准方法。本发明中音频分析仪在其内部设计了高精度、高稳定度的内部基准参考电压源,并充分利用音频分析仪的高精度音频发生通道,设计了一种内部自校准方法,该校准方法根据音频分析仪的使用环境及使用特点为使用者在音频分析仪内部提供两种不同校准方式选择,通过以上两种方式配合使用,便可以实现音频分析仪的实时校准,校准时间短,效率高并保证较高的校准精度,延长音频分析仪的校准周期,为使用者节省时间和校准费用。本发明可以明显改善音频分析仪在使用过程中由于环境温度湿度等的变化及器件的老化及漂移特性对测试精度的影响。
  • 一种基于C-MAC特征的AACHuffman域隐写分析方法-201510979472.0
  • 任延珍;熊翘楚;王丽娜;熊浩 - 武汉大学
  • 2015-12-23 - 2019-03-19 - G10L25/27
  • 本发明公开了一种基于C‑MAC特征的AACHuffman域隐写分析方法,针对AAC音频Huffman域的两种修改比例因子带码书的隐写算法,提出基于重压缩校准的相邻比例因子带码书间转移概率的AAC隐写分析特征,采用支持向量机进行分类预测,实现了面向AAC Huffman域的隐写分析方法。本发明的优势在于:目前还未出现针对AAC Huffman域的隐写分析方法,针对已有的面向AAC Huffman域的两种隐写方法,在相对嵌入率为50%时,检测率能达到95%以上。
  • 基于超完备傅里叶基的语音信号稀疏表示方法-201510229462.5
  • 刘冠群;张汝波;杨大伟;唐莉莉;吴俊伟 - 大连民族学院
  • 2015-05-07 - 2018-08-10 - G10L25/27
  • 本发明公开了一种基于超完备傅里叶基的语音信号稀疏表示方法,其步骤是:根据需要构造超完备傅里叶基;将输入信号进行分帧,进行线性预测估计,获得线性预测系数;利用所获得的线性预测系数求线性预测谱;搜索线性预测谱的局部极大值,获得当前帧语音的共振峰数目;将所获得共振峰数作为依据,利用超完备傅里叶基进行稀疏逼近,以获得稀疏表示系数,即获得语音信号的稀疏表示,从而完成语音信号的稀疏表示。本发明利用线性预测谱的局部极大值与语谱中的共振峰之间的对应关系,通过搜索线性预测谱局部极大值获得的共振峰数目,为稀疏系数中非零元的数目提供了依据,提高了语音稀疏逼近的性能。
  • 一种解析波形的方法和装置-201410054922.0
  • 李东声 - 天地融科技股份有限公司
  • 2014-02-18 - 2017-04-19 - G10L25/27
  • 本发明提供一种解析波形的方法和装置,所述方法包括接收正弦波波形,其中所述正弦波波形包括a个周期为Ta的用于表示比特0的正弦波和b个周期为Tb的用于表示比特1的正弦波,其中,周期Ta和周期Tb不相等,a和b为正整数;对所述正弦波波形进行采样,得到方波波形;获取所述方波波形中第i个上升沿与第i个下降沿之间的脉冲宽度Mi,其中i为小于或等于a和b的总和的正整数;将脉冲宽度Mi与预先获取的周期T1的一半和预先获取的周期T0的一半进行比较,得到比较结果;根据比较结果,确定脉冲宽度Mi对应的方波表示的比特,包括如果所述脉冲宽度Mi等于周期T1的一半,则脉冲宽度Mi对应的方波表示比特1;如果所述脉冲宽度Mi等于周期T0的一半,则脉冲宽度Mi对应的方波表示比特0。
  • 一种基于贝叶斯信息准则的线上说话人聚类分析方法-201210541541.6
  • 王雷 - 上海八方视界网络科技有限公司
  • 2012-12-13 - 2014-06-18 - G10L25/27
  • 本发明涉及线上说话人聚类分析,具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法,它将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段,然后再对音频片段进行音频特征提取,再将将具备音频特征片段通过贝叶斯信息准则聚类,形成若干聚类族1、聚类族2…聚类族n,最终形成聚类模块它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性,能够在不需要原始说话人语音资料的前提下,实现高效的在线说话人信号的并行转录、分段、分类和聚合。
  • 基于人耳感知的DRM+系统的动态数据发送方法-201310557682.1
  • 方伟伟;杨刚;万欣;王威;王菲;焦玮 - 苏州威士达信息科技有限公司
  • 2013-11-11 - 2014-01-29 - G10L25/27
  • 本发明公开了一种基于人耳感知的DRM+系统动态数据发送方法。DRM+作为一种FM广播数字化方案,利用现有模拟FM广播的频率空隙进行数字广播。本发明以ITU-R BS.1387-1心理声学模型为依托,对不同数字信号的频谱位置下的模拟音频接收质量进行分析,在原始信号NMR评价等级的指导下,动态调整分帧音频的数字信号频谱带宽,进而指导数字信号传输的子载波数,形成DRM+系统动态数据发送的方案。本发明目的是在保证不同时间段音频信号质量一致的前提下充分利用空闲频谱,提高DRM+系统中数字信号的传输能力。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top