[发明专利]基于DTW和GMM的短词句语音识别方法及系统有效

专利信息
申请号: 202110591145.3 申请日: 2021-05-28
公开(公告)号: CN113112999B 公开(公告)日: 2022-07-12
发明(设计)人: 陆成刚;王庆月;谢涛 申请(专利权)人: 宁夏理工学院
主分类号: G10L15/12 分类号: G10L15/12;G10L15/14;G10L15/22
代理公司: 北京高沃律师事务所 11569 代理人: 王爱涛
地址: 753000 宁夏回族自*** 国省代码: 宁夏;64
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于DTW和GMM的短词句语音识别方法及系统,涉及语音识别技术领域,包括根据获取的当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果;其中,语音音频数据库包括n个短词句,内置DTW距离的高斯混合模型包括K支高斯模型,且K=n;内置DTW距离的高斯混合模型是根据语音音频数据库、DTW算法和高斯混合模型构建的。应用本发明,以达到识别效率高、识别精度高的目的。
搜索关键词: 基于 dtw gmm 词句 语音 识别 方法 系统
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁夏理工学院,未经宁夏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202110591145.3/,转载请声明来源钻瓜专利网。

同类专利
  • 基于人工智能的口语教学评估方法-202310533390.8
  • 韦鹏程;向华;陈美成 - 重庆第二师范学院
  • 2023-05-12 - 2023-08-04 - G10L15/12
  • 本申请提供一种基于人工智能的口语教学评估方法,获取学生朗读目标文本的音频数据,处理得到n帧音频段,并对每帧音频段进行特征提取,得到特征向量集F,进一步确定出音频数据对应的待识别音素序列P;从而将待识别音素序列P与目标文本的参照音素序列C进行对齐,确定出音素序列对齐结果,以生成学生的口语评估结果。这样的方式通过人工智能技术将学生朗读目标文本的音频数据形成待识别音素序列P,通过将其与参照音素序列C对齐的方式进行分析,能够确定每个音素(可以精细到字词或音节)之间的差异,提高了口语评估的准确性和评估精度,也能准确定位学生的口语问题,有利于提升学生的口语能力。
  • 一种基于时空聚类信息推断的语音识别技术-202211135486.0
  • 佟志博;王栋 - 佟志博
  • 2022-09-19 - 2023-03-28 - G10L15/12
  • 本发明提供了一种基于时空聚类信息推断的语音识别技术,以解决在特殊条件下,语音识别误识别率高的问题。包括以下处理阶段:数据分割阶段,通过声音采集传感器获取信号,传输并存储到本地或云服务器上,进行语音识别与分割,以“信号(词级)‑识别结果(词级)‑位置‑时间”的数据结构存储数据;数据聚类阶段,对已保存的结构性数据,进行2种形式的聚类:第一类聚类,在“时间”维度,根据时间间隔进行聚类,第二类聚类,在“空间”维度,根据空间距离进行聚类;语音识别阶段,根据定位信息是否可以获取,分为两种识别策略,定位未开启条件下,利用第一类聚类结果辅助决策函数进行语音识别,定位开启条件下利用第二类聚类结果辅助决策函数进行语音识别。
  • 基于DTW和GMM的短词句语音识别方法及系统-202110591145.3
  • 陆成刚;王庆月;谢涛 - 宁夏理工学院
  • 2021-05-28 - 2022-07-12 - G10L15/12
  • 本发明公开了一种基于DTW和GMM的短词句语音识别方法及系统,涉及语音识别技术领域,包括根据获取的当前阶段采集的语音音频数据、内置DTW距离的高斯混合模型以及语音音频数据库,确定所述当前阶段采集的语音音频数据对应的识别结果;其中,语音音频数据库包括n个短词句,内置DTW距离的高斯混合模型包括K支高斯模型,且K=n;内置DTW距离的高斯混合模型是根据语音音频数据库、DTW算法和高斯混合模型构建的。应用本发明,以达到识别效率高、识别精度高的目的。
  • 改良式动态时间规整系统及方法-202110982655.3
  • 林义雄;萧冠文 - 漳州立达信光电子科技有限公司
  • 2021-08-25 - 2022-04-08 - G10L15/12
  • 本申请涉及语音识别技术领域,提供一种改良式动态时间规整系统及方法,包括二维矩阵转换模块以及路径运算模块。二维矩阵转换模块接收第一信号以及第二信号,并将第一信号映射至横轴、将第二信号映射至纵轴以获得空矩阵。路径运算模块以空矩阵的矩阵原点为初始的参考矩阵元素依序基于邻近的候选矩阵元素的加权后的路径数值选择下一矩阵元素作为下一参考矩阵元素,并依据路径数值计算下一参考矩阵元素的路径累进值,最终在空矩阵终点位置上的矩阵元素计算获得最终累进值以依据最终累进值评估第一信号及第二信号的信号相似度。本申请能使动态时间规整系统的相似度比对效率提高,并且在所需运算的矩阵越大时,效率提高越多。
  • 一种基于Kinect的语音识别方法-201910414675.3
  • 严萍;胡琪;叶楠;李惠名;徐鑫 - 南昌大学
  • 2019-05-17 - 2019-09-27 - G10L15/12
  • 本发明公开了一种基于Kinect的语音识别方法,包括以下步骤:使用Kinect for Windows v2产品的麦克风阵列对用户发出的语音信号进行采集;通过对麦克风阵列采集到的音频信息进行分析比对,进而对用户的音源位置进行确定;基于Kinect for Windows v2产品,对采集到的音频信息进行处理,包括有背景去噪、回声消除和自动增益控制音频;使用DTW算法对处理后的音频信息进行特征提取;将特征提取后的音频信息与内置的音频模板进行匹配;对匹配后的音频信息进行解码。本发明使用Kinect的语音识别系统,代替了用于机器人身上的传统基于PC机的语音识别系统,基于Kinect的语音识别系统会更加经济实用,Kinect具有成本低廉、轻巧简单、精准度较高等优点,能够对语音进行有效识别。
  • 一种基于DTW的孤立词语音识别方法-201710264774.9
  • 邓立新;周炳良;洪民江 - 南京邮电大学
  • 2017-04-21 - 2017-08-11 - G10L15/12
  • 本发明公开了一种基于DTW的孤立词语音识别方法,该方法通过截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配,如此反复截取待测语音特征矢量的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。这种算法的实现,在保证识别精度较高的情况下,能大幅减少孤立词语音识别系统的计算开销,有效提高孤立词语音识别系统的识别效率。
  • 基于语音识别的文本修订方法和装置-201510034325.6
  • 左祥;苏藤荣;朱旋 - 北京三星通信技术研究有限公司;三星电子株式会社
  • 2015-01-22 - 2016-08-17 - G10L15/12
  • 本发明提供了一种基于语音识别的文本修订方法和装置,所述方法包括:接收用户针对文本输入的修订语音;识别接收的修订语音,并进行语义分析;根据分析出的文本中的待修订处的定位信息和修订类型,对文本进行修订。本发明基于语义分析来分析出文本中待修订处的定位信息,无需用户准确指定待修订处的位置,从而更便于用户的修订操作;而且,本发明的待修订的文本,并不局限于当前语音识别得到的文本,其可以是一些已有的如网络下载的电子书等的文本。
  • 语音识别方法和语音识别系统-201310163355.8
  • 刘贺飞;郭莉莉 - 佳能株式会社
  • 2013-05-07 - 2014-11-12 - G10L15/12
  • 一种语音识别方法和语音识别系统。该语音识别方法包括:针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条;把所生成的对应词条添加到第二引擎的词汇表中,以与第二引擎的词汇表中的原有词条一起生成组合词汇表;使用第一引擎通过第一引擎的词汇表来识别输入语音;使用第二引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;使用从第二引擎输出的与对应词条有关的识别结果,对第一引擎的识别结果与第二引擎的与原有词条有关的识别结果进行比较并输出比较结果。第一引擎和第二引擎的每个识别结果包括识别出的单词和对应的识别分数。
  • 用于语音应用中的最优有限状态转换机(FST)的有效渐进修改-201180074721.1
  • 斯特凡·坎塔克;奥利弗·宾德 - 纽安斯通信有限公司
  • 2011-09-21 - 2014-07-09 - G10L15/12
  • 本发明公开了一种用于添加和删除句子的渐进修改单词级有限状态转换机(FST)的方法。确定FST中与该句子的前缀部分匹配的状态和弧的前缀子集。确定FST中与该句子的后缀部分匹配的状态和弧的后缀子集。通过将状态和弧的新序列附加到与前缀和后缀之间的句子的剩余部分相对应的FST,然后可以将新句子附加到FST中。通过将前缀子集和后缀子集之间的任何弧和状态删除,可以将现有句子从FST中删除。所产生的已修改的FST是局部有效的,但是并不满足全局优化标准,诸如最小化。
  • 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置-201310370030.7
  • 童峰;周跃海;洪青阳;李芳兰 - 厦门大学
  • 2013-08-22 - 2013-11-20 - G10L15/12
  • 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置,涉及一种声纹识别装置。设有麦克风、前置放大模块、ADC电路、端点检测模块、信号分帧模块、谱减模块、第1MFCC特征提取模块、第2MFCC特征提取模块、第3MFCC特征提取模块、第4MFCC特征提取模块、当前模板、用户模块、第1DTW匹配模块、第2DTW匹配模块、第3DTW匹配模块、得分反馈模块、信息补偿模块和结果输出模块。采用数字0~9作为口令进行基于孤立词的嵌入式声纹识别,并采用语音的信号域和模型域联合处理避免语音增强过程中的信息损失造成的识别性能下降,改善噪声背景下的声纹识别性能。系统实现方便、成本低。
  • 基于DTW与HMM证据融合的特种车鸣笛声识别方法-201210546541.5
  • 余伶俐;蔡自兴;吴敏;唐琎;周开军;黄益绍;谭平 - 中南大学
  • 2012-12-17 - 2013-04-24 - G10L15/12
  • 本发明公开了一种基于DTW与HMM证据融合的特种车鸣笛声识别方法,包括以下步骤:步骤1:建立车辆鸣笛声样本库;步骤2:预处理步骤;步骤3:车辆鸣笛声特征参数提取及降维处理;步骤4:基于证据融合的特种车鸣笛声识别;分别采用DTW算法和HMM算法得到DTW识别结果和HMM识别结果;若DTW识别结果和HMM识别结果一致,则最终的识别结果与DTW识别结果或HMM识别结果保持一致;若DTW识别结果和HMM识别结果不一致,则进行DS证据理论的识别决策推理,决策输出最终的识别结果。该基于DTW与HMM证据融合的特种车鸣笛声识别方法采用融合识别技术,识别率高。
  • 一种单音旋律曲线的匹配方法-200710178220.3
  • 颜永红;吴晓;李明;刘建;潘接林 - 中国科学院声学研究所;北京中科信利技术有限公司
  • 2007-11-28 - 2009-06-03 - G10L15/12
  • 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。
  • 具有不依赖于说话者的语音识别的通信设备-200780005463.5
  • D·鲁维什 - 知识风险基金21有限责任公司
  • 2007-02-13 - 2009-03-11 - G10L15/12
  • 本发明提供一种用于在具有话音拨号功能的通信设备中执行语音识别的技术。在接收到语音识别模式中的话音输入之后,根据该话音输入生成输入特征向量。同样,还根据指示在说出语音单元时的似然性的输入特征向量,计算似然向量序列。在调变操作中,似然向量序列与语音单词模型相比较,而且计算该单词模型的单词模型匹配似然性。在确定了最佳匹配的单词模型之后,在拨号操作中拨打对应于根据最佳匹配单词模型合成的姓名的号码。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top