[发明专利]一种字幕语音精准同步系统及方法、信息数据处理终端有效

申请号：	201810289373.3	申请日：	2018-04-03
公开（公告）号：	CN108597497B	公开（公告）日：	2020-09-08
发明（设计）人：	孙宏亮;程国艮	申请（专利权）人：	中译语通科技股份有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L15/06;G10L15/065;G10L21/0208;G06F40/58
代理公司：	北京万贝专利代理事务所(特殊普通合伙) 11520	代理人：	马红
地址：	100040 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种字幕语音精准同步系统方法信息数据处理终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机软件技术领域，公开了一种字幕语音精准同步系统及方法、信息数据处理终端，机器识别模块应用多种技术提高抗噪性能，采用两遍的维纳滤波技术消除背景噪声；采用混合高斯建模的方法去除垃圾语音，使用GMM对36种自然环境的声音进行识别正确率95.83％；采用谐波检测技术有效检测语音起始点，相比传统语音识别方法识别速度在现有技术基础上提升了100％，同时识别准确率得到有效提升，达到2倍以上。本发明把原文分析、原文译文转换与译文生成分别独立开来，建立独立分析独立生成系统。在这样的系统中，分析原语时不考虑译语的特点，生成译语时也不考虑原语的特点，原语译语的差异通过原文译文转换来解决。

技术领域

本发明属于计算机软件技术领域，尤其涉及一种字幕语音精准同步系统及方法、信息数据处理终端。

背景技术

目前，业内常用的现有技术是这样的：在社会生活中的诸多领域例如语音拨号系统、银行查询系统、电话订票系统、信息检索及翻译系统、教学活动等，都有语音识别技术的应用，这些建立在孤立词或小词汇量的非特定人语音识别系统，其识别精度已经大于98％，受到人们广泛认可。然而随着互联网技术的发展，视频成为网络的一大流量，而近年来的视频直播“肆虐”全球网络，越来越多的人关注网络直播，在线收看各类赛事、重大新闻、各类发布会的需求直线增长。而全球化进程加速，人们跨语言观看网络在线直播是大势所趋，NBA球赛、欧洲足球杯、苹果产品发布会等异国网络直播翻译亟待解决。目前的大词汇量连续语音识别系统仍不满足实用性、广泛性需求，尤其是类似电视、电影、直播报道等大视频流量领域。造成这一现象的主要原因在于语音识别的技术瓶颈。语音识别主要存在以下几个问题：(1)语音切分，语音识别的第一步必须将连续的语音分解为音素或者声韵母等单位，然后需要建立一个规则，用来理解语义。(2)语音具有模糊性，汉语中的多音字是模糊性的一方面，另一方面是在英语和汉语中，说话者在讲话时有些不同的词语可能听起来是相似的。(3)上下文相关影像，英文单词、汉语字词受上下文的影响，语音特性在重音、音调、音量和发音速度等方面会有所改变。(4)噪声影响，环境重噪声和干扰严重时导致语音识别正确率下降。目前，在视频流量领域人工翻译仍然是主流的翻译模式，然而人工翻译不仅在工作效率上大打折扣，同时，伴随国内人力成本的迅速攀升，人工翻译也越来越为诸多盈利企业所累。因此，一款实时的精准的字幕生成产品能够解决以上需求。

综上所述，现有技术存在的问题是：人工翻译的工作效率低、成本高昂。

解决上述技术问题的难度和意义：在语音识别中，首先要根据相应的算法对原始语音的语音信号和非语音信号进行切分，再针对语音信号的某些特征参数进行语音识别，语音识别技术的预处理工作包括了对语音识别单元的选取和语音的切分。由于不同语言结构的不同，对于语音识别单元的选择是有区别的，比如汉语有声韵母结构而英语不具有这种结构。

对于汉语语音识别，又可选择词、音节、声韵母作为语音识别单元，选择的基元越小，识别的灵活性越高，但稳定性降低，反之亦然。此外，汉语结构复杂，有1312个带声调音节，432个不考虑声调的音节，22个声母，38个韵母，庞大的汉语体量及其复杂结构是语音识别技术攻克的难点。然而，这一技术的突破也将为视频流量领域从上到下的供应商主体和消费主体提供前所未有的便捷服务，有效提高该领域的经济效益。

发明内容

所述字幕语音精准同步无非语音识别和字幕翻译两大关键技术，进入21世纪，随着计算机网络的推行，使得语音识别技术的发展更加如鱼得水，诸多表示法、演算法也日新月异，使得语音识别系统的开发，衍生了更多元的组合。传统的语音识别思路是在统计语音识别的基础上，利用统计模型进行建模，近年来，许多的解码战略和各种解码功能被应用到解码器中，为新兴的语音识别方法打开了便捷之门。同时，字幕翻译技术同样与时俱进，伴随大数据的发展，多语言样本库获取便利，语义分析方法不断更新升级，更快更准确的翻译算法使得字幕语音精准同步成为可能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司，未经中译语通科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810289373.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于生成式对抗网络的语音生成方法及装置
下一篇：一种多麦克风语音采集方法及装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种字幕语音精准同步系统及方法、信息数据处理终端有效

专利文献下载