[发明专利]声音合成装置有效

申请号：	200910159280.X	申请日：	2009-08-05
公开（公告）号：	CN101645266A	公开（公告）日：	2010-02-10
发明（设计）人：	竹里尚嘉;古田训;藤井洋一	申请（专利权）人：	三菱电机株式会社
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02
代理公司：	上海专利商标事务所有限公司	代理人：	张鑫;胡烨
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音合成装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及例如在汽车导航装置等中输出引导声音等的声音合成装置，特别是涉及对输出的声音的声调进行控制的技术。

背景技术

以往，已知有被称为TTS(Text-to-Speech；文本声音转换)的技术，该 TTS推断日文的汉字和假名夹杂的和汉混淆文的读音和声调并进行朗读。作为利用了该技术的装置，专利文献1披露了能够利用文本声音转换将接收到的电子邮件正确无误地加以朗读的电子邮件终端装置。

该电子邮件终端装置在个人信息适应变换部中，使用电子邮件的邮件地址、和姓名等个人信息，对应于个人信息对接收到的电子邮件信息进行修正，并添加补充信息。然后，在通报单元的文本声音转换部中，对该信息加工后的电子邮件进行文本声音转换并加以通报。

专利文献1：日本专利特开2001-325191号公报

然而，在上述的现有技术中，例如对于“三田”这样的记述存在诸如“サンダ”或“ミタ”的多种读法的单词，并不一定能够如用户所期待的那样朗读，有可能会发生误读。

另一方面，为了防止误读，已知有使用仅由不包含声调信息的“读音” 构成的读音信息来进行朗读的方法，但根据该方法，存在如下问题，即，朗读变得无声调而平坦，难以让人听懂。

发明内容

本发明是为了解决上述问题而完成的，提供一种能以用户所期待的读音及声调输出声音的声音合成装置。

为了解决上述问题，本发明的声音合成装置包括：声调词典，该声调词典将记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储；声调词典检索部，该声调词典检索部从声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息，并获取附加该检索出的声调信息后的读音信息即带声调的读音信息；声音合成部，该声音合成部根据由声调词典检索部获取到的带声调的读音信息来合成声音波形；及声音重放部，该声音重放部根据由声音合成部合成后的声音波形来重放声音。

根据本发明的声音合成装置，由于采用如下结构，即，从声调词典中读出与从外部输入的记述信息及读音信息对应的带声调的读音信息，根据该读出的带声调的读音信息产生声音，因此不会发生误读，而且能以用户所期待的声调输出声音，

附图说明

图1是表示本发明的实施方式1的声音合成装置的结构的方框图。

图2是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置的结构的方框图。

图3是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。

图4是表示将本发明的实施方式1的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。

图5是用于说明应用了本发明的实施方式1的声音合成装置的汽车导航装置的动作的图。

图6是表示本发明的实施方式2的声音合成装置的结构的方框图。

图7是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置的结构的方框图。

图8是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。

图9是表示将本发明的实施方式2的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。

图10是用于说明应用了本发明的实施方式2的声音合成装置的汽车导航装置的动作的图。

标号说明

1、1a 声音合成装置，11 声调词典，12、12a 声调词典检索部， 13 声音合成部，14 声音重放部，15 声调检索失败处理部

具体实施方式

下面，参照附图详细说明本发明的实施方式。

实施方式1.

图1是表示本发明的实施方式1的声音合成装置1的结构的方框图。该声音合成装置1包括声调词典11、声调词典检索部12、声音合成部13、及声音重放部14。

声调词典11将用于记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储。声调词典检索部12对该声调词典11进行访问。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社，未经三菱电机株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910159280.X/2.html，转载请声明来源钻瓜专利网。

同类专利

用于TTS级联成本的预先保存的数据压缩-201180016984.7
发明人：宋慧成;帐国亮;翁志伟 -专利权人：微软公司
申请日： 2011-03-28 - 公布日： 2012-12-12 - 主分类号： G10L13/08
摘要：预先保存的级联成本数据通过语音分段分组来压缩。语音分段基于其与其他语音分段的级联成本值被分配给预定义数量的分组。为每一个分组选择代表分段。在不同分组中在两个分段之间的级联成本随后可以利用其各自分组的代表分段之间的级联成本来近似，从而减少将要预先保存的级联成本数据的量。

多语言的文字转语音合成系统与方法-201110034695.1
发明人：李振宇;涂家章;郭志忠 -专利权人：财团法人工业技术研究院
申请日： 2011-01-30 - 公布日： 2012-07-04 - 主分类号： G10L13/08
摘要：一种多语言的文字转语音合成系统与方法，将欲合成的文本，通过一语音模型挑选模块及一语音模型合并模块处理，利用一离线阶段得到的一语音单元转换表，于一在线阶段时，此语音模型挑选模块，依据输入文本及对应文本的语音单元序列，利用设定的至少一可调控的口音权重参数，选择要采用的一转换组合，找出一第二语音模型及一第一语音模型，此语音模型合并模块依照设定的至少一可调控的口音权重参数，将找出的两语音模型合并成一合并语音模型，处理该转换组合中所有的转换后，产生一对应输入之语音单元序列的合并语音模型序列，然后利用一语音合成器以及此合并语音模型序列将文本合成带有第一语言口音的第二语言语音。

语音播放文本信息的方法和装置-201010624235.X
发明人：范宝永 -专利权人：北大方正集团有限公司;方正国际软件(北京)有限公司
申请日： 2010-12-31 - 公布日： 2012-07-04 - 主分类号： G10L13/08
摘要：本发明公开了一种语音播放文本信息的方法和装置，涉及语音技术领域。为解决现有语音播放文本信息的延迟时间较长的问题而发明。本发明实施例提供的技术方案包括：分割模块，用于将待进行语音播放的文本信息分割成两个以上子文本信息；语音转换模块，用于按照所述文本信息的播放顺序，依次将所述分割模块获取的两个以上子文本信息转换成语音信号，在每个子文本信息转换成语音信号后，实时将语音信号发送给播放模块；所述播放模块，用于实时播放所述语音转换模块发送的语音信号。本发明实施例可以应用在语音服务系统中。

用于将文本转换成语音的方法和系统-201010580334.2
发明人：刘盈;付国康;韩兆兵;贾宾 -专利权人：国际商业机器公司
申请日： 2010-11-30 - 公布日： 2012-05-30 - 主分类号： G10L13/08
摘要：本发明公开了用于将文本转换成语音的方法和系统。在本发明中，通过并行地或串行地解析数据源，获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后，根据合并结果，进行语音处理。根据本发明，可以在语音识别过程中降低计算复杂度，提高识别效率。

可辨认任何语言句子的方法-201010563452.2
发明人：黎自奋;李台珍;黎世聪;黎世宏;廖丽娟 -专利权人：黎自奋;李台珍;黎世聪;黎世宏;廖丽娟
申请日： 2010-11-29 - 公布日： 2012-05-30 - 主分类号： G10L13/08
摘要：本发明可辨认任何语言的句子。一个句子可能是一个单字，名称或句子。本发明最重要的特点是将任何语言的句子“全部用相等的E×P＝12×12矩”表示。先用一千个不同声音。用E＝12等长弹性框，无滤波器，不重叠，将声音换成E×P线性预估编码倒频谱矩阵，代表一千个资料库。将要辨认已知句子除去两音节、两单字之间及句子前后两端的静音及杂音。再用E个等长弹性框转换成E×P线性预估编码倒频谱矩阵，用距离将该已知全部句子E×P矩阵，分到最近的资料库内。辨认一个未知句子时，将它转换成E×P线性预估编码倒频谱矩阵，再用未知句子E×P矩阵从一千个资料库中，找F个最接近的资料库，再从F个最接近的资料库内已知句子，找该未知句子。

数字双向智能语音讲解系统及其方法-201110353172.3
发明人：陆德宝;吕杰;吴海涛 -专利权人：武汉安通科技产业发展有限公司
申请日： 2011-11-09 - 公布日： 2012-05-02 - 主分类号： G10L13/08
摘要：本发明提供一种数字双向智能语音讲解系统，包括PC服务器和终端装置，基于TTS，其中PC服务器仅供管理和配置相应文件，各终端装置可独立工作，具备更好的稳定性。与现有讲解系统只能按照预存的发音文本进行发音讲解不同，本系统各终端装置可选择按预存发音文本发音，或者直接将讲解员的现场声音进行扩音，不受机器干扰，以满足需求最大化和在设备出现故障时的应急措施。发音文件以文本的形式存放和管理，占用资源小，应用灵活性强，可维护性强；可以通过修改文本即可改变发声内容。语音识别关键字以文本形式存放和管理，可根据场馆不同需求进行配置修改，甚至当场管中展品有所变动时，同样能通过服务器快速配置，灵活性非常大。

基于语义检索的文语转换方法及系统-201110351225.8
发明人：傅泽田;李鑫星;张领先;温皓杰;李道亮;刘雪 -专利权人：中国农业大学
申请日： 2011-11-08 - 公布日： 2012-03-28 - 主分类号： G10L13/08
摘要：本发明涉及语音合成技术领域，提供了一种基于语义检索的文语转换方法及系统。本发明的方法和系统中，首先同时使用正向最大匹配和逆向最大匹配，几乎全部的非歧义字段都可以被切分出，大大提高了文本切分的准确度，改善了语音合成效果。此外，本发明将文本切分方法与传统的基于语义的信息检索方法相结合，借鉴信息检索技术中对于关键词的处理方式，来进行歧义字段的处理，可有效提高歧义字段自动识别的效率和准确度，大大提高语音合成的效果。

参数语音合成方法和系统-201110331821.X
发明人：吴凤梁;职振华 -专利权人：歌尔声学股份有限公司
申请日： 2011-10-27 - 公布日： 2012-03-21 - 主分类号： G10L13/08
摘要：本发明提供了一种参数语音合成方法和系统，该方法包括：依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理：对当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；利用粗略值以及当前时刻之前预定数目语音帧的信息，得到当前所预测语音参数的平滑值；根据统计得到的语音参数的全局均值和全局标准差比值，对语音参数的平滑值进行全局优化，生成所需的语音参数；对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。利用本方案，能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到RAM的限制。

文本朗读系统及其文本朗读方法-201010249944.4
发明人：简家弘;蔡敦道;王俊文;洪良茂 -专利权人：鸿富锦精密工业（深圳）有限公司;鸿海精密工业股份有限公司
申请日： 2010-08-10 - 公布日： 2012-03-14 - 主分类号： G10L13/08
摘要：一种根据文本内容节奏控制朗读的文本朗读系统，所述文本朗读系统包括：文本读取模块，用于从文本源读取文本内容；文本分析模块，用于分析该文本内容，识别该文本内容所包含的节奏语义；脚本处理模块，用于根据该文本内容所包含的节奏语义，生成节奏控制脚本；文本到语音转换模块；朗读节奏控制模块，用于有节奏的将该文本内容传送给所述文本到所述文本到语音转换模块。本发明还揭示了一种根据文本内容节奏控制朗读的文本朗读方法。根据本发明的技术方案，文本可以按照一定节奏朗读，使用者可以方便自如的依据朗读的内容完成某些特定操作。

一种实现阿拉伯文TTS发音的方法-201110235393.0
发明人：陈淮琰;赵党建 -专利权人：无敌科技（西安）有限公司
申请日： 2011-08-17 - 公布日： 2012-02-15 - 主分类号： G10L13/08
摘要：本发明提出了一种实现阿拉伯文TTS发音的方法，包括以下步骤：1)建立阿拉伯文音素音档数据库；2)获取需要进行发音操作的文本字串；3)将获取的文本字串按照音素规则，将关键词分析出所组成的音素单位，拆分成音素序列；4)从音素音档数据库中获取步骤3)中音素音档；5)确定关键词重音；6)确定关键词语调；7)将步骤5)中确定的重音以及步骤6)中确定的语调合成语音数据。本发明的实现阿拉伯文TTS发音的方法，利用语言发音规则和语音合成，将音素序列按照各自音素发音和成发音，方便语言学习者学习。

用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序-201080010199.6
发明人：立花隆辉;西村雅史 -专利权人：国际商业机器公司
申请日： 2010-03-16 - 公布日： 2012-02-01 - 主分类号： G10L13/08
摘要：本发明提供一种能够基于仅少量学习(learning)数据高精度地再现目标语者语音(voice)的基频的特征的技术。学习装置学习目标语者的目标基频图形(F pattern)相对于作为基准的源基频图形(F0 pattern)的移动量。该学习装置通过将与学习文本(text)对应的源基频图形及与同一学习文本对应的目标基频图形，以其波峰与波峰及波谷与波谷相对应的方式相关联，针对目标基频图形上的各点，该学习装置参照该关联的结果而求出相对于源基频图形上的相应点的在时间轴方向上及在频率轴方向上的移动量，且使用作为学习文本的解析结果的语言信息作为输入特征量、使用计算出的移动量作为输出特征量而学习决策树。

文本到语音转换系统与方法-201010212496.0
发明人：陈智宏;简家弘;陈建州 -专利权人：鸿富锦精密工业（深圳）有限公司;鸿海精密工业股份有限公司
申请日： 2010-06-29 - 公布日： 2012-01-11 - 主分类号： G10L13/08
摘要：本发明公开了一种具有同步回馈显示文本功能的文本到语音转换系统与方法。该方法包括以下步骤：从一文本源撷取一个特定单位的文本；同步控制模块将该特定单位的文本同时传送给文本突出显示处理模块和语音合成模块；所述文本突出显示处理模块将所接收到的文本突出显示出来；所述语音合成模块将所接收到的文本转换成语音；播放器模块播放所述语音合成模块转换生成的语音。根据本发明的技术方案，具有同步回馈显示文本功能的文本到语音转换方法可以让当前正在被转换成语音播放的文本以突出形式呈现出来，让用户轻松跟上语音播放的进度，获得较佳的用户体验。

一种基于智能标引的文件语音化处理方法和系统-201010204207.2
发明人：邓姿;王长桥;张军;李松峰 -专利权人：北大方正集团有限公司;北京方正飞阅传媒技术有限公司
申请日： 2010-06-11 - 公布日： 2011-12-14 - 主分类号： G10L13/08
摘要：本发明提供基于智能标引的文件语音化处理方法，包括：对从数字文件中提取的原始文字块和图片块进行标引，以合并文字块、标定文字块的内容属性、关联图片块与图说文字块和构建文章；建立描述不同文章之间和/或同一文章中的文本内容之间的数据关系、图片块与图说文字块的关联关系和/或图片信息及阅读顺序的文本信息列表；将文本信息列表中的信息传入语音库中生成语音记录文件或产品或者进行语音朗读。相应地，提供文件语音化处理系统。本发明实现了不同文本块的不同语音化方式以及语音化过程中的段落跳转，增加了语音化的灵活性和多样性，提高了阅读的趣味性，而且，用户可预制阅读顺序和语音库参数，使用灵活性高。

参数语音合成方法和系统-201110229013.2
发明人：吴凤梁;职振华 -专利权人：歌尔声学股份有限公司
申请日： 2011-08-10 - 公布日： 2011-12-07 - 主分类号： G10L13/08
摘要：本发明提供了一种参数语音合成方法，包括：根据对输入文本的分析获取包含上下文信息的音素序列；依次取出音素序列中的一个音素，在统计模型库中搜索该音素的各声学参数对应的统计模型，按帧取出该音素的各统计模型作为待合成语音参数的粗略值；使用滤波器组对待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；使用全局参数优化器对平滑后的语音参数进行全局参数优化，得到优化后的语音参数；然后利用参数语音合成器进行合成，输出一帧合成语音；重复上述处理直至处理完所述音素序列中的所有音素的所有帧。利用本发明，能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到RAM的限制。

网页文字朗读方法和系统-201010179542.1
发明人：王新亮 -专利权人：腾讯科技(深圳)有限公司
申请日： 2010-05-21 - 公布日： 2011-11-23 - 主分类号： G10L13/08
摘要：本发明涉及一种网页文字朗读方法，包括根据访问指令中的网页地址获取网页文件；从网页文件提取纯文本数据；将纯文本数据转换为语音数据并播放。本发明还提供网页文字朗读系统。本发明提供的网页文字朗读方法和系统，通过获取网页文件，提取网页文件中的纯文本数据，并将纯文本数据转换为语音数据，并播放语音数据，使得用户可以通过听觉浏览网页信息，缓解用户的视觉疲劳。

一种语音合成单元时长的预测方法及装置-201110167390.8
发明人：王愈;李健 -专利权人：北京捷通华声语音技术有限公司
申请日： 2011-06-21 - 公布日： 2011-11-02 - 主分类号： G10L13/08
摘要：本发明提供了一种语音合成单元时长的预测方法和装置，包括：针对上下文环境参数，采用逐步线性回归的时长预测模型，对语音合成单元的时长进行初始预测，获得初始时长预测结果；采用决策树-高斯混合模型对所述初始时长预测结果进行分配，得到分配后的时长预测结果。本发明能够提高时长预测结果的准确性，使得从语音合成系统中合成出的语音具备真实的韵律感。

一种基于音调自动标注及预测的语音合成方法-201110172013.3
发明人：那兴宇;谢湘;王朝民;何娅玲 -专利权人：北京宇音天下科技有限公司
申请日： 2011-06-24 - 公布日： 2011-09-28 - 主分类号： G10L13/08
摘要：本发明公开了一种基于音调自动标注及预测的语音合成方法，由音调预测模块接收待合成的任意文本信息，根据文本分析的音节和韵律层级结构预测音调曲线并输出完整的合成标注信息；参数语音合成模块接收音调预测模块的合成标注信息，使用参数生成的方法输出合成的语音信号；离线训练模块负责各种隐马尔科夫模型的训练，音调预测模型用于指导训练数据的有监督分段实现音调的自动标注以及预测合成文本的音调信息，合成参数模型用于得到合成的参数序列。依据本发明可以解决发音变调和协同发音的调式标注问题，使合成语音的韵律得到了极大地改善。

一种混搭语音合成方法和系统-201110132768.0
发明人：李健;刘畅;武卫东;郑晓明 -专利权人：北京捷通华声语音技术有限公司
申请日： 2011-05-20 - 公布日： 2011-09-28 - 主分类号： G10L13/08
摘要：本发明提供的一种混搭语音合成方法，包括：接收用户输入的文本；对所述文本进行自然语言处理，获得与用户输入的文本对应的音韵结构信息；针对所获得的音韵结构信息，结合混搭定制语音库合成与所述文本对应的混搭语音数据。本发明还提供一种实现前述方法的混搭语音合成系统。本发明的混搭语音合成方法和系统通过事先定制完成的一个混搭定制语音库，用户可以依据个人爱好，通过该技术针对用户所输入的文本选择随机或者设置选定混搭定制语音库中的不同音色、不同口音、不同语气等多种风格的语音片段，最终得到风格多样化的混搭合成语音。

一种语音合成插件的实现方法-201110074067.6
发明人：胡佳文;费流波;陈澄 -专利权人：深圳TCL新技术有限公司
申请日： 2011-03-25 - 公布日： 2011-08-31 - 主分类号： G10L13/08
摘要：本发明属于语音合成技术领域，提供一种语音合成插件的实现方法。该方法包括：步骤S100，发送语音合成请求；步骤S200，利用电视端的Http Server检测并解析语音合成请求；步骤S300，利用合成引擎将文字信息进行语音合成并缓存，并利用语音播放器播放合成的语音。本发明通过利用电视端的Http Server检测并解析语音合成请求，利用合成引擎合成语音流，利用播放器播放语音，无需编写标准NPAPI插件中的大量接口，简化网络电视的语音合成插件的开发过程。

车载语音转换装置-201020672854.1
发明人：钱少群;郭坤 -专利权人：佛山市顺德区必达电子科技有限公司
申请日： 2010-12-21 - 公布日： 2011-08-24 - 主分类号： G10L13/08
摘要：一种车载语音转换装置，包括CPU、语音功放电路、语音播放电路、喇叭和语音存储器以及多语种的语音合成芯片，CPU分别与语音播放电路和多语种的语音合成芯片电连接，语音播放电路和多语种的语音合成芯片分别通过语音功放电路与喇叭电连接；语音存储器与CPU电连接。车载语音转换装置还包括无线模块，该无线模块与CPU电连接，无线模块与信息中心的无线网络相对应。本实用新型通过增设多语种的语音合成芯片，除了可以通过喇叭播放普通话之外，还可以播放方言或外文等其它语种，切实方便用户，其具有结构简单合理、操作灵活、制作成本低、适用范围广的特点。

一种非平行文本条件下的语音转换方法-201010520107.0
发明人：李燕萍;张玲华 -专利权人：南京邮电大学
申请日： 2010-10-27 - 公布日： 2011-05-18 - 主分类号： G10L13/08
摘要：本发明提供一种非平行文本条件下的语音转换方法，属于语音信号处理技术领域。该方法首先对语音音素分类，其次对分类后的语音帧基于谐波加噪声模型进行分解，提取特征矢量；接着在每类音素集合中建立特征参数的转换函数，通过对每一类音素的频谱特征矢量，基于主成分语音分析建立非平行文本条件下的频谱转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息，增强转换语音中的话者信息，而且克服了训练阶段要求平行语料的限制，实现了非平行文本条件下的语音转换，同时降低了对语料数据量的依赖。

韵律短语预测方法-201010294552.X
发明人：李健;张连毅;武卫东 -专利权人：北京捷通华声语音技术有限公司
申请日： 2010-09-27 - 公布日： 2011-05-18 - 主分类号： G10L13/08
摘要：本发明提供了一种韵律短语预测方法，包括：最大熵模型预测，分析句子的特征，并对韵律短语进行预测；语法边界预测，分析句子的特征，根据语法规则对语法边界进行预测；对最大熵模型预测结果进行调整，通过预测出的语法边界，对最大熵模型预测结果进行调整，并根据调整后的概率结果确定韵律短语边界。本发明的韵律短语预测方法中通过对句子进行成分分析，得出语法短语边界，然后对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大，将非语法短语边界处是韵律短语边界的概率减小，提高了韵律短语预测的准确性。

利用中文TTS实现中文内容数字发音的方法-201010535269.1
发明人：陈淮琰;王为功 -专利权人：无敌科技（西安）有限公司
申请日： 2010-11-08 - 公布日： 2011-03-09 - 主分类号： G10L13/08
摘要：本发明涉及一种利用中文TTS实现中文内容数字发音的方法，该方法包括以下步骤：1)将数字转化成为该数字所对应的中文字符串；2)通过调用CTTS实现对中文字符串进行中文发音。本发明所提供了一种转换算法过程简单快捷、使用方便、具有广泛的使用性和实用性的利用中文TTS实现中文内容数字发音的方法。

语音设备、语音控制程序以及语音控制方法-200980110857.6
发明人：大谷欣也;广濑直树 -专利权人：三洋电机株式会社
申请日： 2009-02-04 - 公布日： 2011-02-23 - 主分类号： G10L13/08
摘要：为了以用户容易理解的方式说出数值，一种语音设备包括：话音合成部55，在给定字符串包括由多个数字组成的数值的情况下，用第一语音方法或第二语音方法说出数值，在第一语音方法中，逐一朗读数值的各个单独数字，在第二语音方法中，将数值作为整体数字朗读；用户定义表81、地域表84和数字个数表87，将字符串的类型与第一语音方法或第二语音方法相关联；处理执行部53，执行处理，以输出数据；以及语音控制部51，基于所输出数据产生字符串，并且使话音合成部55用第一和第二语音方法中的与所输出数据的类型相关联的语音说出所产生的字符串。

媒体处理服务器设备及其媒体处理方法-200980111721.7
发明人：磯部慎一;薮崎正实 -专利权人：株式会社NTT都科摩
申请日： 2009-04-02 - 公布日： 2011-02-23 - 主分类号： G10L13/08
摘要：媒体处理服务器设备具有在按情感归类之后，保存与用户标识符关联的语音合成用数据的语音合成数据存储装置，根据从消息服务器设备接收的文本消息，确定文本的情感的文本分析器，和通过利用对应于确定的情感，并且与作为文本消息的传送者的用户的用户标识符关联的语音合成用数据，合成对应于所述文本的语音，生成带情感表现的语音数据的语音数据合成器。

聋哑人生存导航装置-201020209422.7
发明人：高丽;吴丹骏 -专利权人：上海市古美高级中学
申请日： 2010-05-28 - 公布日： 2011-01-19 - 主分类号： G10L13/08
摘要：本实用新型公开一种聋哑人生存导航装置，包括壳体、语音识别模块、三维投影模块。所述语音识别模块、三维投影模块以及控制模块均设置在壳体内，语音识别模块连接三维投影模块，其中语音识别模块和三维投影模块均与控制模块连接，其中：所述语音识别模块接收使用者的语音并识别出转换为文字后，输出给三维投影模块，所述三维投影模块将语音识别模块识别出来的文字投影出来。本实用新型结构简单，使用方便，通过增加三维投影模块，可以方便聋哑人与他人进行交流，从而大大提高了他们的生活质量以及与别人交流的能力。

即时辨识乐谱的方法与系统-200910140675.5
发明人：范钦雄;卢凯杰 -专利权人：范钦雄
申请日： 2009-06-12 - 公布日： 2010-12-22 - 主分类号： G10L13/08
摘要：一种即时辨识乐谱的方法与系统。在此方法中，首先检测乐谱并搜寻小节线以取得乐谱上的至少一个小节，再根据各小节在乐谱中的排列位置规划辨识顺序。接着，控制图像撷取装置依照辨识顺序撷取其中一个小节，随即辨识所撷取的小节中的至少一个音乐信息，以及输出上述音乐信息。此方法将依照辨识顺序对其他小节重复进行上述撷取、辨识及输出的步骤，直到各小节均处理完毕为止。

一种语音合成方法和系统-201010223493.7
发明人：李健;张连毅;武卫东 -专利权人：北京捷通华声语音技术有限公司
申请日： 2010-06-30 - 公布日： 2010-11-24 - 主分类号： G10L13/08
摘要：本发明提供了一种语音合成方法和系统，其中的方法具体包括：接收用户输入的文本；进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从谱参数数据库中匹配得到对应的谱参数；根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。本发明能够应用于嵌入式设备，且在具有好的音质效果下有效降低数据存储空间占用。

大音频数据的处理方法-200910087085.0
发明人：不公告发明人 -专利权人：博石金（北京）信息技术有限公司
申请日： 2009-06-18 - 公布日： 2010-10-06 - 主分类号： G10L13/08
摘要：本发明是一种大音频数据的处理方法，其对大音频数据提取波峰数据，在显示器上显示，根据编辑需要在图形界面上修改音频数据，相应地修改段信息表和波峰数据。搭配语谱显示，可以提供频率分量上的查看。其专有的段信息表和波峰数据减少了不必要的操作，提高了编辑速度，撤销和重做的加入使得更加人性化。

使语音合成时长模型自适应的方法和设备-200910007682.8
发明人：郭庆;王彬;陆应亮 -专利权人：富士通株式会社
申请日： 2009-02-20 - 公布日： 2010-08-25 - 主分类号： G10L13/08
摘要：使语音合成时长模型自适应的方法和设备。设备包括：参考模型生成装置，其根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类，通过计算对应于每个分类的样本集的参考样本数目和参考时长，生成参考语音合成时长模型；和模型自适应装置，其使所述语音合成时长模型中每个语音合成单元的每个时长，适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声音合成装置有效

专利文献下载