[发明专利]语音合成装置和方法有效

专利信息
申请号: 201580056851.0 申请日: 2015-10-20
公开(公告)号: CN107077840B 公开(公告)日: 2021-06-01
发明(设计)人: 嘉山启;松原弘明 申请(专利权)人: 雅马哈株式会社
主分类号: G10L13/10 分类号: G10L13/10;G10L25/90
代理公司: 北京天昊联合知识产权代理有限公司 11112 代理人: 李铭;崔利梅
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是用于针对由说话者(用户)说出的语音自动地生成口语回应的技术的改进,并且其特征在于:根据说话者的语音的音高控制口语回应的音高。接收说话者说出的话语(例如,问题)的语音信号(102),并且检测话语的代表性部分的音高(例如,最高音高)(106)。适当地获取对话语的回应的语音数据(110、124),并且获取基于所获取的口语回应语音数据的音高(例如,平均音高)。确定用于将获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量(114)。当基于回应语音数据来合成口语回应时,根据音高偏移量将合成的口语回应的音高进行偏移。
搜索关键词: 语音 合成 装置 方法
【主权项】:
一种语音合成装置,包括:接收部分,其接收话语的语音信号;音高检测部分,其基于由所述接收部分接收到的语音信号来检测所述话语的代表性部分的音高;回应获取部分,其获取对所述话语的回应的语音数据;回应音高获取部分,其获取基于由所述回应获取部分获取的回应的语音数据的音高;音高偏移量确定部分,其确定用于将由所述回应音高获取部分获取的音高偏移至与所述代表性部分的音高具有特定关系的目标音高的音高偏移量;以及回应合成部分,其基于所述回应的语音数据来合成所述回应的语音,所述回应合成部分配置为根据所述音高偏移量来对待合成的所述回应的语音的音高进行偏移。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201580056851.0/,转载请声明来源钻瓜专利网。

同类专利
  • 声音合成方法、声音合成装置及记录介质-201880077081.1
  • 大道龙之介 - 雅马哈株式会社
  • 2018-11-28 - 2023-09-12 - G10L13/10
  • 声音合成装置具有:中间训练好的模型,其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据;编辑处理部,其与来自利用者的第1指示相应地对第2控制数据进行变更;输出训练好的模型,其与包含第1控制数据和变更后的第2控制数据在内的输入相应地,生成与合成声音的频率特性相关的合成数据;以及合成处理部,其生成与合成数据相对应的声音信号。
  • 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质-201980003196.0
  • 白洛玉;李贤;张皓;黄东延;丁万;熊友军 - 深圳市优必选科技股份有限公司
  • 2019-12-24 - 2023-08-04 - G10L13/10
  • 一种多音字预测方法及消歧方法、装置、设备及计算机可读存储介质,该多音字预测方法包括如下步骤:获取待预测文本中的多音字文本、以及多音字文本在待预测文本中的上文文本和/或下文文本(S20);构建多音字文本、上文文本、下文文本各自对应的一个或多个特征向量(S30);将上文文本的特征向量、多音字文本的特征向量、下文文本的特征向量输入多音字预测模型获得多音字预测结果;多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块;第一神经网络模块输入上文文本的特征向量并得到第一输出向量,第二神经网络模块输入多音字文本的特征向量并得到第二输出向量,第三神经网络模块输入下文文本的特征向量并得到第三输出向量;多音字预测结果包括多音字的每种读音的发音概率,通过将第一输出向量、第二输出向量和第三输出向量进行拼接来获得(S40);基于多音字的每种读音的发音概率来确定多音字在待预测文本中的读音(S50)。有利于提高对多音字读音预测的准确度,有效避免分类干扰,编解码实现容易。
  • 用单词重音预测发音的系统和方法-201680085566.6
  • M.V.蔡;K.K.拉奥;D.J.J.范埃施 - 谷歌有限责任公司
  • 2016-12-09 - 2023-05-09 - G10L13/10
  • 一种用于生成单词的发音的方法、系统和装置,其包括在计算机存储介质上编码的计算机程序。方法之一包括:由一个或多个计算机确定指示单词拼写的拼写数据;将拼写数据作为输入提供给训练的递归神经网络,训练的递归神经网络被训练以至少基于指示单词的拼写的数据指示单词的发音的特征;接收指示由训练的递归神经网络响应于提供拼写数据作为输入而生成的单词的发音的重音模式的输出;使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据;以及由一个或多个计算机将发音数据提供给文本到语音系统或自动语音识别系统。
  • 两级语音韵律迁移-202180056199.8
  • 列夫·芬克尔斯坦;詹竣安;比扬哈·春;贾晔;张羽;罗伯特·安德鲁·詹姆斯·克拉克;文森特·万 - 谷歌有限责任公司
  • 2021-07-27 - 2023-04-28 - G10L13/10
  • 一种方法(500)包括:接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);以及使用第一文本到语音(TTS)模型(212)来生成输入文本话语的中间合成语音表示(202)。该中间合成语音表示拥有预期韵律。该方法还包括:将中间合成语音表示提供给第二TTS模型(220),该第二TTS模型(220)包括编码器部分(300)和解码器部分(400)。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入(204)。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号(280),该输出音频信号(280)具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。
  • 基于注意力的时钟层次变分编码器-201980102691.7
  • 罗伯特·克拉克;詹竣安;文森特·万 - 谷歌有限责任公司
  • 2019-12-10 - 2022-07-12 - G10L13/10
  • 一种用于在合成语音中表示预期韵律的方法(400)包括接收具有至少一个词(240)的文本话语(310),和为文本话语选择话语嵌入(204)。文本话语中的每个词具有至少一个音节(230),并且每个音节具有至少一个音素(220)。话语嵌入表示预期韵律。对于每个音节,使用所选择的话语嵌入,该方法还包括:通过基于注意力机制(340)对该音节的每个音素的语言特征(222)的注意力来解码该音节的韵律音节嵌入(232、234)来预测该音节的持续时间(238),并基于所预测的该音节的持续时间来生成多个固定长度预测帧(260)。
  • 语音合成装置和方法-201580056851.0
  • 嘉山启;松原弘明 - 雅马哈株式会社
  • 2015-10-20 - 2021-06-01 - G10L13/10
  • 本发明是用于针对由说话者(用户)说出的语音自动地生成口语回应的技术的改进,并且其特征在于:根据说话者的语音的音高控制口语回应的音高。接收说话者说出的话语(例如,问题)的语音信号(102),并且检测话语的代表性部分的音高(例如,最高音高)(106)。适当地获取对话语的回应的语音数据(110、124),并且获取基于所获取的口语回应语音数据的音高(例如,平均音高)。确定用于将获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量(114)。当基于回应语音数据来合成口语回应时,根据音高偏移量将合成的口语回应的音高进行偏移。
  • 声音合成装置及声音合成方法-201580046128.4
  • 平野薰;铃木优;水谷博之 - 株式会社东芝;东芝解决方案株式会社
  • 2015-09-09 - 2020-11-10 - G10L13/10
  • 提供能够高效地生成带标签文本的声音合成装置及声音合成方法。实施方式的声音合成装置具有内容选择部、内容生成部、以及内容登记部。内容选择部从被登记于内容存储部的多个内容中决定选择内容,内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本,并生成新的所述内容。内容登记部将所生成的新的所述内容登记在所述内容存储部中。
  • 信息处理装置、信息处理方法和程序-201880045866.0
  • 中川亚由美;小俣贵宣;稻谷壮一郎 - 索尼公司
  • 2018-04-23 - 2020-03-17 - G10L13/10
  • [问题]为了使用户清楚地确定声音传递的信息的来源。[解决方案]本发明提供一种信息处理装置,包括输出控制单元,控制使用声音对信息通知的输出。基于识别的外部声源,输出控制单元使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。此外,本发明提供了一种信息处理方法,其中,处理器控制使用声音对信息通知的输出。控制还包括基于识别的外部声源,使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。
  • 语音选择辅助装置以及语音选择方法-201380079572.7
  • 铃木优;平野薰 - 株式会社东芝;东芝解决方案株式会社
  • 2013-09-20 - 2019-08-06 - G10L13/10
  • 本发明的实施方式的语音选择辅助装置具备:受理部,接受文本的输入;解析知识存储部,存储在所输入的上述文本的特征分析中使用的文本解析知识;解析部,参照上述文本解析知识,对上述文本的特征进行分析;语音属性存储部,存储每个语音词典的语音属性;评价部,评价上述语音词典的上述语音属性与上述文本的特征之间的类似度;以及候选提示部,根据上述类似度,提示适合于上述文本的上述语音词典的候选。
  • 回放装置、设置装置、回放方法及程序-201380055758.9
  • 北谷谦一 - NEC卡西欧移动通信株式会社
  • 2013-10-11 - 2015-07-01 - G10L13/10
  • 一种回放装置包括获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析单元,分析听觉语言数据以输出分析结果;设置单元,基于分析结果,将听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及语音回放单元,以所设置的回放速度来回放作为说话语音的控制部分。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top