[发明专利]语音合成装置和方法有效
申请号: | 201580056851.0 | 申请日: | 2015-10-20 |
公开(公告)号: | CN107077840B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 嘉山启;松原弘明 | 申请(专利权)人: | 雅马哈株式会社 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L25/90 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 李铭;崔利梅 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是用于针对由说话者(用户)说出的语音自动地生成口语回应的技术的改进,并且其特征在于:根据说话者的语音的音高控制口语回应的音高。接收说话者说出的话语(例如,问题)的语音信号(102),并且检测话语的代表性部分的音高(例如,最高音高)(106)。适当地获取对话语的回应的语音数据(110、124),并且获取基于所获取的口语回应语音数据的音高(例如,平均音高)。确定用于将获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量(114)。当基于回应语音数据来合成口语回应时,根据音高偏移量将合成的口语回应的音高进行偏移。 | ||
搜索关键词: | 语音 合成 装置 方法 | ||
【主权项】:
一种语音合成装置,包括:接收部分,其接收话语的语音信号;音高检测部分,其基于由所述接收部分接收到的语音信号来检测所述话语的代表性部分的音高;回应获取部分,其获取对所述话语的回应的语音数据;回应音高获取部分,其获取基于由所述回应获取部分获取的回应的语音数据的音高;音高偏移量确定部分,其确定用于将由所述回应音高获取部分获取的音高偏移至与所述代表性部分的音高具有特定关系的目标音高的音高偏移量;以及回应合成部分,其基于所述回应的语音数据来合成所述回应的语音,所述回应合成部分配置为根据所述音高偏移量来对待合成的所述回应的语音的音高进行偏移。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201580056851.0/,转载请声明来源钻瓜专利网。
- 上一篇:利用冷却水力旋转电极的装置
- 下一篇:一种秋千式加速器束流挡板装置
- 同类专利
- 声音合成方法、声音合成装置及记录介质-201880077081.1
- 大道龙之介 - 雅马哈株式会社
- 2018-11-28 - 2023-09-12 - G10L13/10
- 声音合成装置具有:中间训练好的模型,其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据;编辑处理部,其与来自利用者的第1指示相应地对第2控制数据进行变更;输出训练好的模型,其与包含第1控制数据和变更后的第2控制数据在内的输入相应地,生成与合成声音的频率特性相关的合成数据;以及合成处理部,其生成与合成数据相对应的声音信号。
- 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质-201980003196.0
- 白洛玉;李贤;张皓;黄东延;丁万;熊友军 - 深圳市优必选科技股份有限公司
- 2019-12-24 - 2023-08-04 - G10L13/10
- 一种多音字预测方法及消歧方法、装置、设备及计算机可读存储介质,该多音字预测方法包括如下步骤:获取待预测文本中的多音字文本、以及多音字文本在待预测文本中的上文文本和/或下文文本(S20);构建多音字文本、上文文本、下文文本各自对应的一个或多个特征向量(S30);将上文文本的特征向量、多音字文本的特征向量、下文文本的特征向量输入多音字预测模型获得多音字预测结果;多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块;第一神经网络模块输入上文文本的特征向量并得到第一输出向量,第二神经网络模块输入多音字文本的特征向量并得到第二输出向量,第三神经网络模块输入下文文本的特征向量并得到第三输出向量;多音字预测结果包括多音字的每种读音的发音概率,通过将第一输出向量、第二输出向量和第三输出向量进行拼接来获得(S40);基于多音字的每种读音的发音概率来确定多音字在待预测文本中的读音(S50)。有利于提高对多音字读音预测的准确度,有效避免分类干扰,编解码实现容易。
- 用单词重音预测发音的系统和方法-201680085566.6
- M.V.蔡;K.K.拉奥;D.J.J.范埃施 - 谷歌有限责任公司
- 2016-12-09 - 2023-05-09 - G10L13/10
- 一种用于生成单词的发音的方法、系统和装置,其包括在计算机存储介质上编码的计算机程序。方法之一包括:由一个或多个计算机确定指示单词拼写的拼写数据;将拼写数据作为输入提供给训练的递归神经网络,训练的递归神经网络被训练以至少基于指示单词的拼写的数据指示单词的发音的特征;接收指示由训练的递归神经网络响应于提供拼写数据作为输入而生成的单词的发音的重音模式的输出;使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据;以及由一个或多个计算机将发音数据提供给文本到语音系统或自动语音识别系统。
- 两级语音韵律迁移-202180056199.8
- 列夫·芬克尔斯坦;詹竣安;比扬哈·春;贾晔;张羽;罗伯特·安德鲁·詹姆斯·克拉克;文森特·万 - 谷歌有限责任公司
- 2021-07-27 - 2023-04-28 - G10L13/10
- 一种方法(500)包括:接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);以及使用第一文本到语音(TTS)模型(212)来生成输入文本话语的中间合成语音表示(202)。该中间合成语音表示拥有预期韵律。该方法还包括:将中间合成语音表示提供给第二TTS模型(220),该第二TTS模型(220)包括编码器部分(300)和解码器部分(400)。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入(204)。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号(280),该输出音频信号(280)具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。
- 使用BERT模型的语音合成韵律-202180032573.0
- 汤姆·马里厄斯·肯特;玛尼施·库玛尔·夏玛;罗伯特·安德鲁·詹姆斯·克拉克;阿丽亚克瑟·塞韦林 - 谷歌有限责任公司
- 2021-04-27 - 2022-12-16 - G10L13/10
- 一种方法(500)包括:接收具有单词(240)的文本话语(320),每个单词具有音节(230),每个音节具有音素(220);并且使用BERT模型(270)来生成单词片嵌入(242)的序列以及为文本话语选择话语嵌入(206),该话语嵌入表示预期韵律。每个单词片嵌入与一个单词相关联。对于每个音节,使用所选择的话语嵌入和合并有BERT模型的韵律模型(300),该方法还包括:基于与包含音节的单词相关联的单词片嵌入来生成音节的对应韵律音节嵌入(235),并且通过用音节的对应的韵律音节嵌入来编码音节的每个音素的语言特征(222)而预测音节的持续时间。
- 对发话设备进行控制的方法、服务器、发话设备以及程序-202180005779.4
- 浅井沙良;松永悟;占部裕树;石井雅博 - 松下知识产权经营株式会社
- 2021-08-20 - 2022-12-09 - G10L13/10
- 对发话设备进行控制的方法、服务器(10)、发话设备(20)以及其程序对发话设备(20)进行控制。服务器(10)从信息源装置(40)接收发话源信息,基于发话源信息,设定发话设备(20)。并且,服务器(10)将具有与发话设备(20)相应的声源特性的发话声源提供给发话设备(20),使发话设备(20)使用发话声源来进行发话。
- 基于注意力的时钟层次变分编码器-201980102691.7
- 罗伯特·克拉克;詹竣安;文森特·万 - 谷歌有限责任公司
- 2019-12-10 - 2022-07-12 - G10L13/10
- 一种用于在合成语音中表示预期韵律的方法(400)包括接收具有至少一个词(240)的文本话语(310),和为文本话语选择话语嵌入(204)。文本话语中的每个词具有至少一个音节(230),并且每个音节具有至少一个音素(220)。话语嵌入表示预期韵律。对于每个音节,使用所选择的话语嵌入,该方法还包括:通过基于注意力机制(340)对该音节的每个音素的语言特征(222)的注意力来解码该音节的韵律音节嵌入(232、234)来预测该音节的持续时间(238),并基于所预测的该音节的持续时间来生成多个固定长度预测帧(260)。
- 语音合成装置和方法-201580056851.0
- 嘉山启;松原弘明 - 雅马哈株式会社
- 2015-10-20 - 2021-06-01 - G10L13/10
- 本发明是用于针对由说话者(用户)说出的语音自动地生成口语回应的技术的改进,并且其特征在于:根据说话者的语音的音高控制口语回应的音高。接收说话者说出的话语(例如,问题)的语音信号(102),并且检测话语的代表性部分的音高(例如,最高音高)(106)。适当地获取对话语的回应的语音数据(110、124),并且获取基于所获取的口语回应语音数据的音高(例如,平均音高)。确定用于将获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量(114)。当基于回应语音数据来合成口语回应时,根据音高偏移量将合成的口语回应的音高进行偏移。
- 声音控制装置、声音控制方法和存储声音控制程序的计算机可读记录介质-201680016405.1
- 滨野桂三;太田良朋;柏濑一辉 - 雅马哈株式会社
- 2016-03-17 - 2021-02-23 - G10L13/10
- 一种声音控制装置,配备有:接收单元,其接收指示开始输出声音的开始指令;读取单元,其响应于接收到开始指令,读取确定声音的输出模式的控制参数;以及控制单元,其使得声音以与所读取的控制参数对应的模式输出。
- 声音合成装置及声音合成方法-201580046128.4
- 平野薰;铃木优;水谷博之 - 株式会社东芝;东芝解决方案株式会社
- 2015-09-09 - 2020-11-10 - G10L13/10
- 提供能够高效地生成带标签文本的声音合成装置及声音合成方法。实施方式的声音合成装置具有内容选择部、内容生成部、以及内容登记部。内容选择部从被登记于内容存储部的多个内容中决定选择内容,内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本,并生成新的所述内容。内容登记部将所生成的新的所述内容登记在所述内容存储部中。
- 信息处理装置、信息处理方法和程序-201880045866.0
- 中川亚由美;小俣贵宣;稻谷壮一郎 - 索尼公司
- 2018-04-23 - 2020-03-17 - G10L13/10
- [问题]为了使用户清楚地确定声音传递的信息的来源。[解决方案]本发明提供一种信息处理装置,包括输出控制单元,控制使用声音对信息通知的输出。基于识别的外部声源,输出控制单元使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。此外,本发明提供了一种信息处理方法,其中,处理器控制使用声音对信息通知的输出。控制还包括基于识别的外部声源,使信息通知以与外部声源能够产生的外部声音不同的输出模式输出。
- 语音选择辅助装置以及语音选择方法-201380079572.7
- 铃木优;平野薰 - 株式会社东芝;东芝解决方案株式会社
- 2013-09-20 - 2019-08-06 - G10L13/10
- 本发明的实施方式的语音选择辅助装置具备:受理部,接受文本的输入;解析知识存储部,存储在所输入的上述文本的特征分析中使用的文本解析知识;解析部,参照上述文本解析知识,对上述文本的特征进行分析;语音属性存储部,存储每个语音词典的语音属性;评价部,评价上述语音词典的上述语音属性与上述文本的特征之间的类似度;以及候选提示部,根据上述类似度,提示适合于上述文本的上述语音词典的候选。
- 回放装置、设置装置、回放方法及程序-201380055758.9
- 北谷谦一 - NEC卡西欧移动通信株式会社
- 2013-10-11 - 2015-07-01 - G10L13/10
- 一种回放装置包括获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析单元,分析听觉语言数据以输出分析结果;设置单元,基于分析结果,将听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及语音回放单元,以所设置的回放速度来回放作为说话语音的控制部分。
- 专利分类