[发明专利]使用话音转换和语音识别模型的合成数据增强在审
申请号: | 202180053523.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN116018638A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 法迪·比亚德希;姜里羊;佩德罗·J·莫雷诺门吉巴尔;安德鲁·罗森伯格 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于训练语音转换模型(300)的方法(380)包括获得口头训练话语(305)集合中的多个转录(302)以及获得多个非口头训练文本话语。每个口头训练话语由与非典型语音相关联的目标说话者(104)说出,并且包括与对应非合成语音表示(304)配对的对应转录。该方法还包括使用该口头训练话语集合来调整TTS模型(210),以合成在目标说话者的话音中并且捕获非典型语音的语音。对于每个非口头训练文本话语,该方法还包括生成合成语音表示(306)作为来自调整后的TTS模型的输出,该合成语音表示包括目标说话者的话音并且捕获非典型语音。该方法还包括基于合成语音表示来训练语音转换模型。 | ||
搜索关键词: | 使用 话音 转换 语音 识别 模型 合成 数据 增强 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202180053523.0/,转载请声明来源钻瓜专利网。
- 上一篇:检测装置
- 下一篇:氘富集的吡格列酮的晶型
- 同类专利
- 使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序-202180092886.5
- 才野庆二郎;大道龙之介;博纳达·若尔迪;布洛乌·梅利因 - 雅马哈株式会社
- 2021-12-14 - 2023-09-29 - G10L13/033
- 由接受部接受音乐特征量在时间上变化的第1特征量列的输入。由生成部使用训练好的模型对第1特征量列进行处理,生成与特征量以第2精细度变化的第2特征量列对应的音数据列。训练好的模型是对特征量以第1精细度在时间上变化的输入特征量列和与特征量以比第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的机器学习模型。
- 使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序-202180092868.7
- 才野庆二郎;大道龙之介;博纳达·若尔迪;布洛乌·梅利因 - 雅马哈株式会社
- 2021-12-14 - 2023-09-26 - G10L13/033
- 由接受部针对由多个区间构成的音符串的各区间而接受音乐特征量的代表值的输入。使用训练好的模型,对与输入的各区间的代表值相对应的第1特征量列进行处理,由生成部生成与特征量连续地变化的第2特征量列对应的音数据列。
- 自动阻止音频流中包含的敏感数据-201880067472.5
- J.A.施密特;A.D.布雷厄姆;J.尼古莱;J.桑托斯沃索 - 国际商业机器公司
- 2018-11-26 - 2023-09-22 - G10L13/033
- 本文公开了用于自动阻止可听的敏感数据的系统、方法和计算机程序产品。传入的音频将被转换为文本,并分析敏感信息。基于对来自资源的敏感信息的检测,阻止接收者接收可听的所述敏感信息。
- 合成语音生成-202180091481.X
- K·白;S·文;S·张;V·蒙塔泽里;L-H·金;E·维瑟 - 高通股份有限公司
- 2021-12-08 - 2023-09-05 - G10L13/033
- 一种用于语音生成的设备包括被配置为接收指示目标语音特性的一个或多个控制参数的一个或多个处理器。一个或多个处理器还被配置为使用多编码器基于一个或多个控制参数处理语音的输入表示,以生成与表示基于目标语音特性的语音版本的音频信号对应的编码的数据。
- 声音合成方法、声音合成装置及存储介质-201880085358.5
- 大道龙之介 - 雅马哈株式会社
- 2018-12-26 - 2023-08-11 - G10L13/033
- 声音合成装置关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据振幅谱包络和关于多个谐波成分分别确定出的多个谐波振幅分布,生成目标音质的声音的频谱。
- 动态的文本到语音供应-201780067743.2
- J.J.S.奥坎波 - 谷歌有限责任公司
- 2017-07-13 - 2023-08-01 - G10L13/033
- 描述了动态文本到语音(TTS)过程和系统。响应于接收到向用户提供信息的命令,设备检索信息并确定用户和环境属性,该用户和环境属性包括:(i)当用户发出询问时设备与用户之间的距离;(ii)用户的语音特征。基于用户和环境属性,设备确定用户的可能情绪、以及用户和用户设备所处的可能环境。选择与用户的可能情绪和语音特征匹配的音频输出模板。音频输出模板还与用户和设备所处的环境兼容。使用所选择的音频输出模板将检索的信息转换为音频信号,并由设备输出。
- 使用话音转换和语音识别模型的合成数据增强-202180053523.0
- 法迪·比亚德希;姜里羊;佩德罗·J·莫雷诺门吉巴尔;安德鲁·罗森伯格 - 谷歌有限责任公司
- 2021-08-19 - 2023-04-25 - G10L13/033
- 一种用于训练语音转换模型(300)的方法(380)包括获得口头训练话语(305)集合中的多个转录(302)以及获得多个非口头训练文本话语。每个口头训练话语由与非典型语音相关联的目标说话者(104)说出,并且包括与对应非合成语音表示(304)配对的对应转录。该方法还包括使用该口头训练话语集合来调整TTS模型(210),以合成在目标说话者的话音中并且捕获非典型语音的语音。对于每个非口头训练文本话语,该方法还包括生成合成语音表示(306)作为来自调整后的TTS模型的输出,该合成语音表示包括目标说话者的话音并且捕获非典型语音。该方法还包括基于合成语音表示来训练语音转换模型。
- 代表对话中的人参与者生成的合成语音音频数据-202080096237.8
- 马克·鲍尔斯;布莱恩·F·艾伦;尼达·扎达;朱莉·安妮·塞金 - 谷歌有限责任公司
- 2020-02-10 - 2022-09-20 - G10L13/033
- 在对话中代表给定用户生成合成语音音频数据。所述合成语音音频数据包括并入文本段的合成语音。所述文本段可以包括由于使用语音识别模型处理给定用户的口头输入而得到的识别文本,和/或可以包括传达所述文本段的所呈现的建议的选择。一些实现方式动态地确定用于所述文本段的语音合成的一个或多个韵律特性,并且生成具有所确定的一个或多个韵律特性的合成语音。可以基于在语音合成中使用的文本段、对应于附加参与者的最近口头输入的文本段、给定用户与对话中的附加参与者之间的关系的属性、和/或所述对话的当前位置的特征来确定所述韵律特性。
- 计算代理的合成语音选择-201780061508.4
- 瓦莱里·尼高;波格丹·卡普里塔;罗伯特·斯特茨;塞苏雷什·克里希纳库马兰;贾森·布兰特·道格拉斯 - 谷歌有限责任公司
- 2017-09-29 - 2020-08-21 - G10L13/033
- 一种示例方法包括由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示;基于该话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;并使用所选择的语音输出合成音频数据以满足该话语。
- 专利分类