[发明专利]使用话音转换和语音识别模型的合成数据增强在审

专利信息
申请号: 202180053523.0 申请日: 2021-08-19
公开(公告)号: CN116018638A 公开(公告)日: 2023-04-25
发明(设计)人: 法迪·比亚德希;姜里羊;佩德罗·J·莫雷诺门吉巴尔;安德鲁·罗森伯格 申请(专利权)人: 谷歌有限责任公司
主分类号: G10L13/033 分类号: G10L13/033
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 周亚荣;邓聪惠
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种用于训练语音转换模型(300)的方法(380)包括获得口头训练话语(305)集合中的多个转录(302)以及获得多个非口头训练文本话语。每个口头训练话语由与非典型语音相关联的目标说话者(104)说出,并且包括与对应非合成语音表示(304)配对的对应转录。该方法还包括使用该口头训练话语集合来调整TTS模型(210),以合成在目标说话者的话音中并且捕获非典型语音的语音。对于每个非口头训练文本话语,该方法还包括生成合成语音表示(306)作为来自调整后的TTS模型的输出,该合成语音表示包括目标说话者的话音并且捕获非典型语音。该方法还包括基于合成语音表示来训练语音转换模型。
搜索关键词: 使用 话音 转换 语音 识别 模型 合成 数据 增强
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202180053523.0/,转载请声明来源钻瓜专利网。

同类专利
  • 声音合成方法、声音合成装置及存储介质-201880085358.5
  • 大道龙之介 - 雅马哈株式会社
  • 2018-12-26 - 2023-08-11 - G10L13/033
  • 声音合成装置关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据振幅谱包络和关于多个谐波成分分别确定出的多个谐波振幅分布,生成目标音质的声音的频谱。
  • 动态的文本到语音供应-201780067743.2
  • J.J.S.奥坎波 - 谷歌有限责任公司
  • 2017-07-13 - 2023-08-01 - G10L13/033
  • 描述了动态文本到语音(TTS)过程和系统。响应于接收到向用户提供信息的命令,设备检索信息并确定用户和环境属性,该用户和环境属性包括:(i)当用户发出询问时设备与用户之间的距离;(ii)用户的语音特征。基于用户和环境属性,设备确定用户的可能情绪、以及用户和用户设备所处的可能环境。选择与用户的可能情绪和语音特征匹配的音频输出模板。音频输出模板还与用户和设备所处的环境兼容。使用所选择的音频输出模板将检索的信息转换为音频信号,并由设备输出。
  • 使用话音转换和语音识别模型的合成数据增强-202180053523.0
  • 法迪·比亚德希;姜里羊;佩德罗·J·莫雷诺门吉巴尔;安德鲁·罗森伯格 - 谷歌有限责任公司
  • 2021-08-19 - 2023-04-25 - G10L13/033
  • 一种用于训练语音转换模型(300)的方法(380)包括获得口头训练话语(305)集合中的多个转录(302)以及获得多个非口头训练文本话语。每个口头训练话语由与非典型语音相关联的目标说话者(104)说出,并且包括与对应非合成语音表示(304)配对的对应转录。该方法还包括使用该口头训练话语集合来调整TTS模型(210),以合成在目标说话者的话音中并且捕获非典型语音的语音。对于每个非口头训练文本话语,该方法还包括生成合成语音表示(306)作为来自调整后的TTS模型的输出,该合成语音表示包括目标说话者的话音并且捕获非典型语音。该方法还包括基于合成语音表示来训练语音转换模型。
  • 代表对话中的人参与者生成的合成语音音频数据-202080096237.8
  • 马克·鲍尔斯;布莱恩·F·艾伦;尼达·扎达;朱莉·安妮·塞金 - 谷歌有限责任公司
  • 2020-02-10 - 2022-09-20 - G10L13/033
  • 在对话中代表给定用户生成合成语音音频数据。所述合成语音音频数据包括并入文本段的合成语音。所述文本段可以包括由于使用语音识别模型处理给定用户的口头输入而得到的识别文本,和/或可以包括传达所述文本段的所呈现的建议的选择。一些实现方式动态地确定用于所述文本段的语音合成的一个或多个韵律特性,并且生成具有所确定的一个或多个韵律特性的合成语音。可以基于在语音合成中使用的文本段、对应于附加参与者的最近口头输入的文本段、给定用户与对话中的附加参与者之间的关系的属性、和/或所述对话的当前位置的特征来确定所述韵律特性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top