[发明专利]生成音乐数据的方法在审
申请号: | 201980009266.3 | 申请日: | 2019-02-14 |
公开(公告)号: | CN111630590A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 加布里埃尔·梅多特;斯里坎特·杰尔拉;卡特琳娜·科斯塔;马特·麦维卡;萨默尔·阿卜杜拉;马可·塞尔维;埃德蒙·纽顿-瑞克斯;凯文·韦伯斯特 | 申请(专利权)人: | 字节跳动有限公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10H7/00 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了一种生成音乐片段的计算机实现的方法。该方法包括:确定音乐片段的初始音符序列;确定关于从候选音符集中选择至少一个后续音符的至少一个概率分布;基于初始音符序列的数据生成偏置输出;以及用根据概率分布和偏置输出从该候选音符集中选择的至少一个后续音符来扩展初始音符序列,其中,偏置输出将所述选择偏置以对所述选择产生由初始音符序列形成的音乐要素的重复的可能性造成影响。 | ||
搜索关键词: | 生成 音乐 数据 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司,未经字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201980009266.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 用于多语言通信排序的系统和方法-201580085355.8
- S·P·鲍尔;J·R·尤罗特 - 交互智能集团有限公司
- 2015-10-15 - 2023-09-22 - G10L13/00
- 本发明提供了一种用于多语言通信排序的系统和方法。通信流可以支持可能需要被创建、移除或编辑的一种或多种语言。在序列编辑期间,可以添加提示、数据、表达式、暂停和文本转语音。这可以通过使用包括提示或TTS的内联选择器完成,或者通过还可以提供错误反馈的对话的使用完成。主序列能够处理被彼此独立地支持和管理的多种语言。
- 信息提供装置-202310642834.1
- 米泽拓臣;光成贵宏;熊木优 - 株式会社本田阿克塞斯
- 2019-05-31 - 2023-08-25 - G10L13/00
- 本发明的信息提供装置(10)在行驶中的车辆(12)到达发声开始点(Xs)时,从扬声器(20)对所述车辆(12)的驾驶员开始语音引导,具有:驾驶员发声速度设定部(42A);发声类型判断部(44);和发声开始点计算部(50),其从与所判断的所述发声类型(TS)对应的所述语音发声速度(Saud)和所述语音引导的发声字数以及所述车辆(12)的车速(Vv)来计算该语音引导的所述发声开始点(Xs)或发声开始距离(Ds),Xs(Ds)=Xe(De)+(发声量/Saud)×Vv,以使所述语音引导的发声在规定的发声结束点(Xe)结束,其中,Xs为发声开始点,Ds为发声开始距离,Xe为发声结束点,发声量为发声字数,Saud为语音发声速度,Vv为车速。
- 自动配音方法和装置-201680082098.7
- H·加布里耶尔斯基;栾剑;李大鹏 - 微软技术许可有限责任公司
- 2016-11-21 - 2023-08-25 - G10L13/00
- 公开了一种自动配音方法。该方法包括:从媒体内容的音频部分提取一声音的语音(504);为所提取的所述声音的语音获得声纹模型(506);通过使用所述声纹模型来处理所提取的语音以生成替代语音(508);以及在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音(510)。
- 语音波形生成-201880085612.1
- 崔洋;汪曦;何磊;宋謌平 - 微软技术许可有限责任公司
- 2018-09-30 - 2023-07-04 - G10L13/00
- 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。
- 语音合成方法及程序-202180069313.0
- 大道龙之介;才野庆二郎 - 雅马哈株式会社
- 2021-10-13 - 2023-06-23 - G10L13/00
- 本发明的一个方面涉及的语音合成方法是由计算机实现的,在该语音合成方法中,经由用户界面而接受乐谱数据及音响数据,基于乐谱编码器及音响数据而生成希望的音质的音波形的音响特征量。
- 一种进行智能角色匹配的文字转语音工作方法-201910567561.2
- 王海洲 - 上海麦克风文化传媒有限公司
- 2019-06-27 - 2023-04-18 - G10L13/00
- 本发明提出了一种进行智能角色匹配的文字转语音工作方法,包括:S1,通过角色音数据库调取相应角色音数据,并且配置相应角色音的角色参数;S2,通过文字数据库获取文字数据,对文字数据进行数据分割,将具有角色音转换的文字数据进行提取操作,将具有旁白角色参数的文字数据进行提取操作,根据提取的文字数据特征进行文字转换语音的操作;S3,在角色文字转语音特征库与第一角色参数和第五角色参数相匹配过程中;S4,将数据库文字数据形成角色文字转语音特征库和旁白文字转语音特征库后,对相应的文字转语音数据进行分段操作;S5,形成的分段语音特征集对应文字的按照时间戳进行顺序归类,在用户界面进行实时调用。
- 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法-201580085103.5
- R·达基拉朱;E·V·拉哈文达;A·甘娜帕茜拉朱 - 交互智能集团有限公司
- 2015-10-06 - 2023-04-04 - G10L13/00
- 本发明提出了一种用于形成基于声门脉冲模型的参数化语音合成系统的激励信号的系统和方法。激励信号可以通过使用多个子带模板而不是单个子带模板来形成。多个子带模板可以组合形成激励信号,其中模板添加的比例是基于所确定的能量系数动态变化的。这些系数随帧而变化,并且在特征训练期间被与频谱参数一起学习。所述系数被附加到特征向量中,所述特征向量包括频谱参数并使用HMM建模,并且确定激励信号。
- 程序、信息处理装置及信息处理方法-202180046226.3
- 本间康之;前田直之;内田贵之 - 泰尔茂株式会社
- 2021-09-02 - 2023-03-03 - G10L13/00
- 程序使计算机执行以下处理:从对象人员受理语音的输入,将输入的上述语音转换成文本,从上述文本检测异常部位,在检测到上述异常部位的情况下,使将与上述异常部位相对应的文字列以与其他文字列不同的显示样态示出的上述文本显示于显示部。优选的是,从上述对象人员受理发向包含上述对象人员在内的多个使用者所参加的聊天群的消息的语音输入,并将上述消息转换成上述文本。
- 使用未说出的文本和语音合成的语音识别-202180033255.6
- 陈哲怀;安德鲁·罗森伯格;布瓦那·拉马巴德兰;佩德罗·J·莫雷诺门希瓦尔 - 谷歌有限责任公司
- 2021-04-27 - 2022-12-23 - G10L13/00
- 一种用于一致地训练基于生成对抗网络(GAN)的文本到语音(TTS)模型(310)和语音识别模型(200)的方法(500),包括:获得多个训练文本话语(305),并且生成对应训练文本话语的合成语音表示(306)用于由基于GAN的TTS模型输出,以及使用对抗鉴别器(318)确定对抗损失项(320),该对抗损失项(320)指示非合成语音表示(304)中相对于对应训练文本话语的对应合成语音表示的声学噪声差异量。该方法还包括基于对抗损失项来更新基于GAN的TTS模型的参数。
- 一种合成语音的变奏方法、装置、电子设备及存储介质-202210707967.8
- 余勇;钟少恒;王翊;王佳骏;陈志刚;陈捷;曹小冬;吴启明;蔡勇超;林承勋;吕华良;丁铖;林家树;郭泽豪;符春造;方美明;陈瑾;李鸿盛 - 广东电网有限责任公司佛山供电局
- 2022-06-22 - 2022-09-13 - G10L13/00
- 本发明公开了一种合成语音的变奏方法、装置、电子设备及存储介质,用于解决现有的合成语音层次感不够分明,生动性差的技术问题。本发明包括:获取预处理文本,并从所述预处理文本中识别自然段落;对所述自然段落进行调整,得到实际段落;依次计算相邻两个实际段落的相关性;生成所述实际段落的合成语音;获取所述合成语音中各所述实际段落的语言节奏;根据所述相关性对所述语言节奏进行调整,得到变奏合成语音。
- 一种语音合成类型的确定方法、装置、设备以及存储介质-202210413157.1
- 郑榕;孟凡芹 - 北京远鉴信息技术有限公司
- 2022-04-20 - 2022-07-08 - G10L13/00
- 本公开提供了一种语音合成类型的确定方法、装置、设备以及存储介质,其中,该方法包括:获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
- 语音合成模型获取方法、装置、电子设备及存储介质-202011294266.3
- 韩润强;孙涛;卿睿;魏建强 - 北京百度网讯科技有限公司
- 2020-11-18 - 2022-05-03 - G10L13/00
- 本申请公开了语音合成模型获取方法、装置、电子设备及存储介质,涉及语音合成、深度学习及自然语言处理等人工智能领域,其中的方法可包括:根据各自对应的训练语音数据,分别获取目标发音人以及至少一个非目标发音人的音色特征;针对至少一个非目标发音人,进行以下处理:以目标发音人为调整目标,根据非目标发音人与目标发音人的音色特征的差异,对非目标发音人的训练语音数据进行调整;根据目标发音人的训练语音数据以及调整后的非目标发音人的训练语音数据,训练语音合成模型。应用本申请所述方案,可提升模型训练效果以及语音合成效果等。
- 在增强和替代通信系统中支持感知和对话处理量-201680059037.9
- J·卡姆普贝尔;A·帕拉迪索;J·贝韦尔斯;M·E·沙赫;M·莫里斯;A·费安纳卡;H·库尔卡尼 - 微软技术许可有限责任公司
- 2016-09-17 - 2021-09-24 - G10L13/00
- 本文中公开了语音生成设备、通信系统以及使用该设备和系统进行通信的方法。在某些示例中,一种通信系统被配置为接收所生成的通信,在接收到所生成的通信之后在语音生成设备与计算设备之间建立连接,并且向计算设备传输所生成的通信。在其他示例中,一种计算设备被配置为与语音生成设备建立连接,并且在连接之后接收由语音生成设备生成的传输,该传输包括先前生成的通信或实时通信片段或代理。在其他示例中,一种语音生成设备被配置为与一个或多个计算设备建立连接,在生成通信期间从至少一个计算设备接收一个或多个建议,并且在显示设备上显示建议作为快捷输入键。
- 音信号合成方法、生成模型的训练方法、音信号合成系统及程序-202080013682.3
- 西村方成 - 雅马哈株式会社
- 2020-02-18 - 2021-09-17 - G10L13/00
- 由计算机实现的音信号合成方法,对包含与多个音名相对应的多个音名数据在内的音高数据的由应该合成的音信号的音名确定的音名数据,分别对与从其音信号的音高的其音名起的偏差相对应的热值进行设定,使用生成模型,对表示与所设定的音高数据相对应的音信号的输出数据进行推定,与推定出的输出数据相应地将音信号进行合成。
- 音信号合成方法、生成模型的训练方法、音信号合成系统及程序-202080013714.X
- 西村方成 - 雅马哈株式会社
- 2020-02-18 - 2021-09-17 - G10L13/00
- 通过计算机实现的音信号合成方法是生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示所述音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。
- 语音聊天装置、语音聊天方法和程序-202080009489.2
- 铃木章悟;大岩拓马;宫下朗;松田哲;佐佐木千晶 - 索尼互动娱乐股份有限公司
- 2020-01-17 - 2021-08-24 - G10L13/00
- 提供的是一种语音聊天装置、语音聊天方法和程序,其能够适当地控制是否提供作为语音聊天的语音的语音识别结果的文本。根据本发明,语音接收单元(44)接收语音聊天中的语音。文本获取单元(46)获取作为由语音接收单元(44)接收到的语音的语音识别结果的文本。发送控制单元(52)根据是否在作为通信配对方的语音聊天系统中执行语音识别结果的显示,控制是否将包括由文本获取单元(46)获取的文本的文本数据发送到该通信配对方。
- 一种带隔断标识的复合文件生成及解析方法-201910299194.2
- 陆成刚;叶超凡;陈刚;吴兵;李威 - 浙江工业大学
- 2019-04-15 - 2021-08-03 - G10L13/00
- 一种带隔断标识的复合文件生成方法,所述方法包括以下步骤:1)源文件获取;2)文件解析;3)复合文件合成。以及提供一种带隔断标识的复合文件解析方法。以及定义一种带隔断标识的复合文件格式,包括复合文件头(文件类型、子文件个数、复合文件大小)、子文件序号、子文件字节数、子文件内容4部分组成。本发明将一个需要合成的句子之间没有特定分隔规律的父文本,按照定义的格式解析保存为一个有规律间隔保存的复合文件,合成的若干音频按照定义的格式对应保存为一个有规律的复合文件,大大减少文件管理的难度。
- 信息处理方法及信息处理系统-201980072848.6
- 大道龙之介;梅利因·布洛乌;若尔迪·博纳达 - 雅马哈株式会社
- 2019-11-06 - 2021-06-15 - G10L13/00
- 信息处理系统具有合成处理部,该合成处理部将表示歌唱者的歌唱者数据、表示歌唱风格的风格数据和表示歌唱条件的合成数据输入至通过机器学习而生成的合成模型,由此基于该发音风格及发音条件而生成表示应该由歌唱者发音的目标音的音响特征的特征数据。
- 语音合成模型生成方法和装置-201710897311.6
- 李昊 - 百度在线网络技术(北京)有限公司
- 2017-09-28 - 2021-03-19 - G10L13/00
- 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取用于对语音合成模型对应的神经网络进行训练的文本的文本特征和文本对应的语音的声学特征,其中,声学特征中的用于训练的文本对应的语音的基频数据通过基频数据提取模型提取,基频数据提取模型基于利用包含的每一帧语音均对应有基频数据的语音预先对基频数据提取模型对应的神经网络进行训练而生成;利用文本特征和声学特征对语音合成模型对应的神经网络进行训练。实现了利用预先训练的基频数据提取模型提取用于训练的段语音的基频数据,使得用于训练语音的完整的基频数据可以用于对语音合成模型对应的神经网络的训练,进而提升训练效果。
- 具有多级别文本信息的神经文本到语音合成-201880091963.3
- 明怀平;何磊 - 微软技术许可有限责任公司
- 2018-12-13 - 2021-02-09 - G10L13/00
- 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。
- 信息提供系统-201480083606.4
- 马场直哉;古本友纪;武井匠;齐藤辰彦;大泽政信 - 三菱电机株式会社
- 2014-11-25 - 2021-01-29 - G10L13/00
- 信息提供系统1包括:提取部(12),其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取;合成控制部(13),其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部(12)所提取出的声音识别对象语;音频合成部(14),其使用从合成控制部(13)接收到的语调信息来对朗读文本进行朗读;以及显示指示部(15),其指示显示器(4)与音频合成部(14)朗读声音识别对象语的时刻相应地显示从合成控制部(13)接收到的声音识别对象语。
- 一种语音处理方法及终端-201810425867.X
- 陈立 - 维沃移动通信有限公司
- 2018-05-07 - 2021-01-08 - G10L13/00
- 本发明实施例提供一种语音处理方法及终端,涉及通信技术领域,以解决在虚拟场景中当用户使用原声语音输入信息时,其他用户辨别不同用户对应的虚拟角色的过程较为繁琐,从而造成使用体验较差的问题。该方法包括:在接收到用户的语音信息的情况下,获取目标虚拟角色的个性化语音信息,所述目标虚拟角色为用户选择的虚拟角色;将所述语音信息和所述个性化语音信息进行处理,得到目标语音信息;输出所述目标语音信息。本发明提供的方法可提高用户对终端的使用体验。
- 由数字助理在组设备环境中对命令的标识和处理-201980017082.1
- K·M·本-多尔;R·卡拉西克;A·迪亚曼特;A·米勒 - 微软技术许可有限责任公司
- 2019-02-28 - 2020-10-23 - G10L13/00
- 在本公开的非限制性示例中,提出了用于由数字助理在组设备环境中执行命令的系统、方法和设备。在事件的持续时间内,可以对具有数字助理的多个设备进行集群。群集的设备中的一个设备可以被指派为针对群集的仲裁器设备。用户可以发出由群集的数字助理可执行的口头命令。可以经由语音分析来标识发出口头命令的用户。可以关于口头命令是否对应于与群集的多个成员或群集的特定成员共享内容的意图做出确定,并且可以基于所确定的意图和执行设备的呈现能力来选择群集的设备以用于执行对口头命令的答复。
- 话语主题的识别-201380067309.6
- 弗雷德·特勒克;弗雷德里克·约翰·乔治·德拉马;维克拉姆·库马尔·贡德蒂 - 亚马逊技术有限公司
- 2013-12-16 - 2020-10-02 - G10L13/00
- 公开了用于产生音频呈现的元素或其他部分的标记的特征,以使得语音处理系统可确定用户话语提到音频呈现的哪个部分。例如,话语可包括没有明确的前述词的代词。标记可用于使话语与用于处理的相应内容部分相关联。标记可被提供到具有文本到语音(“TTS”)呈现的客户端设备。标记可接着连同由客户端设备采撷的用户话语一起被提供到语音处理系统。可包括自动语音识别(“ASR”)模块和/或自然语言理解(“NLU”)模块的语音处理系统可基于标记来产生提示。提示可被提供到ASR和/或NLU模块,以便帮助处理用户话语的含义或意图。
- 电子设备、控制装置、控制方法及记录介质-202010085196.4
- 栗本裕介;和田浩志 - 夏普株式会社
- 2020-02-10 - 2020-09-08 - G10L13/00
- 本发明是一种电子设备,其包括至少一个语音输出装置与至少一个控制装置,所述控制装置进行完成检测处理、完成通知处理、关联判定处理及语音输出处理,所述完成检测处理检测规定的动作是否已完成,所述完成通知处理向电子设备可执行的至少一个服务功能通知动作已完成,所述关联判定处理判定有无可提供与动作关联的服务的所述服务功能,所述语音输出处理在有可提供服务的服务功能的情况下,从语音输出装置输出与服务匹配的语音数据。
- 生成音乐数据的方法-201980009266.3
- 加布里埃尔·梅多特;斯里坎特·杰尔拉;卡特琳娜·科斯塔;马特·麦维卡;萨默尔·阿卜杜拉;马可·塞尔维;埃德蒙·纽顿-瑞克斯;凯文·韦伯斯特 - 字节跳动有限公司
- 2019-02-14 - 2020-09-04 - G10L13/00
- 公开了一种生成音乐片段的计算机实现的方法。该方法包括:确定音乐片段的初始音符序列;确定关于从候选音符集中选择至少一个后续音符的至少一个概率分布;基于初始音符序列的数据生成偏置输出;以及用根据概率分布和偏置输出从该候选音符集中选择的至少一个后续音符来扩展初始音符序列,其中,偏置输出将所述选择偏置以对所述选择产生由初始音符序列形成的音乐要素的重复的可能性造成影响。
- 语音输出装置及电气设备-202010081312.5
- 藤井贵英 - 夏普株式会社
- 2020-02-06 - 2020-08-18 - G10L13/00
- 本发明提供一种语音输出装置,构成为从输出语音消息或旋律的语音输出装置输出操作音,并且在语音消息或旋律的输出中需要输出操作音的情况下,不会在中途使语音消息或旋律停止且能够以适当的时机输出操作音。语音输出装置具备:扬声器;以及语音控制部,其在将语音消息或旋律的语音信号向扬声器供给过程中需要输出操作音的情况下,不使语音消息或旋律的语音信号的供给中断,而将操作音与语音消息或旋律合成来供给。
- 用于声对声转换的系统和方法-201880034452.8
- 威廉·C·哈夫曼;迈克尔·帕帕斯 - 调节股份有限公司
- 2018-05-24 - 2020-05-26 - G10L13/00
- 一种构建话音转换系统的方法使用来自目标语音的目标信息以及源话音数据。该方法接收源话音数据和在音色空间内的目标音色数据。根据源话音数据和目标音色数据,生成器产生第一候选数据。参照多个不同语音的音色数据,鉴别器将第一候选数据与目标音色数据进行比较。鉴别器确定第一候选数据和目标音色数据之间的不一致性。鉴别器产生包含与不一致性有关的信息的不一致性消息。将不一致性消息反馈给生成器,并且生成器产生第二候选数据。使用由生成器和/或鉴别器产生的作为反馈结果的信息来改进音色空间中的目标音色数据。
- 有声播放装置及其播放方法-201811324524.0
- 邓广丰;蔡政宏;谷圳;朱志国;刘瀚文 - 财团法人资讯工业策进会
- 2018-11-08 - 2020-05-05 - G10L13/00
- 一种有声播放装置以及用于该有声播放装置的播放方法被公开于此。该有声播放装置接收来自一用户的一用户指令,以自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色。该有声播放装置还将一文本转换为一语音,且在该转换的过程中,根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音。
- 专利分类
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置