[发明专利]一种语音中关键词的检索方法和装置有效

专利信息
申请号: 201910319339.0 申请日: 2019-04-19
公开(公告)号: CN110046276B 公开(公告)日: 2021-04-20
发明(设计)人: 唐文琦 申请(专利权)人: 北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司
主分类号: G06F16/63 分类号: G06F16/63;G06F16/68
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 郭化雨;朱静
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例公开了一种语音中关键词的检索方法和装置,当获取待检索语音时,可以根据解码网络对待检索语音中的语音帧进行关键词检索。在进行关键词检索的过程中,可以根据目标条件从解码网络中的关键词解码路径中确定出目标解码路径,并在目标解码路径的前部节点主动添加令牌,使得被添加令牌的节点成为活跃节点,由此,之后进入解码网络的语音帧可以有机会从目标解码路径的这类前部节点开始进行解码,使得包括全部或部分关键词的语音帧通过尽可能完整的关键词解码路径的机会提高,从而提高了待检索语音中关键词的检出率,提升用户体验。
搜索关键词: 一种 语音 关键词 检索 方法 装置
【主权项】:
1.一种语音中关键词的检索方法,其特征在于,所述方法包括:获取待检索语音;根据解码网络对所述待检索语音中的语音帧进行关键词检索;所述解码网络中包括多个关键词解码路径;在对所述待检索语音进行所述关键词检索的过程中,根据目标条件在目标解码路径的前部节点至少添加一次用于标识活跃节点的令牌;所述目标解码路径为所述多个关键词解码路径中的至少一个。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司,未经北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910319339.0/,转载请声明来源钻瓜专利网。

同类专利
  • 客服录音的质检方法、装置、设备及计算机可读存储介质-201910620601.5
  • 张超;汤耀华 - 深圳前海微众银行股份有限公司
  • 2019-07-10 - 2023-08-25 - G06F16/63
  • 本发明公开了一种客服录音的质检方法、装置、设备及计算机可读存储介质,所述方法包括:当获取到客服录音转化的待质检文本后,按照预设初步查找模型在所述待质检文本中查找质检要素,得到初步查找结果;根据所述初步查找结果确定是否对所述质检要素进行深度查找;当确定对所述质检要素进行深度查找时,按照预设深度查找模型在所述待质检文本中,查找所述初步查找结果中未查找到的目标要素,得到深度查找结果;根据所述深度查找结果得到所述待质检文本的质检结果。本发明实现了在保证质检准确率同时,降低整个质检系统的时间复杂度,提高质检效率。
  • 自动声纹建模入库方法、装置以及设备-202010219084.3
  • 方磊;宣璇;夏翔;方昕 - 合肥讯飞数码科技有限公司
  • 2020-03-25 - 2023-08-22 - G06F16/63
  • 本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。
  • 歌词信息生成方法及其装置-201811420240.1
  • 王杰;庄伯金;王少军;肖京 - 平安科技(深圳)有限公司
  • 2018-11-26 - 2023-08-22 - G06F16/63
  • 本发明公开了一种歌词信息生成方法,包括:根据音乐文件的旋律信息获取歌词生成过程的歌词长度的约束条件;在歌词生成过程中,获取输入的所述音乐文件的种子歌词,在所述约束条件下,根据所述种子歌词生成次级歌词;根据所述种子歌词和次级歌词,生成所述音乐文件的歌词信息。本发明还公开一种歌词信息生成装置。本发明能够快速高效地生成歌词信息,能适应处理量的要求。并且生成的歌词信息与音乐文件匹配程度较高,种子歌词与次级歌词之间的衔接顺畅。本发明在语音语义的处理领域中,应用自然语言处理等相关技术,实现对音乐文件的语义解析,最终生成歌词信息。
  • 一种适用于黑盒攻击下快速获取语音对抗样本的方法-202210106435.9
  • 董理;邓佳程;王让定;王冬华;彭成斌 - 宁波大学
  • 2022-01-28 - 2023-08-08 - G06F16/63
  • 本发明涉及一种适用于黑盒攻击下快速获取语音对抗样本的方法,所述方法包括S1、采用二分查询算法确定原始音频x的决策边界,并配合滑动窗口法进行迭代以选择最佳攻击区域[s:e],s初始值为0,e初始值为l,l为原始音频长度;S2、在选择的攻击区域[s:e]中的低频区域添加扰动,通过计算梯度方向确定更新步长,更新扰动并利用二分查询算法获取下次迭代的对抗样本,直至完成设定的采样次数,得到最终的对抗样本x*。该方法提高了对抗样本生成效率。
  • 一种基于脑波识别的智能音乐推荐系统-201910088836.4
  • 李天目;韩进;张燕;孙加敏;宋玢琳;朱节中 - 南京信息工程大学
  • 2019-01-29 - 2023-08-08 - G06F16/63
  • 本发明公开了一种基于脑波识别的智能音乐推荐系统,推荐系统由可穿戴Think Gear传感器、移动终端和后台数据库组成;所述可穿戴Think Gear传感器穿戴在人体头部用于脑波检测,通过对脑波信号的频率分析,将所得频率通过模式识别匹配得到用户的心情状态;可穿戴Think Gear传感器检测到的频率通过蓝牙模块发送给移动终端,移动终端将数据通过4G模块上传给后台数据库;后台数据库根据上传的数据进行评分,然后按照用户不同的心情及评分数值选择不同的音乐,通过移动终端播放。解决了现有音乐推荐系统无法精确适应不同用户的问题。
  • 基于神经网络的歌词生成方法、装置、设备和存储介质-201811093496.6
  • 梅亚琦;刘奡智;王义文;王健宗;肖京 - 平安科技(深圳)有限公司
  • 2018-09-19 - 2023-06-02 - G06F16/63
  • 本发明涉及音频处理技术领域,尤其涉及一种基于神经网络的歌词生成方法、装置、设备和存储介质。基于神经网络的歌词生成方法包括:获取歌曲风格类型,从全集中搜索到对应的子集;获取特征词,生成对应的多个字或词;计算所述多个字或词为下一个词的概率,并结合歌词规则得到将要输出的词;判断其与前几个词之间的联系是否紧密,若判断为是则输出,若判断为否则重新生成新的词;获取歌词的字数要求,对将要输出的歌词进行字数判断,若字数符合则输出,若字数不符合则重新生成。本发明通过循环神经网络模型和马尔科夫模型自动生成歌词,生成的歌词之间逻辑关联性好,与用户所需歌词的主题密切相关。
  • 语音问卷的处理方法、装置和系统-201910002369.9
  • 王利华;杨文波;单利民;刘奎龙;陈国君 - 阿里巴巴集团控股有限公司
  • 2019-01-02 - 2023-05-30 - G06F16/63
  • 本发明公开了一种语音问卷的处理方法、装置和系统。其中,该系统包括:向服务器发送语音问卷的访问请求,其中,所述语音问卷包括至少一个待回答的问题;接收所述服务器基于所述访问请求确定的问卷信息,其中,所述问卷信息至少包括:所述待回答的问题的第一音频数据;播放所述待回答的问题的第一音频数据,并采集上传的第二音频数据,其中,所述第二音频数据为回答所述待回答的问题的语音信息。本发明解决了现有技术中调查问卷的通常为文本问卷,导致收集答案效率低的技术问题。
  • 数据标注方法、装置、电子设备及计算机可读存储介质-201910138887.3
  • 徐晨 - 北京嘀嘀无限科技发展有限公司
  • 2019-02-25 - 2023-05-12 - G06F16/63
  • 本申请提供了一种数据标注方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:获取至少一个列表信息,每个列表信息中包括至少一个对象,且至少一个列表信息中部分或者全部列表信息携带一个或多个主题信息;基于列表信息确定与各个第一对象相关联的第二对象,第一对象为至少一个列表信息中未标注标签信息的对象;基于第二对象的标签信息确定各个第一对象的标签信息。本申请通过列表信息中已标注标签信息的对象,对列表信息中未标注标签信息的对象进行标注的方式,能够更加准确的确定出列表信息中各个对象的标签信息,进而,通过该标签信息就能够对列表信息中的各个对象进行相应的学习分类。
  • 一种传统音乐录入方法-201910720014.3
  • 尹俊博 - 沈阳大学
  • 2019-08-06 - 2023-03-31 - G06F16/63
  • 本发明公开了一种传统音乐录入方法,包括如下步骤:S1、音乐音频收集;S2、音乐音频数字化处理;S3、筛选区分音乐音频;S4、导出传统音乐;S5、储存传统音乐;本发明提供一种传统音乐录入方法,涵盖了音频收集、数字化处理、筛选区分、导出储存一系列流程,合理有效的将传统音乐筛选出来,命名录入储存;本发明所述音乐音频收集,通过麦克风接收音乐音频,利用麦克风转化过来的模拟电信号以某一频率进行离散化样本采集,形成初步采样;本发明进一步所述音乐音频数字化处理,将采集的离散化样本电压值或电流值进行等级量化处理,将连续的模拟音频信号转换成离散的数字信号——二进制的0和1,方便输入电脑进行对比筛选。
  • 一种音频播放方法、终端设备及车辆-202010019318.X
  • 雷海波 - 广州小鹏汽车科技有限公司
  • 2020-01-08 - 2023-03-31 - G06F16/63
  • 一种音频播放方法、终端设备及车辆,该方法包括:当播放目标歌曲时,在本地缓存中查询所述目标歌曲的本地音频文件;所述本地音频文件包括若干个缓存块,所述缓存块包括上一次播放所述目标歌曲时从服务器中下载的音频数据;若所述本地音频文件存在缺失的所述缓存块,则从所述服务器中下载缺失的所述缓存块对应的音频数据;将所述缺失的所述缓存块对应的音频数据存储至所述目标歌曲的本地音频文件中;播放所述目标歌曲的本地音频文件。实施本发明实施例,能够减少播放音乐时的流量消耗。
  • 语音引导方法、装置、设备和介质-201910760480.4
  • 林少杰;李勇;徐鹏辉;吴迪 - 百度在线网络技术(北京)有限公司
  • 2019-08-16 - 2023-03-10 - G06F16/63
  • 本发明实施例公开了一种语音引导方法、装置、设备和介质,涉及智能语音技术领域。所述方法包括:确定用户需求,其中所述用户需求包括目标操作和所述目标操作的关键信息;根据所述目标操作,从候选语音场景中确定目标语音场景;根据所述目标操作的关键信息和所述目标语音场景关联的目标语音模板,生成目标语音指令;向用户提供所述目标语音指令。本发明实施例提供了一种语音引导方法、装置、设备和介质,实现了对用户进行用户需求的目标语音指令的引导,同时避免了用户主动查找的麻烦,从而提高了对用户的语音引导效率。
  • 音频与属性的关联方法及装置、音频搜索方法及装置-201711137185.0
  • 孙浩华;王朝阳 - 阿里巴巴集团控股有限公司
  • 2017-11-16 - 2023-01-13 - G06F16/63
  • 本申请提供了音频与属性的关联方法及装置、音频搜索方法及装置,其中,音频与属性的关联方法包括:获取音频的至少两种初始属性;依据所述初始属性之间的相似性,从所述初始属性中提取有效属性;参考所述有效属性之间的冲突关系,建立有效属性与音频的关联关系。采用本申请实施例的方法或装置,使得音频的关联关系更具有广度和深度。此外,本申请实施例还可以基于建立的关联关系来搜索音频,从而给用户提供更有可能符合用户需求的音频。
  • 一种音频的处理方法及装置-201910808849.4
  • 康战辉 - 腾讯科技(深圳)有限公司
  • 2019-08-29 - 2023-01-06 - G06F16/63
  • 本发明提供一种音频的处理方法、装置、电子设备及存储介质,音频的处理方法包括:检索预设时间段内的搜索点击记录,得到以音频名和表演者为搜索字段进行搜索的目标搜索次数、以及点击音频名对应的音频的总点击次数;基于以搜索字段进行搜索得到的搜索结果,确定点击音频名和表演者对应的音频的目标点击次数,其中,搜索字段包括音频名和表演者;基于目标搜索次数、总点击次数和目标点击次数,确定音频名和表演者对应的音频的热门程度得分;基于音频的热门程度得分识别热门音频。本发明通过计算预设时间段内的音频的热门程度的得分,实现对预设时间段内的热门音频的识别。
  • 一种音频系统的异常检测方法、装置及电子设备-202110698950.6
  • 张赛 - 京东方科技集团股份有限公司
  • 2021-06-23 - 2022-12-23 - G06F16/63
  • 本公开实施例提供了一种音频系统的异常检测方法、装置及电子设备,方法包括:响应于音频抓取开始操作,在预定节点位置获取原始音频数据,并将原始音频数据写入预定原始音频格式文件中,其中,预定节点位置为预定音频文件传输过程中接收原始音频数据的节点所处的位置;响应于音频抓取结束操作,将获取到的原始音频数据保存至预定原始音频格式文件;将预定原始音频格式文件与预定音频文件进行匹配,以确定音频异常点所处的节点位置。本公开实施例在预定节点位置获取原始音频数据,并将其写入预定原始音频格式文件中进行保存,通过将各个预定原始音频格式文件中保存的原始音频数据与预定音频文件进行匹配,进而能够快速实现音频异常点的定位。
  • 一种电动车智能语音提示方法、装置及存储介质-202211147877.4
  • 孙木楚;冯纪让 - 台铃科技股份有限公司;台铃科技(江苏)股份有限公司
  • 2022-09-20 - 2022-12-06 - G06F16/63
  • 本发明涉及一种电动车智能语音提示方法、装置及存储介质,应用于电动车技术领域中,包括:通过编辑自定义语音文件,并将自定义语音文件添加到语音库中,同时设定每一种自定义语音文件所对应的电动车情形,且在处理器检测到电动车出现相应的情形时,通过API接口在语音库中调取对应的自定义语音文件并播放,通过上述的方案,使得自定义语音文件的语音播放的方言以及内容均可以由用户自由设定,电动车情形与自定义语音文件一一对应,使得用户可以添加更多场景下的语音提示音。
  • 录音证据的生成及验证方法、系统、电子设备及存储介质-202110625318.9
  • 廖金荣;陈晓群 - 晶晨半导体(深圳)有限公司
  • 2021-06-04 - 2022-12-06 - G06F16/63
  • 本发明公开了一种录音证据的生成及验证方法、系统、电子设备及存储介质,该方法包括以下步骤:从录音设备中获取原始音频数据;对原始音频数据进行处理,以将数字水印嵌入原始音频数据中,得到目标音频数据;根据目标音频数据生成主证据文件和副证据文件;根据主证据文件进行证据公示;根据副证据文件验证主证据文件是否合法。本发明能够根据嵌入数字水印的音频数据生成主证据和副证据,通过主证据进行证据公示,通过数字水印可验证音频数据的合法性,从而提高主证据的可靠性;在主证据遭到质疑或可能被复制、伪造、篡改时,可通过副证据对主证据进行验证,以判断主证据是否合法,由此,可提高录音证据的合法性和可靠性。
  • 声音刺激样本选择方法、控制设备及存储介质-202110528102.0
  • 薄洪健;李海峰;孙钢;马琳;林晓静;丰上;陈婧;徐聪;李洪伟;房春英;孙聪珊;丁施航 - 深圳航天科技创新研究院;哈尔滨工业大学
  • 2021-05-14 - 2022-11-29 - G06F16/63
  • 本发明公开了一种声音刺激样本选择方法、控制设备及存储介质,声音刺激样本选择方法包括:获取若干声音刺激样本,并根据声音刺激样本的时长和预设时长范围确定初选声音刺激样本;获取若干初选声音刺激样本的起始点,并将初选声音刺激样本根据起始点对齐;计算对齐后的初选声音刺激样本的原始响度,根据预设响度范围和原始响度调整初选声音刺激样本的响度;将调节响度后的初选声音刺激样本进行趋势分类以确定样本类别;计算调节后若干初选声音刺激样本的特征相似度以得到样本相似度;根据用户预设要求选取所述样本类别、所述样本相似度对应的所述初选声音刺激样本。本发明无需人工操作,提高声音刺激样本选择的准确性和效率。
  • 基于分类器的歌曲节奏生成方法、设备、存储介质及装置-201910720248.8
  • 朱照华;王健宗 - 平安科技(深圳)有限公司
  • 2019-08-02 - 2022-10-14 - G06F16/63
  • 本发明公开了一种基于分类器的歌曲节奏生成方法、设备、存储介质及装置,该方法包括:获取待处理歌词文本,从待处理歌词文本中提取首句歌词;从预设歌曲节奏生成模型的统计矩阵中选择与首句歌词对应的目标行;根据目标行按照预设规则确定首句节奏的起始位置;从待处理歌词文本中提取歌词特征信息;根据歌词特征信息通过预设歌曲节奏生成模型进行音符预测,获得待处理歌词文本中的各歌词对应的目标音符时值;根据起始位置和目标音符时值生成与待处理歌词文本对应的歌曲节奏。基于人工智能,根据歌词通过预设歌曲节奏生成模型自适应生成合理的音乐节奏,不受歌词长度以及段落长度的约束,具有良好的适应性。
  • 盗版音频检测方法、设备和计算机程序产品-202210567984.6
  • 何礼 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2022-05-24 - 2022-08-19 - G06F16/63
  • 本申请涉及音频技术领域,提供了一种盗版音频检测方法、计算机设备和计算机程序产品。本申请能够实现对音频库中盗版音频的高效且准确检测。该方法包括:从音频库中确定与待检音频的音频特征匹配的同类音频,得到包括待检音频及其同类音频的待检音频组,然后将待检音频组中各音频的音频配图输入经训练的音频分类模型,得到模型输出的待检音频组中各音频的音频分类结果,根据该分类结果确定待检音频组中的标杆音频,基于标杆音频识别待检音频组中的盗版音频。
  • 音频搜索方法、装置、电子设备及存储介质-202210507976.2
  • 鲁俊;张炫 - 上海喜马拉雅科技有限公司
  • 2022-05-10 - 2022-08-12 - G06F16/63
  • 本发明涉及自然语言处理技术领域,提供一种音频搜索方法、装置、电子设备及存储介质。通过在电子设备中预存包括多个节点的知识图谱且每个节点具有对应的音频,通过获取用户输入的搜索文本,该搜索文本包括关键词;然后从知识图谱中获取包括关键词的节点,获得第一节点;再基于第一节点对应的音频,生成搜索文本对应的搜索结果。根据搜索文本在知识图谱中获取与其关联的节点,并通过节点对应的音频来生成搜索结果,从而提升了搜索结果与搜索内容的关联性,提高了音频搜索的准确性。
  • 音频数据处理方法、装置和计算机设备-202210493902.8
  • 马智;杨帆;李超凡;姜伟东;王洲;宋旸 - 北京云思智学科技有限公司
  • 2022-04-28 - 2022-08-05 - G06F16/63
  • 本发明属于音频数据处理领域,提供一种音频数据处理方法,包括:通过语音合成模型处理待合成文本,得到待合成文本对应的音频,将待合成文本对应的音频存储至音频数据库,并针对该音频设置缓存期限,所述缓存期限表示在预设时段内能够缓存该音频,当基于语音合成任务命中音频数据库的音频时,按照预设更新规则,更新该音频数据库中目标音频的缓存期限,这样有效地避免音频数据库中音频因缓存期限失效需重新执行合成该音频的任务,从而提升语音合成模型的处理效率。
  • 一种押韵歌词的生成方法和装置-201710939775.9
  • 邹子馨;王楠;朱晓龙;张友谊;林少彬;郑永森;李廣之;康世胤;陀得意;何静;陈在真 - 腾讯科技(深圳)有限公司
  • 2017-09-30 - 2022-07-26 - G06F16/63
  • 本发明实施例公开了一种押韵歌词的生成方法和装置,用于根据输入图像自动生成押韵歌词。本发明实施例提供一种押韵歌词的生成方法,包括:对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚;根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
  • 生成歌词、显示歌词的方法、装置、电子设备及存储介质-201810513546.5
  • 冯穗豫 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2018-05-25 - 2022-05-17 - G06F16/63
  • 本发明公开了一种生成歌词、显示歌词的方法、装置、电子设备及存储介质,属于互联网技术领域。该方法包括:获取目标歌曲的歌词;确定该歌词的多个字符中的待标注字符;根据该待标注字符所在的词,按照预设查询原则,查询该待标注字符在该词中的读音,将该待标注字符在该词中的读音确定为该待标注字符在该目标歌曲中对应的读音;根据该多个字符和该待标注字符在该目标歌曲中对应的读音,生成该目标歌曲的第一歌词文件,从而使得后续在显示歌词时,可以同步显示读音,保证用户可以基于正确演唱目标歌曲的每个字符的读音。并且,终端在显示歌词时,还可以在将读音标注在对应待标注字符的上方,使得该读音清晰可见,提高了显示歌词的准确性。
  • 搜索音频数据的方法和装置-201811100175.4
  • 黄安麒;刘彦彬;李深远;董治;代玥;范恒远;陈莉 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2018-09-20 - 2022-04-08 - G06F16/63
  • 本发明提供了一种搜索音频数据的方法和装置,属于互联网技术领域。将多个音频数据的相关联图像数据分别输入指定的特征提取模型,得到每个音频数据的相关联图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;获取目标图像数据;将所述目标图像数据输入所述特征提取模型,得到所述目标图像数据对应的目标特征信息;确定所述目标特征信息分别与存储的每个音频数据对应的特征信息的相似度;基于每个音频数据对应的相似度,在所述多个音频数据中选取至少一个音频数据,作为所述目标图像数据对应的搜索结果。采用本发明,可以提高搜索音频数据的灵活性。
  • 流匹配系统中的结果的存留和实时排名-201811257138.4
  • 多米尼克·罗博列克;马修·谢里菲 - 谷歌有限责任公司
  • 2013-12-30 - 2022-04-08 - G06F16/63
  • 本申请涉及流匹配系统中的结果的存留和实时排名。匹配系统接收探针音频样本以用于与数据仓库的参考进行比较。生成比较以确定与探针样本的一部分或第一量的足够匹配。给所得匹配参考指派排名得分。匹配参考被保留,除非满足得分阈值。连续生成与探针样本的第二量的比较,并且通过指派排名得分的进一步匹配参考来更新保留的参考。保留的结果被合并并且被确定满足得分阈值以用于作为匹配参考的输出结果公布。
  • 一种面向智能机器人的故事数据处理方法-201811114587.3
  • 贾志强 - 北京光年无限科技有限公司
  • 2018-09-25 - 2022-03-15 - G06F16/63
  • 本发明公开了一种面向智能机器人的故事数据处理方法以及系统。方法包括:获取故事文本数据;解析所述故事文本数据,其中,对所述故事文本数据进行文本识别及分词处理;基于故事音效模型对故事文本分词结果进行音效数据匹配,获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的相互关系;基于所述相互关系,融合所述音效数据与所述故事文本数据,生成故事内容音频数据并输出。相较于现有技术,根据本发明的方法及系统,可以将文本形式的故事转化为带有音效的故事内容音频数据,从而大大提高讲述故事时聆听者的用户体验。
  • 音频检索方法、装置和存储介质-201910631515.4
  • 孔令城 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2019-07-12 - 2022-03-08 - G06F16/63
  • 本申请实施例公开了一种音频检索方法、装置和存储介质;本申请实施例可以获取待检索音频;对待检索音频进行声谱分析,得到待检索音频对应的整体声谱;对整体声谱进行音频指纹构造,得到待检索音频的音频指纹;根据待检索音频的音频指纹进行音频检索,得到检索结果;当检索结果未满足检索停止条件时,则对待检索音频的音频指纹进行更新,并返回执行根据待检索音频的音频指纹进行音频检索的步骤;当检索结果满足检索停止条件时,则停止检索,并输出检索结果。在本申请中,可以不断地更新音频指纹并根据该音频指纹进行音频检索,使得变调和/或变速后的待检索音频也可以检索成功,由此提升了音频检索的准确率。
  • 比较音频文件和音频样本的方法、系统和计算机可读介质-202010854872.X
  • 张泽琛;任洲;华刚 - 虫极科技(北京)有限公司
  • 2020-08-24 - 2022-02-25 - G06F16/63
  • 本发明涉及一种用于比较音频文件和音频样本的方法,包括:S101:获得所述音频文件的复数频率谱;S102:获得所述音频文件与一变形音频的自相干序列,其中所述变形音频是基于所述音频文件获得的;S103:获得所述音频样本与所述音频文件的相干性时间序列;S104:以所述自相干序列为去卷积核,对所述相干性时间序列进行去卷积处理;S105:根据去卷积后的相干性时间序列,定位所述音频文件和/或所述音频样本。本发明的上述实施例中,将音频样本与所述音频文件的相干性时间序列,采用音频文件的自相干时间序列去卷积,能够更精确定位检索到的音频时间位置。经过实际验证,本发明的实施例在实际复杂场景下(例如低信噪比的环境中)验证具有很好的鲁棒性。
  • 图像类别识别模型的训练方法、图像检索方法及装置-202111017633.X
  • 田峰;严灿祥;陈凯 - 北京达佳互联信息技术有限公司
  • 2021-09-01 - 2022-01-25 - G06F16/63
  • 本公开关于一种图像类别识别模型的训练方法、图像检索方法及装置。该图像类别识别模型的训练方法包括:获取训练样本集,其中,训练样本集包括多个训练图像;确定多个训练图像包含的图像类别;基于多个训练图像包含的图像类别,确定每两种图像类别之间的距离,并将距离与预设阈值满足预设关系的每两种图像类别确定为各自的难例类别;基于难例类别,从多个训练图像中获取与难例类别对应的有效训练图像;基于有效训练图像以及有效训练图像对应的实际类别,对待训练的图像类别识别模型进行训练,得到训练好的图像类别识别模型。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top