[发明专利]呼吸音检测方法、装置和电子设备有效

申请号：	202011182048.0	申请日：	2020-10-29
公开（公告）号：	CN112466328B	公开（公告）日：	2023-10-24
发明（设计）人：	张立强;孙涛	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L25/27	分类号：	G10L25/27;G10L25/03;G10L25/66
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张大威
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了呼吸音检测方法、装置和电子设备，涉及语音、自然语言处理、深度学习技术领域。具体实现方案为：获取待检测语音；对待检测语音进行分帧处理，得到多帧帧语音；获取帧语音的能量和帧语音的过零率；将至少连续N帧满足以下条件的帧语音确定为目标帧语音：能量超过预设的第一能量阈值且过零率超过预设的过零率阈值，N为预设的呼吸音长度阈值；以及根据连续的目标帧语音的帧序号确定第一呼吸音区间。该方法能够从待检测语音的多帧帧语音中筛选出能量较大、过零率较大且连续长度也较大的第一呼吸音区间，使得第一呼吸音区间较为符合呼吸音的能量、过零率和长度特征，提高了呼吸音检测的准确性。
搜索关键词：	呼吸检测方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202011182048.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于多目标优化的电网规划设计方法
下一篇：一种基于无人机的绝缘子清扫装置

同类专利

一种音频信号通道的快速部署装置及方法-202310451441.2
发明人：王恒;杨伟汉;东莲正;高韦涵 -专利权人：广州市迪士普音响科技有限公司
申请日： 2023-04-25 - 公布日： 2023-10-27 - 主分类号： G10L25/27
摘要：本发明提供了一种音频信号通道的快速部署装置及方法；所述装置包括：第一MCU控制单元、第二MCU控制单元以及DSP控制单元；第一MCU控制单元，在响应用户的通道复制和粘贴操作之后，获取第一通道标识、音频控制功能标识，以及第二通道标识；然后第二MCU控制单元根据第一通道标识和音频控制功能标识从预设的数据库中，获取待复制音频信号通道所对应的第一控制数据；最后DSP控制单元将待粘贴音频信号通道的第二控制数据替换为第一控制数据；通过实施本发明，能够在响应用户的通道复制操作和通道粘贴操作之后，自动将待复制音频信号通道中各个类型的音频控制模块快速部署到待粘贴音频信号通道之中，提高了音频信号通道的部署效率。

多模语音任务的处理方法、电子设备及可读存储介质-202310977700.5
发明人：孙建伟;文成;赵帅江;邹伟;韩阳;李先刚 -专利权人：贝壳找房（北京）科技有限公司
申请日： 2023-08-04 - 公布日： 2023-10-27 - 主分类号： G10L25/27
摘要：本公开提供了一种多模语音任务的处理方法，包括：对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个语音分帧的音节向量序列；基于多模语音任务的语序，对多模语音任务中文本部分的字符向量序列和音节向量序列进行拼接，获得拼接向量序列，其中字符向量序列中各个字符向量和音节向量序列中各个音节向量具有相同维度；以及调用多模语言模型对拼接向量序列进行分析，生成用于回应多模语音任务的交互文本。本公开还提供一种电子设备及可读存储介质。

呼吸音检测方法、装置和电子设备-202011182048.0
发明人：张立强;孙涛 -专利权人：北京百度网讯科技有限公司
申请日： 2020-10-29 - 公布日： 2023-10-24 - 主分类号： G10L25/27
摘要：本申请公开了呼吸音检测方法、装置和电子设备，涉及语音、自然语言处理、深度学习技术领域。具体实现方案为：获取待检测语音；对待检测语音进行分帧处理，得到多帧帧语音；获取帧语音的能量和帧语音的过零率；将至少连续N帧满足以下条件的帧语音确定为目标帧语音：能量超过预设的第一能量阈值且过零率超过预设的过零率阈值，N为预设的呼吸音长度阈值；以及根据连续的目标帧语音的帧序号确定第一呼吸音区间。该方法能够从待检测语音的多帧帧语音中筛选出能量较大、过零率较大且连续长度也较大的第一呼吸音区间，使得第一呼吸音区间较为符合呼吸音的能量、过零率和长度特征，提高了呼吸音检测的准确性。

敲击行为识别方法、装置、芯片和耳机-202310961963.7
发明人：方泽凯;朱嘉俊;毛伟文 -专利权人：珠海市杰理科技股份有限公司
申请日： 2023-08-01 - 公布日： 2023-10-20 - 主分类号： G10L25/27
摘要：本发明提供一种敲击行为识别方法、装置、芯片和耳机，所述方法包括：步骤S100，在预设时长内获取麦克风采集的音频信号，音频信号包含敲击信号；步骤S200，提取音频信号的音频特征，音频特征包括相似度、梯度和峰均比之一或任意组合；步骤S300，依据音频特征在预设时长内区分敲击信号和抖动信号，以提取音频信号中的敲击信号得到敲击信号序列，其中，抖动信号包含在音频信号中；步骤S400，依据敲击信号序列按预设的对应关系确定敲击信号序列对应的用户的控制操作。减少了使用专用振动传感器的使用成本，也就是减少了额外的硬件成本，具有可行性高、经济、有效的特点。

一种音频数据切片识别处理方法-202210775888.0
发明人：王建伟 -专利权人：北京星汉博纳医药科技有限公司
申请日： 2022-07-03 - 公布日： 2023-10-17 - 主分类号： G10L25/27
摘要：本发明公开了一种音频数据切片识别处理方法，具体涉及声音识别技术领域，包括如下步骤：信号采集，44.1kH采样率获取音频输入，并转换为数组存储；能量差处理；设存储源音数据数组为S，处理后的数组为R，两个数组的长度相同，处理规则：R(n)＝S(n‑1)‑S(n),n0；R(0)＝S(0)；能量信号切片分层；特征提取和识别。经过能量差处理后，数据产生正、负和零，三类数据，有意义的数据在正负两类数据里，并且这两类数据是绝对附着在过零位上的；解决了低频信号干扰，引起的过零位偏移问题；通过切片分层方法，可以通过调参，剥离不同音量或频率的声音数据，在对声音的分类识别过程中，去除噪音和回声，很有效，效果十分显著。

基于多候选策略的语音攻防自动化博弈方法、装置及设备-202310726317.2
发明人：陶建华;何佳毅;易江燕 -专利权人：中国科学院自动化研究所
申请日： 2023-06-19 - 公布日： 2023-10-03 - 主分类号： G10L25/27
摘要：本发明提供一种基于多候选策略的语音攻防自动化博弈方法、装置及设备，其中方法包括：确定语音攻防博弈模型，语音攻防博弈模型由博弈方集合、各博弈方对应的策略空间集合和各博弈方选择的策略对应的收益函数构成；将语音攻防博弈模型表示为博弈树的形式，并基于博弈树下各博弈方选择的策略对应的收益函数，得到博弈树下的支付矩阵；对支付矩阵进行求解，得到语音攻防自动化博弈对应的纳什均衡解。本发明提供的方法、装置及设备，此过程利用博弈论理论建模语音攻防双方的行为，实现博弈自动化运转，并通过均衡思想在面对黑盒攻防时提供合理的纳什均衡解，从而提升博弈双方整体的鲁棒性和成功率，并且，得到的纳什均衡解适用于真实对抗情况。

一种针对特色合成的伪造音频鉴伪方法-202310840891.0
发明人：郑威;云剑;凌霞;郑晓玲;周凡棣;海涵;刘澎;辛鑫 -专利权人：中国信息通信研究院
申请日： 2023-07-10 - 公布日： 2023-09-29 - 主分类号： G10L25/27
摘要：本发明公开了一种针对特色合成的伪造音频鉴伪方法，涉及音频真伪鉴定技术领域，用于深层次对音频伪造进行多元化的鉴定，包括对待鉴定音频进行预处理，获取待鉴定音频中的人声音频数据、环境音频数据和待鉴定音频人声的真实年龄信息；建立音质比对模型，对所述人声音频数据、环境音频数据进行分析生成第一比对数值、第二比对数值，并据此进行归类处理，生成音质差异标识；建立人声匹配模型，对所述人声音频数据进行分析与匹配，生成匹配年龄信息；对匹配年龄信息与真实年龄信息进行分析处理，生成音频年龄匹配标识；构建数据关联输出模型，对音质差异标识和音频年龄匹配标识进行整合处理，生成伪造音频目标、可疑音频目标和真实音频目标。

一种多设备音频数据的对齐方法、装置及存储介质-202311047121.7
发明人：卜辉;徐昕;刘运;张绍极;韦聪锦 -专利权人：北京希尔贝壳科技有限公司
申请日： 2023-08-21 - 公布日： 2023-09-15 - 主分类号： G10L25/27
摘要：本发明提供了一种多设备音频数据的对齐方法、装置及存储介质，属于语音识别以及人工智能交互领域，其中包括：获取多录音设备，根据多录音设备对音频信号进行录制，得到第一音频数据，并对第一音频数据进行预处理，得到第二音频数据；获取冲激信号，将冲激信号作为对齐信号，插入到第二音频数据前；获取冲激信号的音频特征，并根据所述冲激信号的音频特征，得到对齐时间点，对齐多录音设备；获取冲激信号时间段，根据对齐时间点，在对齐时间点之后添加冲激信号时间段，并删除冲激信号，实现多录音设备音频数据对齐；解决了人工检测各个设备间对齐时间点费时费力、效率低下、人工成本高、存在误差，难以确保音频数据精确性的问题。

一种音频半监督自动聚类方法、装置、设备及介质-202310987930.X
发明人：梁磊;瞿千上;庄焰;谭熠 -专利权人：硕橙（厦门）科技有限公司
申请日： 2023-08-08 - 公布日： 2023-09-05 - 主分类号： G10L25/27
摘要：本发明提供了一种音频半监督自动聚类方法、装置、设备及介质，包括：逐秒分割工业设备环境音频，并提取出2维梅尔标度的谱图；分别通过在AudioSet预训练的视觉自注意力模型和基于原始波形的1D卷积网络提取两组嵌入特征；将两组嵌入特征通过TSNE分别降维至2维，在2维特征空间，采用谱聚类、K‑means聚类和OPTICS聚类三种方式生成九组候选聚类结果；基于聚类相似度实现九组候选聚类结果的集成。本发明在面对未见的类别场景时，能够通过预训练模型生成具有代表性和区分度的特征，实现未知场景音频的自动聚类，提高聚类效果的鲁棒性。

一种供水管道泄漏检测方法、系统、存储介质及智能终端-202310627978.X
发明人：贝毅君;赵卓洋;张嘉伟;葛健军;冯立;谌志钦;曾百川 -专利权人：宁波东海集团有限公司;宁波东泰水务科技有限公司
申请日： 2023-05-30 - 公布日： 2023-09-05 - 主分类号： G10L25/27
摘要：本申请涉及一种供水管道泄漏检测方法、系统、存储介质及智能终端，涉及漏水检测定位技术的领域，其包括获取训练样本数据集；对训练样本数据集进行模型训练以获取模型输出结果；计算特征相关度权值总和；计算每一组样本数据特征的相关度权值；计相关度信息；获取选中的样本数据特征；构建样本训练集和样本测试集，并根据样本训练集训练并获取泄漏检测模型，本申请具有通过只选取相关度较高的特征，减少其它特征的干扰，克服复杂条件对泄漏检测方法的干扰和约束，提高了检测的准确性的效果。

一种耳鸣康复音乐合成方法及系统-202210595873.6
发明人：何培宇;方一鸣;潘帆;方安成 -专利权人：四川大学
申请日： 2022-05-30 - 公布日： 2023-09-01 - 主分类号： G10L25/27
摘要：本发明的一种耳鸣康复音乐合成方法及系统，S1、提取MIDI音乐中的主旋律声部；S2、提取主旋律声部中的音符、和弦；S3、对音符、和弦进行编号，得到数字化音乐；S4、将数字化音乐切分成音乐块；S5、构建生成音乐块的马尔科夫链；S6、使用音乐块的马尔科夫链生成数字化音乐；S7、将数字化音乐还原成MIDI格式，得到耳鸣康复音乐。本发明的有益效果体现在，使用自更新马尔科夫链生成的音乐与原始音乐相似度较高，自然流畅，像人工创作的音乐一样相似且重复性低，可以更好地满足耳鸣患者对于音乐的偏好需求，且音乐时长不受限。同时，本发明操作简单，集成度高，即使是计算机相关知识欠缺的医务人员也能够快速使用，便于临床上的推广。

音频还原方法、装置、存储介质及电子设备-202310350846.7
发明人：吕少卿;俞鸣园;王克彦;曹亚曦;孙俊伟 -专利权人：浙江华创视讯科技有限公司
申请日： 2023-03-29 - 公布日： 2023-08-01 - 主分类号： G10L25/27
摘要：本申请公开了一种音频还原方法、装置、存储介质及电子设备，该音频还原方法包括：对待还原音频进行特征提取，得到音频特征矩阵，提取音频特征矩阵中的局部矩阵元素，得到多个特征子矩阵，通过特征子矩阵细化数据特征，更加细致地处理不同特征之间的关系，避免了不同特征之间的相互影响，并利用每个特征子矩阵分别对应的预设音频还原参数，对每个特征子矩阵分别进行音频还原，得到每个特征子矩阵分别对应的初始音频还原信号，以对不同的特征采用不同的处理方式，提高音频还原的准确性，然后，合并每个初始音频还原信号，得到所述待还原音频对应的音频还原结果，提高音频还原的精度和准确度。

用于车内媒体源的音量补偿方法、装置及车辆-202310229563.7
发明人：郑凯桐;夏立勋;胡明清;马峰;朱东辉;朱志鹏;赵力;支洪平 -专利权人：科大讯飞（苏州）科技有限公司
申请日： 2023-03-10 - 公布日： 2023-07-28 - 主分类号： G10L25/27
摘要：本发明公开了用于车内媒体源的音量补偿方法、装置及车辆，方法包括：捕获车内声信号，对车内声信号进行滤波，得到车内声信号中的噪声信号；对噪声信号进行处理，得到噪声信号中的第一噪声信号，其中所述第一噪声信号为平稳的噪声信号；以及基于第一噪声信号计算对车内媒体源的音源信号的音量补偿值，将音量补偿值应用于音源信号以得到该音源信号的最终音量值。本发明能够区分不同噪声，从而满足不同场景下的使用效果，有效地改善了用户的听音体验。

数据处理方法、装置、电子设备和存储介质-202310168869.6
发明人：顾海仑;罗航;刘梁 -专利权人：昆仑芯（北京）科技有限公司
申请日： 2023-02-24 - 公布日： 2023-07-25 - 主分类号： G10L25/27
摘要：本发明公开了一种数据处理方法、装置、电子设备和存储介质，涉及数据处理领域，尤其涉及语音识别领域、计算机视觉领域等，该数据处理方法包括：获取若干帧数据，以及每个所述帧数据对应的数据尺寸信息；基于所述数据尺寸信息，确定每个所述帧数据所属的数据尺寸范围；同一所述数据尺寸范围内的任意两个所述帧数据的数据尺寸相差小于设定阈值；响应于同一所述数据尺寸范围中多个帧数据满足设定条件，则将满足所述设定条件的所有帧数据输入至对应的预设推理模型进行推理；不同的所述预设推理模型对应处理不同的所述数据尺寸范围内的数据。

语料的标签预测方法、装置、电子设备-202310443904.0
发明人：简仁贤 -专利权人：竹间智能科技（上海）有限公司
申请日： 2023-04-23 - 公布日： 2023-07-21 - 主分类号： G10L25/27
摘要：本发明实施例涉及一种语料的标签预测方法、装置、电子设备，所述方法包括：确定预设数据库中待预测语料对应的拉取参数，根据所述拉取参数，采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料，利用训练好的标签预测模型对多个所述待预测语料进行预测，得到每个所述待预测语料对应的标签。由此，能够实现提高语料标签的预测效率，提高用户体验。

用于麦克风风格转移的机器学习-202180070897.3
发明人：马尔科·塔利亚萨基;比特·格费尔勒;李云鹏;佐兰·博尔绍什 -专利权人：谷歌有限责任公司
申请日： 2021-10-15 - 公布日： 2023-07-21 - 主分类号： G10L25/27
摘要：本公开的示例实施方式涉及用于麦克风风格转移的机器学习，例如，以促进诸如语音数据的音频数据的扩增，以提高在音频数据上训练的机器学习模型的健壮性。用于麦克风风格转移的系统和方法可以包括一个或多个机器学习的麦克风模型，该模型被训练以获得和扩增信号数据以模仿从目标麦克风获得的信号数据的特性。该系统和方法可以包括用于在风格转移之前增强样本的语音增强网络。然后可以将扩增输出用于各种下游任务。

音频处理方法、装置、存储介质及智能眼镜-202310043222.0
发明人：李逸洋;张新科;崔潇潇;苏悦;鲁勇 -专利权人：北京探境科技有限公司
申请日： 2023-01-29 - 公布日： 2023-07-21 - 主分类号： G10L25/27
摘要：本申请实施例公开了一种音频处理方法、装置、存储介质及智能眼镜。该方法包括：基于麦克风阵列接收多通道音频信号，并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值，根据功率值确定目标观测区域，在目标观测区域进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以得到单通道增强信号，对单通道增强信号进行声音事件检测，并将检测结果以及目标声源方向显示至智能眼镜上。本申请实施例通过对目标观测区域进行声源定位及声音事件检测，并且显示在智能眼镜中，从而提升听障人士的事件提醒效率。

音频片段的匹配方法、装置、计算机可读介质及电子设备-201910441366.5
发明人：林方超;云伟标;曾鹏 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-05-24 - 公布日： 2023-06-30 - 主分类号： G10L25/27
摘要：本申请的实施例提供了一种音频片段的匹配方法、装置、计算机可读介质及电子设备。该匹配方法包括：获取第一音频片段对应的第一特征序列和第二音频片段对应的第二特征序列；根据第一特征序列的长度和第二特征序列的长度构建距离矩阵，距离矩阵中的各个位置表示第一特征序列上的一个点与第二特征序列上的一个点之间的距离；计算距离矩阵中的起始位置到目标位置之间的第一累加距离，并计算距离矩阵中的终止位置到目标位置之间的第二累加距离；基于第一累加距离和第二累加距离计算第一特征序列与第二特征序列之间的最小距离，并根据所述最小距离确定第一音频片段与第二音频片段之间的匹配度。本申请实施例的技术方案可以提高音频片段的匹配准确性。

语音检测方法、语音检测装置、语音处理芯片以及电子设备-201980001072.9
发明人：蒋斌;毛健 -专利权人：深圳市汇顶科技股份有限公司
申请日： 2019-06-21 - 公布日： 2023-06-23 - 主分类号： G10L25/27
摘要：一种语音检测方法、语音检测装置、语音处理芯片以及电子设备，语音检测装置包括：子带生成模块、语音活动检测模块，所述子带生成模块用于对当前时域信号帧进行处理以得到若干个子带时域信号，所述语音活动检测模块用于根据所述当前时域信号帧的所述若干个子带时域信号的幅度，判断所述当前时域信号帧是否是有效语音信号。语音检测装置在时域上即可执行，由此降低了算法的复杂度，减少了功耗。

一种音频信号有声段端点检测方法及系统-202210789379.3
发明人：宋余君;彭健新 -专利权人：华南理工大学
申请日： 2022-07-06 - 公布日： 2023-06-20 - 主分类号： G10L25/27
摘要：本发明公开了一种音频信号有声段端点检测方法及系统，其中方法包括：获取音频数据，对所述音频数据进行预处理，获得音频信号对数谱；根据所述音频信号对数谱，执行静音段检测任务获取有声段检测阈值；根据有声段检测阈值，执行有声段端点检测任务直至触发更新有声段检测阈值条件或触发结束条件。本发明通过静音段检测实现有声段检测阈值设定，无需前导静音段，能自适应各种宽平稳背景噪声环境，有效增强系统适应性；通过有声段检测阈值计算音频信号的离群点稀疏度，并根据稀疏度曲线的波峰波谷变化特征实现有声段端点检测，可有效地在低信噪比情况下快速检测出音频信号的有声段端点。本发明可广泛应用于音频信号处理技术领域。

一种基于特征值聚类的声学信号模式分类方法-202211627990.2
发明人：陆成刚;张卫;魏小彬;杨利中;南哲;白晓迪 -专利权人：浙江工业大学
申请日： 2022-12-17 - 公布日： 2023-06-06 - 主分类号： G10L25/27
摘要：一种基于特征值聚类的声学信号模式分类方法，属于声学信号模式分类技术领域。它包括以下步骤：S1、使用固定时长将时域声音信号划成连续的帧片段，利用傅立叶变换，将各片段转换成频谱片段；S2、使用频谱片段的矢量间的相似度量/相异度量构造相似/相异的度量矩阵；S3、将度量矩阵进行谱分解，得到特征矢量矩阵P和特征值组成的谱矩阵；S4、对谱特征值序列进行k均值聚类，得到k组结果；S5、将特征值聚类的结果映射到频谱片段集合。本发明直接使用特征值进行k均值聚类，聚类矢量为一维纯量，不需要使用PCA技术进行降低维度处理，从而使得计算效率达到最优，适用于声学降噪、声学回声的DTD检测、回声分离以及声源定位等技术领域。

一种基于语境分析的声音增益调节方法及系统-202211673539.4
发明人：李鹏;朱尚文;李子豪 -专利权人：杭州爱听科技有限公司
申请日： 2022-12-26 - 公布日： 2023-05-26 - 主分类号： G10L25/27
摘要：本发明公开了一种基于语境分析的声音增益调节方法及系统，其中涉及的增益调节方法，包括：S1.获取声音中待处理的音频片段，并提取音频片段中的数个音频帧；S2.对音频帧进行傅里叶变换处理，并计算音频帧的频域能量和短时平均过零率；S3.判断频域能量是否小于第一预设阈值，若是，则当前音频帧为噪音帧，并对噪声帧给予小增益；若否，则当前音频帧为非噪音帧；S4.判断短时平均过零率是否大于第二预设阈值，若是，则当前音频帧为语音帧；若否，则当前音频帧为噪音帧，并对噪声帧给予小增益；S5.判断语音帧的频域能量是否小于第一预设阈值，若是，则当前语音帧为小声帧，并对小声帧给予大增益；若否，则当前语音帧为大声帧，并对大声帧给予小增益。

基于声音分析的终端处理方法、装置、存储介质及终端-201911325074.1
发明人：李岩 -专利权人：惠州TCL移动通信有限公司
申请日： 2019-12-20 - 公布日： 2023-05-26 - 主分类号： G10L25/27
摘要：本申请实施例公开了一种基于声音分析的终端处理方法、装置、存储介质及终端。该方法包括：采集当前场景下的声音信息；对所述声音信息进行分析，得到分析结果；基于所述分析结果确定当前场景的所属类型；执行与当前场景的所属类型对应的操作指令。本方案通过智能识别当前的场景状态，执行相应服务的操作指令，提升了终端的智能性，为用户带来便利。

模型训练方法及装置-202111283083.6
发明人：吴凡;李振权;卓邦声;林倩倩;郭涵韬;陆家辉;夏龙 -专利权人：北京猿力未来科技有限公司
申请日： 2021-11-01 - 公布日： 2023-05-05 - 主分类号： G10L25/27
摘要：本说明书提供模型训练方法及装置，其中所述模型训练方法包括：获取音素样本数据以及包含至少两种语音类别的语音样本数据；根据所述语音样本数据对生成器和判别器进行初始训练，获得中间生成器和中间判别器；基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练；根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器。

一种数据处理方法及其装置-202211520907.1
发明人：曾幸山;李良友;陈晓 -专利权人：华为技术有限公司
申请日： 2022-11-30 - 公布日： 2023-05-02 - 主分类号： G10L25/27
摘要：一种数据处理方法，应用于多模态数据处理，涉及人工智能领域，包括：获取第一特征表示；根据第一特征表示，通过边界预测器，确定目标语音中表达的目标文本中不同文本单元之间的边界信息；边界信息用于将第一特征表示进行划分，得到多个子特征；每个子特征包括目标语音中一个文本单元的语音对应的多帧特征；将多帧特征进行融合，得到每个文本单元的语音对应的目标特征；根据多个目标特征，通过任务网络，执行下游任务。本申请通过把语音的特征按照文本单元的粒度进行划分，进而可以将语音和文本对齐到相同的序列长度，从而减少两个模态之间的表示差异，从而可以提高语音‑文本的跨模态的下游任务的处理精度。

噪声生成模型训练方法、装置、设备及介质-202210614008.1
发明人：高长胜;何金鑫;付振;王明月;王紫烟;孙宇嘉;梁小明;袁鲁峰 -专利权人：中国第一汽车股份有限公司
申请日： 2022-05-31 - 公布日： 2023-05-02 - 主分类号： G10L25/27
摘要：本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括：获取预设时间步长的参考噪声数据和期望噪声类别；将参考噪声数据和期望噪声类别输入至预设的噪声生成模型，以根据预设时间步长和期望噪声类别，生成期望类别特征，并提取参考噪声数据中的预测噪声特征，且根据期望类别特征和预测噪声特征，生成预设时间步长对应未来时刻的未来噪声数据；根据未来时刻的标准噪声数据和未来噪声数据，调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度，以及实现了对车辆行驶过程中噪声场景的全面覆盖。

一种利用声带建模反演的嗓音分类方法-201810824379.6
发明人：孙宝印;陶智;陈莉媛;张晓俊;吴迪;肖仲喆 -专利权人：苏州大学
申请日： 2018-07-25 - 公布日： 2023-04-28 - 主分类号： G10L25/27
摘要：本发明公开了一种利用声带建模反演的嗓音分类方法，从发声机理角度对各类语音进行有效区分。本发明主要利用复倒谱相位分解获得实际嗓音声门波作为目标声门波，采用优化算法通过匹配目标和模型声门波特征参数进行声带动力学模型反演操作，选取正常嗓音与特殊嗓音进行识别分类，有较好的准确率。本发明在输入实际语音信号后，提取实际声门波为目标，采用遗传算法进行反演对原有模型进行优化，从而模拟出不同嗓音发声时的声带振动情况。实验结果表明，模型反演后各特征参数匹配相对误差不超过1.95%，反演效果良好。选取正常嗓音与特殊嗓音进行识别分析，有较高的准确率。

一种车载音频微服务通信方法、系统、装置和车辆-202211549976.5
发明人：王垚 -专利权人：中国第一汽车股份有限公司
申请日： 2022-12-05 - 公布日： 2023-04-25 - 主分类号： G10L25/27
摘要：本发明提供一种车载音频微服务通信方法，包括音频微服务会话管理模块、音频微服务识别加载模块、音频微服务会话控制器、音频微服务会话浏览器、音频微服务适配器和若干音频微服务；音频微服务会话管理模块用于维护和管理各音频微服务生命周期，包括激活状态和音频焦点状态；音频微服务识别加载模块，用于识别各音频微服务在清单文件中定义的意图过滤器；音频微服务会话控制器，用于对外部调用者提供音频播放控制功能；音频微服务会话浏览器，用于对外部调用者提供音频数据浏览功能；音频微服务适配器，用于对各种音频应用开发提供适配开发的模版；音频微服务，提供音频微服务适配器对应的接口。本发明融合并集成多种音频资源。

一种三维音频信号的处理方法和装置-202110602507.4
发明人：高原;刘帅;王宾;王喆;曲天书;徐佳浩 -专利权人：华为技术有限公司;北京大学
申请日： 2021-05-31 - 公布日： 2023-04-07 - 主分类号： G10L25/27
摘要：本申请实施例公开了一种三维音频信号的处理方法和装置，用于实现对三维音频信号的声场分类，从而可以准确识别三维音频信号。本申请实施例提供一种三维音频信号的处理方法，包括：对三维音频信号的当前帧进行线性分解，以得到线性分解结果；根据所述线性分解结果获取所述当前帧对应的声场分类参数；根据所述声场分类参数确定所述当前帧的声场分类结果。

基于变声识别的反诈预警方法、装置、电子设备及介质-202211364571.4
发明人：钟瑞春 -专利权人：未鲲（上海）科技服务有限公司
申请日： 2022-11-02 - 公布日： 2023-04-04 - 主分类号： G10L25/27
摘要：本发明涉及人工智能领域，揭露一种基于变声识别的反诈预警方法、装置、电子设备及存储介质，所述方法包括：获取参考音频数据，提取参考音频数据中的参考音频参数；采集并解析陌生通话发起方的目标音频数据，得到目标音频参数，并根据目标音频参数，计算目标音频数据的混响评分；当混响评分不大于第一预设分值时，对目标音频数据进行分频，得到目标音频分频音段，并计算目标音频数据的均衡评分；当均衡评分不大于第二预设分值时，匹配目标音频参数与参考音频参数，得到匹配评分；加权混响评分、均衡评分及匹配评分，得到累加评分；当累加评分不大于第三预设分值时，判定目标音频数据没有进行变声处理。本发明可以提高目标音频变声识别的准确率。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]呼吸音检测方法、装置和电子设备有效

专利文献下载