[发明专利]一种音频场景分类方法及装置在审
申请号: | 202310253815.X | 申请日: | 2023-03-16 |
公开(公告)号: | CN116469415A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 杨立东;岳任博;郭勇 | 申请(专利权)人: | 内蒙古科技大学 |
主分类号: | G10L25/48 | 分类号: | G10L25/48;G06F18/241;G06N3/08;G06N3/0464;G10L25/24;G10L25/18;G10L25/21 |
代理公司: | 内蒙古达尔知识产权代理事务所(普通合伙) 15113 | 代理人: | 张亚伟 |
地址: | 014010 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及音频信号处理技术领域,具体涉及一种音频场景分类方法及装置,本发明使用Tucker分解与张量回归的音频分类模型,该模型首先对log‑mel数据增强扩充数据集;利用tucker分解降低卷积权重的冗余度,使数据可以更加有效、直观的进行训练和特征提取;利用空间可分离卷积减少计算量和计算复杂度,加快网络的运行速度;之后利用张量回归层替代传统的全连接层,保留数据本身的多模式结构,同时降低了参数量。解决了传统卷积神经网络冗余度和参数量高、数据特征不够直观有效和丢失多模式结构信息等问题,以此提高音频场景分类的准确性。 | ||
搜索关键词: | 一种 音频 场景 分类 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古科技大学,未经内蒙古科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310253815.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种预锂化负极极片及锂离子电池
- 下一篇:基于数字化信息网络的舞台安全系统
- 同类专利
- 一种发声状态的检测方法、装置、电子设备及存储介质-202211137187.0
- 王贺;张贵生;周骏华;陈民;程宝平 - 中移(杭州)信息技术有限公司;中国移动通信集团有限公司
- 2022-09-19 - 2023-10-27 - G10L25/48
- 本申请提供一种发声状态的检测方法,所述方法包括:获取在同一时间通过第一麦克风采集的第一音频信号和通过第二麦克风采集的第二音频信号;其中,所述第一音频信号和所述第二音频信号中均包括远端声音的回声信号以及近端声音信号;所述第一麦克风与扬声器的第一距离小于所述第二麦克风与所述扬声器的第二距离;基于所述第一音频信号的第一能量、所述第二音频信号的第二能量和所述回声信号的第三能量确定设备的当前发声状态。可以避免环境噪声以及信号延时估计不准的问题,提高了设备发声状态的检测效果和回声消除效果。
- 一种养老护理员的语音模拟训练系统-201710051203.7
- 孟宪超;高迟;于耕农;王琳;刘琳琳;徐希晨;徐延华;李俊海 - 山东德润养老护理培训有限公司
- 2017-01-23 - 2023-10-20 - G10L25/48
- 本发明实施例公开了一种养老护理员的语音模拟训练系统,所述系统设置在人体训练模型中;所述系统包括:存储单元、控制单元和播放单元;其中,所述存储单元,用于预先存储多种语音数据;所述控制单元,用于检测到第一控制指令,基于所述第一控制指令选择所述存储单元中存储的、与所述第一控制指令相对应的第一语音数据,将所述第一语音数据发送至所述播放单元;所述播放单元,用于播放所述第一语音数据;其中,所述多种语音播放数据包括多种训练场景下的语音数据,且所述多种语音播放数据的内容与设置的人体训练模型的属性参数相关联。
- 一种鲸类信号重叠分量的方向脊线预测追踪方法及系统-202310271243.8
- 苗永春;荆素岩;李迎松 - 安徽大学
- 2023-03-20 - 2023-10-13 - G10L25/48
- 本申请公开了一种鲸类信号重叠分量的方向脊线预测追踪方法及系统,方法包括:采集鲸类信号并获得鲸类信号的时频谱,基于时频谱构建瞬时旋转方向算子模型得到瞬时旋转算子;用线性调频信号表示鲸类信号对线性调频信号进行二阶泰勒公式展开,得到二阶信号模型,并计算其短时傅里叶变换;基于短时傅里叶变换关于时间的偏导得到瞬时频率重排算子,基于短时傅里叶变换关于频率的偏导和时移得到群延迟重排算子;基于瞬时频率重排算子和群延迟重排算子构建瞬时频率估计模型;基于瞬时旋转算子和瞬时频率估计模型计算脊线瞬时方向角,得到脊线时频点,利用变频带宽函数惩罚项对脊线时频点进行约束校正,得到预测时频点;基于预测时频点得到脊线预测结果。
- 一种基于生成对抗网络的海豚叫声生成方法-202311126983.9
- 娄毅;毕守华;周志权 - 哈尔滨工业大学(威海)
- 2023-09-04 - 2023-10-10 - G10L25/48
- 本申请提供了一种基于生成对抗网络的海豚叫声生成方法,其解决了现有海豚叫声数据获取困难的技术问题;包括以下步骤:海豚叫声预处理;构建生成对抗网络,定义损失函数;训练判别器模型、生成器模型;生成海豚叫声;其中,生成对抗网络包括生成器模型、判别器模型;其中,生成对抗网络包括生成器模型、判别器模型。生成器模型损失函数、判别器模型损失函数为本申请设计的。该方法可以有效的生成大量海豚叫声,为海豚声音采集与分析提供了大量数据资源。本申请应用于海豚声音采集与分析的技术领域。
- 一种基于机器学习的实时音频通讯传输恢复方法-202310924537.6
- 童涌 - 南京极域信息科技有限公司
- 2023-07-26 - 2023-09-29 - G10L25/48
- 本发明提供有一种基于机器学习的实时音频通讯传输恢复方法,该实时音频通讯传输恢复方法包括以下步骤:搜集大量应用场景中的音频数据,利用大数据收集与应用场景相关的各种音频数据,构造训练模型,预测音频的下一帧数据,训练出一个预测模型供应用冷启动;在实时音频通讯过程中,不断利用收到的数据进行实时在线更新预测模型,在实时通讯应用中在线训练已有的模型,以目前收到的音频数据为特征,以窗口滑动更新,每次预测下一帧数据;该基于机器学习的实时音频通讯传输恢复方法,利用机器学习实时预测丢失数据,直接填充解码器输出,降低延时,利用通讯场景中的数据在线更新模型,获得更优的预测效果,提升用户体验。
- 音频增益调整方法、装置、存储介质及电子设备-202310736063.2
- 鲁勇;刘波;刘海平;梁健林 - 北京探境科技有限公司
- 2023-06-21 - 2023-09-22 - G10L25/48
- 本申请公开了一种音频增益调整方法、装置、存储介质及电子设备,其中,该音频增益调整方法采用获取当前时间段内符合预设条件且信号值最大的第一音频数据;将第一音频数据的信号值作为第一更新因子对历史音频数据集进行更新,得到当前音频数据集;获取当前音频数据集中信号值最大的第二音频数据;将第二音频数据的信号值作为第二更新因子对历史音频增益进行更新,得到当前音频增益。本方案可以对音频增益进行自适应调整。
- 一种流式语音转换方法、装置、计算机设备及存储介质-201980003317.1
- 谢杰斌;王若童;黄东延;汤志超;刘洋;熊友军 - 深圳市优必选科技股份有限公司
- 2019-12-30 - 2023-09-08 - G10L25/48
- 本发明实施例公开了一种流式语音转换方法、装置、计算机设备及存储介质。所述方法包括:获取待转换语音数据;按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。本发明的流式语音转换方法缩短了响应时间,提高转换速度,在听觉上保证了输出语音的高保真效果。
- 舞蹈动作的生成方法、虚拟人物的控制方法以及电子设备-202310397320.4
- 高鑫;张鹏;胡立;张邦 - 阿里巴巴达摩院(杭州)科技有限公司
- 2023-04-04 - 2023-09-05 - G10L25/48
- 本申请公开了一种舞蹈动作的生成方法、虚拟人物的控制方法以及电子设备。其中,该方法包括:采集目标音乐信息;对目标音乐信息进行特征提取,得到目标音乐信息的全局音乐特征和局部音乐特征,其中,全局音乐特征用于表征目标音乐信息的变化规律,局部音乐特征用于表征目标音乐信息中音乐要素的变化规律;基于全局音乐特征和局部音乐特征,预测得到全局舞蹈特征和局部舞蹈特征;基于全局舞蹈特征和局部舞蹈特征,生成目标音乐信息对应的目标舞蹈动作。本申请解决了相关技术中生成的动作效果较差的技术问题。
- 一种车辆声浪合成方法、装置、存储介质及设备-202310489906.3
- 赵力;夏立勋;马峰;朱志鹏 - 科大讯飞(苏州)科技有限公司
- 2023-05-04 - 2023-08-29 - G10L25/48
- 本申请公开了一种车辆声浪合成方法、装置、存储介质及设备,该方法包括:首先采集目标车辆的发动机控制参数,然后将该参数输入至预先构建的车辆声浪合成模型进行声浪合成处理,得到合成后的声浪,并在目标车辆内播放该合成后的声浪;其中,车辆声浪合成模型包括参数编码层、流模型、解码层。由于本申请是先基于初始化变分自编码器结构、参数变分自编码器结构,以及流模型和解码层的初始化结构,利用预先采集的普通发动机控制参数对预先采集的声浪信号进行重构训练构建了车辆声浪合成模型,提升了模型的合成声浪效果,从而在利用该车辆声浪合成模型对目标车辆的发动机控制参数进行声浪合成时,可以有效提高声浪合成效果,进而提高用户的驾驶体验。
- 一种激光语音侦听多设备联合处理系统及方法-202310599404.6
- 裴林聪;赵伟;康智强;程璟星;谢鹏志;马晨;王晓明 - 中国电子科技集团公司第三十三研究所
- 2023-05-25 - 2023-08-25 - G10L25/48
- 本发明属于激光语音侦听技术领域,具体涉及一种激光语音侦听多设备联合处理系统及方法,包括主拾音装置、第一副拾音装置、第二副拾音装置,所述主拾音装置、第一副拾音装置、第二副拾音装置分别设置在语音侦听目标的四周,所述主拾音装置与第一副拾音装置通过无线连接,所述主拾音装置与第二副拾音装置通过无线连接。本发明以单台主机为处理终端,辅助一到两台副侦测设备进行同步拾音,在主机中对音频样本进行筛选、滤波、混叠、拼接等操作,提高了语音拾取的稳定性和质量,实现了在复杂拾音环境下的光路抗干扰能力,解决了单光路受干扰拾音中断的问题。
- 音频裁剪方法及装置-202310741308.0
- 文博龙;陈海涛;闫影;李娜;李海 - 成都爱奇艺智能创新科技有限公司
- 2023-06-21 - 2023-08-18 - G10L25/48
- 本发明实施例提供了一种音频裁剪方法及装置,依次对第一音频段中的第一子音频段和第二音频段中相同次序的第二子音频段进行匹配,基于未匹配成功的第一子音频段和第二子音频段分别确定待裁剪音频段的起始坐标以及非对齐点坐标,并对非对齐点后的第三子音频段和起始坐标后的一个或多个第四子音频段依次进行匹配,基于匹配成功的第四音频段确定待裁剪音频段的终止坐标,基于待裁剪音频段在第一音频段中的起始坐标和终止坐标定位裁剪第一音频段,能够提升定位音频中的差异音频内容并进行裁剪的效率。
- 一种将天文射电信号转换为音频的系统-201810248608.4
- 郑好;唐敬;叶超峰 - 上海诚唐展览展示有限公司
- 2018-03-24 - 2023-08-18 - G10L25/48
- 一种将天文射电信号转换为音频的系统,该系统包括射电望远镜和射电望远镜控制台,射电望远镜与射电望远镜控制台通过通信线路连接,射电望远镜将射电信号传输至射电望远镜控制台。该系统中还包括天文体验馆射电展项服务器,该服务器位于天文体验馆中,并且与射电望远镜控制台通过通信线路连接。
- 口才表达能力的全面评估与解决方法、系统、装置及介质-202310615468.0
- 李翔;赵璧;刘慧;张龙;方泽军 - 新励成教育科技股份有限公司
- 2023-05-29 - 2023-08-15 - G10L25/48
- 本发明公开了一种口才表达能力的全面评估与解决方法、系统、装置及介质,用于从多维度全面评估表达者的口才表达能力,以及对表达者在口才表达上的不足进行全面的解析和优化,便于表达者更好地提高口才表达能力,该方法包括:采集表达者表达时的生理数据和语音数据;将生理数据和语音数据输入到综合口才评估模型进行识别与评估,获得表达者的第一多维口才表达信息;对第一多维口才表达信息进行全面诊断,获得第一多维口才表达信息对应的评估报告;对第一多维口才表达信息进行不足分析,获得第一多维口才表达信息对应的分析结果;基于评估报告和分析结果,针对性为表达者提供提升口才表达能力的解决方案。
- 语音翻译和模型训练方法、系统和电子设备-202310814909.X
- 孔欧 - 上海蜜度信息技术有限公司
- 2023-07-05 - 2023-08-01 - G10L25/48
- 本申请提供一种语音翻译和模型训练方法、系统和电子设备,所述语音翻译方法包括:输入待翻译源语音;利用训练好的语音翻译模型对待翻译源语音进行处理,以生成目标语音,其中,语音翻译模型为端到端的深度生成模型;输出目标语音。本申请的语音翻译和模型训练方法、系统和电子设备具有处理速度快、资源占用少、适用范围广等优点;可以端到端地将源语音翻译为目标语音,不需要中间的文字转录和翻译操作,大大减少了处理时间和资源消耗;能够实现对于方言、少数民族语言等的准确翻译,不受方言、口音等因素的影响,具有更广泛的普适性;提高了翻译质量和泛化能力;可以自适应地学习和调整模型参数,以适应不同的语音翻译任务和数据集。
- 用于编辑媒体内容的方法和电子设备-201680084755.1
- R·赫勒姆博;O·索恩 - 索尼移动通讯有限公司
- 2016-04-22 - 2023-07-28 - G10L25/48
- 本申请涉及用于编辑媒体内容的方法和电子设备。一种用于编辑媒体内容的设备和方法分析媒体内容以检测媒体内容中的词语。所检测到的词语被转换为文本并存储在文本容器中。改变文本容器内的文本的特性,并且更改媒体内容以与文本容器内的文本的改变后的特性相对应。
- 车辆异响音频数据提取方法、装置、设备及可读存储介质-202310400823.2
- 高小清;张浩;屈少举;周副权;刘浩 - 东风汽车集团股份有限公司
- 2023-04-14 - 2023-07-25 - G10L25/48
- 本申请涉及一种车辆异响音频数据提取方法、装置、设备及可读存储介质,涉及数据处理技术领域,包括对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行MFCC分析,得到每一帧数据对应的MFCC参数序列;基于MFCC参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据。通过本申请,可有效提升异响音频数据的提取效率,并保证异响音频数据的提取质量。
- 污染估算系统-201780015969.8
- A.G.西尼特新;I.C.M.费林森伯格;M.奥恩;L.豪伦德尔斯基 - 昕诺飞控股有限公司
- 2017-02-28 - 2023-07-25 - G10L25/48
- 提供一种用于估算由机动车辆的废气引起的污染水平的污染估算系统(100)。所述系统包含声传感器接口(110),其被布置成从声传感器获得包含机动车辆声音的音频样本的使用数据;及经训练的废气模型单元(120),其被布置成接收所述使用数据的所述音频样本作为输入,且将经训练的废气模型应用至所述所接收的音频样本以产生与所述所接收的音频样本相关联的经估算的污染水平。所述经训练的废气模型已通过使用机器学习算法在多个训练项目上训练废气模型获得,所述多个训练项目包含从一个或多个声传感器获得的机动车辆声音的多个音频样本及相关联的污染水平。
- 一种音频场景分类方法及装置-202310253815.X
- 杨立东;岳任博;郭勇 - 内蒙古科技大学
- 2023-03-16 - 2023-07-21 - G10L25/48
- 本发明涉及音频信号处理技术领域,具体涉及一种音频场景分类方法及装置,本发明使用Tucker分解与张量回归的音频分类模型,该模型首先对log‑mel数据增强扩充数据集;利用tucker分解降低卷积权重的冗余度,使数据可以更加有效、直观的进行训练和特征提取;利用空间可分离卷积减少计算量和计算复杂度,加快网络的运行速度;之后利用张量回归层替代传统的全连接层,保留数据本身的多模式结构,同时降低了参数量。解决了传统卷积神经网络冗余度和参数量高、数据特征不够直观有效和丢失多模式结构信息等问题,以此提高音频场景分类的准确性。
- 一种基于婴儿吞咽声来判断婴儿的吃奶状态的方法和相关产品-202111665213.2
- 请求不公布姓名 - 上海寒武纪信息科技有限公司
- 2021-12-31 - 2023-07-11 - G10L25/48
- 本公开提供一种基于婴儿吞咽声来判断婴儿的吃奶状态的方法和相关产品,其中该方法可以包括在组合处理装置中,该组合处理装置还可以包括通用互联接口和其他处理装置。所述计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与设备和其他处理装置连接,用于存储该设备和其他处理装置的数据。
- 一种风机叶片异常检测方法、装置、计算机及存储介质-202310284862.0
- 由梓默;段瑞龙;王吉超;郑权;史立志;刘畅 - 华能新能源股份有限公司河北分公司
- 2023-03-22 - 2023-07-04 - G10L25/48
- 本发明提供了一种风机叶片异常检测方法、装置、计算机及存储介质,涉及风机异常检测技术领域,其目的是通过简单的声音数据判断声音检测风机叶片故障,有效提升故障检测的效率和准确性,包括在风机叶片的不同运作状态下采集风机叶片的声音,形成多组声音时频图;提取所述声音时频图的声音时频特征矩阵;建立每组声音时频图的声音时频特征矩阵和对应的运作状态的映射关系,形成训练样本;通过所述训练样本对深度神经网络进行训练,构建风机叶片故障分类模型;实时采集风机叶片的声音,形成声音时频图,通过所述故障分类模型识别风机叶片的运作状态。本发明具有风机叶片异常识别快速和准确还可以减少运算量的优点。
- 一种语音增强网络信噪比估计器及损失优化方法-202310200774.8
- 崔立恒;周翊;刘宏清 - 重庆邮电大学
- 2023-03-03 - 2023-06-30 - G10L25/48
- 本发明公开了一种语音增强网络信噪比估计器,包括编码器和解码器,编码器和解码器之间设置有复数运算的CNN、复数LSTM和复数的BN层,编码器包含了复Conv2D层、复BN层和实数PReLU层,LSTM层后设置有1‑D卷积模块,1‑D卷积模块由多个一维卷积层和全连接层交替串行组合,全连接层具有sigmoid函数,信噪比估计器采用了两个一维卷积层和具有sigmoid函数的全连接层串行组合,输入是经过复LSTM计算后的带噪语音信号实部和虚部的拼接,输出为根据公式计算出的帧级先验信噪比,以保持良好的语音质。
- 声压级标定方法、装置、设备、芯片以及存储介质-202310201346.7
- 董晨懿;邢堃;闫钰 - 哲库科技(上海)有限公司
- 2023-03-03 - 2023-06-30 - G10L25/48
- 本申请公开了一种声压级标定方法、装置、设备、芯片以及存储介质,该方法包括确定M条待处理语音段,计算M条待处理语音段各自的第一参数值;若M条待处理语音段中的至少一条待处理语音段的第一参数值不符合第一分布,则对M条待处理语音段进行规整处理,以使规整后得到的N条目标语音段各自的第一参数值符合第二分布;根据第二分布对M条待处理语音段的声压级进行标定,确定目标标定结果。如此,既保持了M条待处理语音段各自第一参数值的多样性,又能够提高声压级标定的准确性。
- 一种异音检测方法、装置和系统-202310161023.X
- 宿元亮;张杰;王乾;铁广朋 - 歌尔股份有限公司
- 2023-02-23 - 2023-06-23 - G10L25/48
- 本申请公开了一种异音检测方法、装置和系统。本申请的方法包括:通过声音采集设备对待测产品的不同位置进行声音采集,获得至少两组声音信号以及每组声音信号对应的采集位置;根据预设算法对所述至少两组声音信号进行异音源方向估计,获得每组声音信号对应的异音源方向估计结果;根据每组声音信号对应的异音源方向估计结果和所述采集位置,获得异音源位置。本申请的技术方案能够快速定位产品的异音源位置,辅助定位产品缺陷。
- 一种基于简谱识别和基频提取的人声旋律提取方法及系统-202010059062.5
- 尹学渊;刘鑫忠;江天宇 - 成都潜在人工智能科技有限公司
- 2020-01-19 - 2023-06-23 - G10L25/48
- 本发明公开了一种基于简谱识别和基频提取的人声旋律提取方法及系统,系统应用该方法,方法包括:将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从单声道音频中分离出人声波形;识别简谱中的音符与歌词对,得到歌词与音符的列表;根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;选择一个音符,根据分离得到的人声波形计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。能够提取音高与旋律匹配的人声旋律。
- 一种语音后门攻击方法及计算机可读存储介质-202310161820.8
- 严迪群;叶哲 - 宁波大学
- 2023-02-21 - 2023-06-13 - G10L25/48
- 本发明涉及一种语音后门攻击方法及计算机可读存储介质,语音后门攻击方法包括:步骤1、将多段定长的语音片段组成干净数据集;步骤2、在干净数据集中选择出部分干净样本,作为投毒样本,生成相对投毒样本无新增噪声数据的触发器,并将触发器混入到投毒样本中,得到后门样本,同时将后门样本的真实标签修改为指定的目标标签;步骤3、将后门样本和干净数据集中除投毒样本以外的其他干净样本共同组成训练集;步骤4、构建目标模型,并使用训练集对构建的目标模型进行训练,得到训练完成后的目标模型,该训练完成后的目标模型即为后门攻击后的目标模型。本发明的优点在于:不会被使用者起疑,起到攻击效果,有很强的隐蔽性。
- 一种适用于发动机音频啸叫识别的图像处理方法-202211655127.8
- 贾亚涛;李芳;曹继民;朱晓天;邹佳烨;刘靖;花巍杰 - 上海新动力汽车科技股份有限公司
- 2022-12-22 - 2023-06-13 - G10L25/48
- 本发明涉及一种适用于发动机音频啸叫识别的图像处理方法,属于汽车NVH技术领域以及计算机视觉领域,其包括以下步骤:步骤1,音频采集;步骤2,短时傅里叶变换,得出colormap图;步骤3,通过otsu方法计算每张colormap的阈值;步骤4,低于阈值的像素归零,高于阈值的像素取值为1;步骤5,深度学习模型搭建;步骤6,模型训练和优化;步骤7,模型评估;步骤8:判断是否符合业务目标,若是则新数据预测,若否则重新训练与优化。本发明能够简单有效高效的判别音频是否合格,来应对产线的情况。
- 一种基于声音识别的煤矿井下探水钻孔监测方法与系统-202310187184.6
- 孙继平;周亚东;王云泉;乔冲;余星辰 - 中国矿业大学(北京);中国中煤能源集团有限公司
- 2023-02-11 - 2023-06-02 - G10L25/48
- 本发明提供了一种基于声音识别的煤矿井下探水钻孔监测方法与系统,本发明通过在煤矿井下探水钻孔上设置声音传感器,采集并监测煤矿井下探水钻孔过程中的声音,通过提取采集声音的声谱图,当监听的声音特征满足设定条件后,进入报警状态。本发明实施简单,可快速准确判断是否存在安全隐患,实现随钻随测,对不符合要求的操作,能够及时制止,严防事故的发生。
- 一种卡路里消耗检测方法、设备及存储介质-202310184670.2
- 江益靓;宗旋;孔令城;姜涛;聂东白;陈永安;孙琦 - 腾讯音乐娱乐科技(深圳)有限公司
- 2023-02-21 - 2023-05-26 - G10L25/48
- 本申请公开了一种卡路里消耗检测方法、设备及存储介质,包括:获取包含目标主体歌唱声音的待检测音频,并对所述待检测音频进行声音特征提取,得到基频序列和响度序列;根据所述基频序列计算音高特征值和有效基频长度,并根据所述响度序列计算响度特征值;利用所述音高特征值、所述有效基频长度及所述响度特征值确定出与所述待检测音频对应的目标主体在歌唱时消耗的卡路里数。本申请能够准确估算出用户在歌唱中的卡路里消耗,增强卡路里计算趣味性,提升用户体验。
- 一种基于多教师模型的弱标签音频事件检测方法及系统-202310074118.8
- 冷严;路安芹;刘祯;刘闯;陈尚睿;潘杰 - 山东师范大学
- 2023-01-18 - 2023-05-23 - G10L25/48
- 本发明属于音频事件检测技术领域,提供了一种基于多教师模型的弱标签音频事件检测方法及系统,包括:获取音频数据;依据音频数据,以及预设的音频事件检测模型,得到检测结果;其中,音频事件检测模型包括第一均值教师模型和第二均值教师模型;通过第一均值教师模型和第二均值教师模型,分别提取音频数据中的全局特征和局部特征,解决了强标签数据收集成本高的问题;再通过门控自适应机制进行特征融合,将全局特征矩阵阵的第一列与融合后的特征进行对齐,得到用于音频事件检测的特征,解决了全局特征与局部特征不能自适应融合的问题。
- 基于跨领域自适应的深度伪造语音检测方法-202211533985.5
- 巴钟杰;温晴;程鹏;王宇炜;林峰;卢立;刘振广;任奎 - 浙江大学嘉兴研究院
- 2022-12-01 - 2023-05-23 - G10L25/48
- 本发明公开了一种基于跨领域自适应的深度伪造语音检测方法及装置,涉及语音检测技术领域。该方法包括:获取跨语种音频数据集;从跨语种音频数据集随机抽取的包含源语种及目标语种真伪音频数据的N个音频数据输入至特征提取器进行音频特征提取;将音频特征分别输入至真伪分类器、语种分类器、差异测量器,计算得到真伪分类损失参数、语种分类损失参数和语种间特征差异损失参数;根据真伪分类损失参数、语种分类损失参数和语种间特征差异损失参数,以减小总损失为优化目标,采用优化算法对神经网络模型进行参数优化及更新;重复上述步骤得到深度伪造语音检测模型,通过该深度伪造语音检测模型可实现对不同语种待测音频数据真伪的精确识别。
- 专利分类