[发明专利]一种基于语音信号处理的语音分离办法有效

专利信息
申请号: 201910542125.X 申请日: 2019-06-21
公开(公告)号: CN110310658B 公开(公告)日: 2021-11-30
发明(设计)人: 廖旭;黄沁鹏;冯振邦 申请(专利权)人: 桂林电子科技大学
主分类号: G10L21/0308 分类号: G10L21/0308
代理公司: 北京中济纬天专利代理有限公司 11429 代理人: 石燕妮
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于语音信号处理的语音分离办法,解决的是分离度低的技术问题,通过采用步骤一,定义混合语音信号,步骤二,将混合语音信号通过多通道的伽马通滤波器组,使用自回归与移动平均模型来平滑特征的时间轨迹,步骤三,建立深度神经网络,特征与该特征相邻帧的特征组合为一个标定组,输出标定组预测结果;步骤四,计算语音分离结果的质量评价因子,根据质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在则转入步骤五,否则退出去模糊进程,语音分离结果为最终纯净语音;步骤五,依据能量最小化准则计算模糊核函数,据能量最小化准则计算最优纯净语音,迭代的技术方案,较好的解决了该问题,可用于语音分离中。
搜索关键词: 一种 基于 语音 信号 处理 分离 办法
【主权项】:
1.一种基于语音信号处理的语音分离办法,其特征在于:所述基于语音信号处理的语音分离办法包括:步骤一,定义混合语音信号为y(t)=x(t)+n(t)x(t)=y(t)*ρ(t);其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:其中,C(t)是第t帧的特征向量,是滤波后的特征向量,m是伽马通滤波器组中伽马通滤波器的阶数;步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;步骤五,根据g(x,y)=y(t)*k(x,y),依据能量最小化准则计算模糊核函数为步骤六,定义当前模糊核函数k(x,y)为已知,依据能量最小化准则计算最优纯净语音步骤七,将最优纯净语音定义为y(t),转到步骤一。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910542125.X/,转载请声明来源钻瓜专利网。

同类专利
  • 音频干声提取方法、装置、设备、存储介质及程序产品-202310596004.X
  • 顾容之;罗艺 - 腾讯科技(深圳)有限公司
  • 2023-05-24 - 2023-10-27 - G10L21/0308
  • 本申请公开了一种音频干声提取方法、装置、设备、存储介质及程序产品,涉及音频处理领域。该方法包括:获取样本干声信号;向所述样本干声信号增加混响效果,得到样本混合信号;通过候选干声提取系统对所述样本混合信号进行干声提取,得到干声提取信号,所述干声提取信号是对所述样本混合信号中属于人声的音频进行去混响得到的干声音频信号;基于所述干声提取信号和所述样本干声信号之间的差异确定预测损失值,并基于所述预测损失值对所述候选干声提取系统进行训练,得到目标干声提取系统,所述目标干声提取系统用于对音频信号进行干声提取得到所述音频信号中的干声信号,改善了干声提取系统的泛化性,降低了干声提取过程的难度和成本。
  • 基于多说话人语音检测的语音分离方法-202310982218.0
  • 余吉昌;明德;詹楚伟;朱正辉 - 广东保伦电子股份有限公司
  • 2023-08-04 - 2023-10-24 - G10L21/0308
  • 本发明涉及一种基于多说话人语音检测的语音分离方法,本发明通过将获取的多说话人语音频谱根据其稳定度划分为若干个单人语音频谱段,并以单人语音频谱段为基准,对存有的多人语音频谱段进行对比分析,并结合单人语音频谱段的音调,音色和响度对语音频谱进行深度分析,最后将分析出的单人音频谱转化为说话人语音,通过对语音频谱的逐级识别,保证了分离语音的准确性,提高分离后语音内容的完整性和清晰度。
  • 可在会议中实时注册声纹的声纹分离方法-202310970784.X
  • 余吉昌;赵定金;张常华 - 广东保伦电子股份有限公司
  • 2023-08-03 - 2023-10-03 - G10L21/0308
  • 本发明涉及声纹识别技术领域,尤其涉及一种可在会议中实时注册声纹的声纹分离方法,包括:步骤S1,会议开始后接收各发言人的音频;步骤S2,将发言人的音频声纹与语言引擎中的声纹进行比对;步骤S3,如发言人已存在于引擎中则直接推送该发言人的名称;步骤S4,如未存在于引擎中则对该发言人的音频声纹进行声纹分析和注册;步骤S5,注册完成后语言引擎识别到对应的声纹则会显示该发言人声纹注册的名称。本方法能够在会议进行时,根据发言人的短暂发言完成声纹的注册,操作简洁明了,有效提升了会议中语音转写的用户体验和声纹功能的使用率。
  • 语音对象分离方法、装置、终端设备及云服务器-202310588293.9
  • 李光正;张志飞;徐杨飞;马泽君 - 北京有竹居网络技术有限公司
  • 2023-05-23 - 2023-08-08 - G10L21/0308
  • 本公开实施例涉及一种语音对象分离方法、装置、终端设备及云服务器,该方法包括:获取原始语音数据;对原始语音数据进行信号检测,获取至少两个语音片段;分别提取至少两个语音片段中每一个语音片段对应的相干散射能量比;基于每一个语音片段对应的相干散射能量比,将至少两个语音片段进行二分类处理,获取与目标对象对应的语音片段,以及除目标对象之外的其他语音对象对应的语音片段。通过该方式分离属于目标对象的语音片段时,无需使用语音识别算法和意图识别算法,自然也就会大大降低语音对象分离方法的复杂度,提高识别精度。
  • 基于欧氏距离和变分模态分解算法的单通道盲源分离方法-202310390401.1
  • 张揽月;胡雪茹;胡博 - 哈尔滨工程大学
  • 2023-04-12 - 2023-07-14 - G10L21/0308
  • 本发明公开了一种基于欧氏距离和变分模态分解算法的单通道盲源分离方法,属于信号处理技术领域,该方法利用变分模态分解方法对混合观测信号分解成两个模态;计算其与观测信号的欧氏距离并取均值,计算欧氏距离较小的模态的能量,作为参照值;构建基于欧氏距离和能量值的循环体,在循环体内,判定源信号数目,并在一定程度上去除观测信号的噪声。本发明的优点是通过自动判决源信号的数目,解决了变分模态分解算法需要事先确定模态值的问题,以及基于反馈变分模态分解的单通道盲源分离算法对存在三个以上单频源信号的混合信号,源数目估计失败的问题,并且该算法在低信噪比条件下也能有效的实现单通道盲源分离。
  • 语音检测方法、装置、终端设备及存储介质-202310315485.2
  • 侯天峰 - 南京歌尔声学科技有限公司
  • 2023-03-28 - 2023-06-30 - G10L21/0308
  • 本发明公开了一种语音检测方法、装置、终端设备以及计算机可读存储介质,该方法通过对原始音频信号进行分帧处理,得到各分帧信号;计算各分帧信号各自的能量梯度因子,其中,能量梯度因子为分帧信号的各频点中相邻两频点之间的能量梯度的总和;确定各分帧信号中的目标分帧信号对应的目标能量梯度因子阈值;在目标分帧信号的能量梯度因子大于或者等于目标能量梯度因子阈值时,确定目标分帧信号为语音信号。本发明实现了通过提供一种利用信号的频域梯度信息为特征进行语音检测的方案,以提高VAD算法在噪声场景下的稳定性。
  • 一种雨声信号降噪处理方法和系统-201910566197.8
  • 行鸿彦;吴佳佳 - 南京信息工程大学
  • 2019-06-27 - 2023-06-30 - G10L21/0308
  • 本发明公开了一种雨声信号降噪处理方法,包括:采集降雨时的实时声音信号,实时声音信号中至少包括实时雨声信号;基于从混合声音信号中剔除实时第一环境音信号、实时第二环境音信号的雨声分离子系统,从实时声音信号中分离出不含环境音信号的雨声信号;所述环境音信号包括第一环境音信号和第二环境音信号。本发明采用独立成分分析算法(ICA)中的固定点算法(FastICA)算法,创建雨声分离子系统,优化分离矩阵参数,将降雨时的实时声音信号导入雨声分离子系统,剔除环境音信号,导出较为纯净的雨声信号,再根据导出的雨声信号频谱判断雨量等级。
  • 一种Circle-Doppler-let变换方式和声源分离方法-202310120976.1
  • 刘方;刘自想;黄明涛;朱子豪;赵新航;许一凡;杨韬;刘永斌 - 安徽大学;脉谱智能(合肥)有限公司;安徽智寰科技有限公司
  • 2023-02-16 - 2023-06-23 - G10L21/0308
  • 本发明属于运动声源分离技术领域,具体涉及一种Circle‑Doppler‑let变换方式和声源分离方法,包括以下步骤:Circle‑Doppler‑let变换方式包括:S1:构建圆周运动模型,设定相关参数,并对参数进行划分以得到参数集;S2:基于参数集进行时频调整以生成Circle‑Doppler‑let函数库Function1;S3:采集声音信号x(t),使用匹配追踪算法和Function1对声音信号x(t)进行稀疏表示,进行内积运算求出最大内积的基函数,迭代后得到基函数库Function2;声源分离方法包括筛选基函数库Function2中符合筛选区间要求的基函数并进行储存以得到Function3,再将Function3中的基函数线性组合则得到重构信号x1(t)。本发明提出了一种Circle‑Doppler‑let变换,可运用于圆周运动声源的稀疏表示和声源分离。相比于现有技术,带内噪声分离能力更强;仅需单个麦克风,使用成本低。
  • 混音环境中的端到端目标声信号提取方法及系统-202310074334.2
  • 余永升;章林柯;宋鹏 - 海纳科德(湖北)科技有限公司
  • 2023-02-07 - 2023-04-28 - G10L21/0308
  • 本发明提供一种混音环境中的端到端目标声信号提取方法及系统,包括:S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。本发明中端到端目标声信号抽取模型无需预处理、推理时间短,在不同的音频类别时鲁棒性较好。
  • 基于多说话人语音检测的语音分离方法、系统和电子设备-202211695785.X
  • 钱彦旻;余林峰;张王优;李晨达 - 思必驰科技股份有限公司
  • 2022-12-28 - 2023-04-07 - G10L21/0308
  • 本发明实施例提供一种基于多说话人语音检测的语音分离方法、系统和电子设备。该方法包括:对包含多个说话人的混合语音进行重叠语音检测,得到多说话人重叠语音段和单说话人非重叠语音段在混合语音中各自对应的时间区间;将与多说话人重叠语音段时间区间相邻的单说话人非重叠语音段确定为多说话人重叠语音段相对应的辅助语音段,将多说话人重叠语音段以及相对应的辅助语音段输入至引导式语音分离模型;利用引导式语音分离模型分离出的多条无重叠语音。本发明实施例解决长语音分离任务中排列问题,并且引导式语音分离模型只处理多人语音,在相对较低的计算量的基础上,提升了语音分离的性能。
  • 一种目标说话人分离系统、设备及存储介质-202210602186.2
  • 许家铭;崔鉴;徐波 - 中国科学院自动化研究所
  • 2022-05-30 - 2023-03-17 - G10L21/0308
  • 本发明提供一种目标说话人分离系统、电子设备及存储介质,系统包括:首先基于掩蔽的预训练策略对多种线索进行联合统一建模,提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离‑再混合”的无监督学习融入到线索驱动目标说话人分离框架下,提升系统在真实嘈杂环境下的自适应能力。
  • 基于声纹特征的语音分离方法-202210836543.1
  • 杜军朝;刘惠;王乾;魏昱恒;潘江涛;于英涛 - 西安电子科技大学
  • 2022-07-15 - 2022-10-25 - G10L21/0308
  • 本发明提出了一种基于声纹特征的语音分离方法,实现步骤为:获取训练样本集和测试样本集;构建基于声纹信息的语音分离模型;对语音分离模型进行迭代训练;获取语音分离结果。本发明所构建的语音分离模型包括有Conv‑TasNet模型,在对语音分离模型进行训练以及获取语音分离结果的过程中,采用FiLM‑DCTasNet融合算法对每对混合音频编码和声纹特征向量进行掩码计算,使得分离网络可以多次融入目标说话人的声纹特征,同时使用Conv‑TasNet模型中的分离网络进行掩码计算,有效提高了分离后音频信号的信号失真比和分离效率。
  • 语音分离模型训练方法、装置、存储介质和计算机设备-202010013978.7
  • 王珺;林永业;苏丹;俞栋 - 腾讯科技(深圳)有限公司
  • 2020-01-07 - 2022-07-19 - G10L21/0308
  • 本申请涉及一种语音分离模型训练方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取第一音频和第二音频;第一音频中包括目标音频且对应存在标注音频;第二音频中包括噪声音频;获取编码模型和提取模型,以及初始的估算模型;根据第二音频对编码模型、提取模型和估算模型进行无监督训练,调整提取模型和估算模型的模型参数;根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练,调整编码模型的模型参数;继续进行无监督训练和有监督训练,以使无监督训练和有监督训练交迭进行,直至满足训练停止条件时结束训练。本申请提供的方案可以实现降低模型训练成本。
  • 音响处理方法及音响处理系统-202080064954.2
  • 水野贺文;高桥祐;近藤多伸;石塚健治 - 雅马哈株式会社
  • 2020-09-23 - 2022-04-26 - G10L21/0308
  • 音响处理系统取得包含第1观测包络线及第2观测包络线的多个观测包络线,该第1观测包络线表示通过第1声源附近的拾音而生成的、包含来自所述第1声源的第1目标音和来自第2声源的第2溢出音的第1声音信号的轮廓,该第2观测包络线表示通过第2声源附近的拾音而生成的、包含来自所述第2声源的第2目标音和来自所述第1声源的第1溢出音的第2声音信号的轮廓,利用包含所述第1声音信号的所述第2溢出音的混合比及所述第2声音信号的所述第1溢出音的混合比的混合矩阵,根据所述多个观测包络线而生成包含第1输出包络线和第2输出包络线的多个输出包络线,该第1输出包络线表示所述第1观测包络线的所述第1目标音的轮廓,该第2输出包络线表示所述第2观测包络线的所述第2目标音的轮廓。
  • 一种参会者语音的确定方法、装置、电子设备及存储介质-202210046017.5
  • 史王雷;王秋明 - 北京远鉴信息技术有限公司
  • 2022-01-17 - 2022-04-12 - G10L21/0308
  • 本申请提供了一种参会者语音的确定方法、装置、电子设备及存储介质,方法包括:获取会议期间产生的待分离音频,对待分离音频进行有效语音检测去噪后,确定出包含人声的有效音频;将有效音频输入至预先训练好的语音标签确定模型之中,输出有效音频的参会者标签序列;其中,参会者标签序列中包括多个音频时间以及每个音频时间上对应的参会者标签;参会者标签用来指示对应的音频时间上的说话者;根据参会者标签序列中的每一个音频时间所对应的参会者标签信息,确定在有效语音中每个时间节点对应的参会者信息;基于有效语音中每个时间节点对应的参会者信息,对有效音频进行语音分离,确定出每一参会者的多条语音,提高了语音确定的效率以及准确性。
  • 声音分离方法和装置、电子设备-201910782828.X
  • 徐旭东;戴勃;林达华 - 北京市商汤科技开发有限公司
  • 2019-08-23 - 2022-02-25 - G10L21/0308
  • 本公开实施例提供一种声音分离方法和装置、电子设备,其中方法包括:获取输入声音频谱,所述输入声音频谱中包括对应于多种声源的声音频谱;对所述输入声音频谱进行频谱分离处理,由所述输入声音频谱中分离出预测声音频谱;从所述输入声音频谱中去除所述预测声音频谱,得到更新后的输入声音频谱;通过所述更新后的输入声音频谱,继续获得下一个分离的预测声音频谱,直至所述更新后的输入声音频谱未包含声音频谱时,结束迭代。本公开使得网络的泛化能力提升,且声音分离的效果更好。
  • 一种婴儿语音基频高精度提取方法、装置及计算机设备-202110487291.1
  • 张茜 - 张茜
  • 2021-05-05 - 2022-02-15 - G10L21/0308
  • 本发明涉及婴儿语音基频高精度提取方法、装置,包括获取婴儿语音数据,按照预设语音分帧处理策略对婴儿语音数据进行分帧处理,获得若干帧时域上的分帧婴儿语音数据;将时域上的分帧婴儿语音数据进行快速傅里叶变换后取绝对值,获得频域上的分帧婴儿语音数据;将频域上的分帧婴儿语音数据划分为对称的第一部分及第二部分,将第一部分或第二部分定义为数组Z,根据预设计算策略对数组Z取对数,记为Zlog;计算Zlog的自相关系数,根据Zlog的自相关系数获取婴儿语音数据的语音基频。本发明提供的婴儿语音基频高精度提取方法、装置,将婴儿语音数据进行分帧、转换为频域,取对数之后进行自相关系数计算,从而大大提高计算精度。
  • 声音信号处理系统-201710690196.5
  • 孙庆华;高岛辽一;藤冈拓也 - 株式会社日立制作所
  • 2017-08-14 - 2022-01-07 - G10L21/0308
  • 本发明涉及声音信号处理系统及装置,有效地分离从多个设备各自的扬声器发出的声响。一种声音信号处理系统,具备声音信号处理装置和多个设备,所述多个设备之中的第一设备与麦克风连接,将麦克风输入信号输出至所述声音信号处理装置,所述多个设备之中的第二设备与扬声器连接,将与输出至所述扬声器的信号相同的扬声器输出信号输出至所述声音信号处理装置,所述声音信号处理装置使所述麦克风输入信号所包含的波形与所述扬声器输出信号所包含的波形同步,从所述麦克风输入信号所包含的波形中,去除所述扬声器输出信号所包含的波形。
  • 一种基于语音信号处理的语音分离办法-201910542125.X
  • 廖旭;黄沁鹏;冯振邦 - 桂林电子科技大学
  • 2019-06-21 - 2021-11-30 - G10L21/0308
  • 本发明涉及一种基于语音信号处理的语音分离办法,解决的是分离度低的技术问题,通过采用步骤一,定义混合语音信号,步骤二,将混合语音信号通过多通道的伽马通滤波器组,使用自回归与移动平均模型来平滑特征的时间轨迹,步骤三,建立深度神经网络,特征与该特征相邻帧的特征组合为一个标定组,输出标定组预测结果;步骤四,计算语音分离结果的质量评价因子,根据质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在则转入步骤五,否则退出去模糊进程,语音分离结果为最终纯净语音;步骤五,依据能量最小化准则计算模糊核函数,据能量最小化准则计算最优纯净语音,迭代的技术方案,较好的解决了该问题,可用于语音分离中。
  • 一种消除语音回声的方法、装置及计算机可读介质-202110536987.9
  • 曹亚曦;许磊 - 浙江华创视讯科技有限公司
  • 2021-05-18 - 2021-08-03 - G10L21/0308
  • 本发明公开了一种消除语音回声的方法、装置及计算机可读介质,属于人工智能技术领域。该方法包括:获取待测语音信号序列,待测语音信号序列包括多个连续的语音信号,语音信号中携带语音信号生成的时间点;利用语音回声分类模型对待测语音信号序列进行预测,得到回声起始时间点和回声结束时间点;基于回声起始时间点和回声结束时间点,从待测语音信号序列中移除从回声起始时间点到回声结束时间点的多个语音信号,生成无回声的语音信号序列。由此,能够有效消除语音信号序列中的语音回声;而且,本发明实施例消除语音的方法支持多种语音场景,具有普适性,因此解决了现有技术中采用硬件方式消除回声导致成本高,以及软件方式不具有普适性的问题。
  • 语音信号生成模型训练方法、回声消除方法和装置及设备-202110295525.2
  • 吴俊;冯大航;陈孝良 - 北京声智科技有限公司
  • 2021-03-19 - 2021-07-06 - G10L21/0308
  • 本申请公开了一种语音信号生成模型训练方法、回声消除方法和装置及设备,该方法包括:获取语音信号样本和对应的理想语音信号样本;将所述语音信号样本输入到语音信号生成模型,以输出对应的理想语音信号样本为目标,对所述语音信号生成模型进行参数调整;将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型;利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率;根据预测结果确定所述理想语音预测信号的质量类别,并根据识别的质量类别调整所述语音信号生成模型的模型参数。以此解决现有非线性回声消除时拟合理想IRM导致分类结果不是很准确,回声消除结果不理想的问题。
  • 一种骨传导设备的语音处理方法、装置及介质-202010954775.8
  • 朱宗霞;安康;吴劼;舒开发;韩菲菲;杨征;李钉云 - 歌尔科技有限公司
  • 2020-09-11 - 2020-12-01 - G10L21/0308
  • 本申请公开了一种骨传导设备的语音处理方法、装置及介质,该方法包括:通过骨传导麦克风和气导麦克风在同一语音测试环境下采集得到第一测试语音信号和第二测试语音信号,确定对应的目标传递函数,得到初始语音信号后,再根据目标传递函数将初始语音信号合成为目标语音信号。应用于以上技术方案,仅使用一个骨传导麦克风即可实现全频段的语音信号的采集,无需增加麦克风进行高频衰减的补偿,故降低了硬件成本,且降低了对骨传导设备的内部空间占用,有利于产品的小型化。此外,由于合成过程中,仅仅使用到目标传递函数,故可以方便地将该函数写入到骨传导设备的算法逻辑中,通用性和可移植性较好。最后,低频部分依然保留隐私通话和降噪的优点。
  • 一种基于支持向量机的双耳语音分离方法-201711443394.8
  • 周琳;庄琰;王立杰;李楠 - 东南大学
  • 2017-12-27 - 2020-11-20 - G10L21/0308
  • 本发明公布了一种基于支持向量机的双耳语音分离方法,该方法首先将双耳声信号经过Gammatone滤波器后,提取各个子带声信号的耳间时间差ITD和参数耳间强度差IID;在训练阶段,将包含两个声源的纯净混合双耳声信号提取的子带ITD、IID参数作为支持向量机SVM的输入特征,训练得到每个子带的SVM分类器,在测试阶段,在混响和噪声环境下,对包含两个声源的测试混合双耳声信号提取子带特征,利用各个子带的SVM分类器,对各个子带的特征参数进行分类,从而完成对混合语音中各个声源的分离。本发明基于支持向量机模型的分类能力,实现了复杂声学环境下鲁棒的双耳语音分离,同时有效解决了频点数据丢失的问题。
  • 基于环境声分离的车载语音提取方法及系统-202010087309.4
  • 沈希忠;刘爽 - 上海应用技术大学
  • 2020-02-11 - 2020-06-26 - G10L21/0308
  • 本发明提供了一种基于环境声分离的车载语音提取方法及系统,包括如下步骤:将预处理后的待分解声音信号进行分解生成多个本征模态函数分量;将所述本征模态函数分量与多个声源对应的原始声音信号进行关联,所述原始声音信号包括语音;将多个与所述语音相关联的本征模态函数分量进行重构生成目标语音信号。本发明中通过将声音信号进行分解生成多个本征模态函数分量,然后多个声源对应的原始声音信号进行关联,经与所述语音相关联的本征模态函数分量进行重构生成目标语音信号,从而实现语音的准确分离。
  • 一种基于深度学习的单通道语音分离方法-201811521436.X
  • 秦岭;贾真;杨小健 - 南京工业大学
  • 2018-12-08 - 2020-06-16 - G10L21/0308
  • 本发明提供了一种基于深度学习的语音分离方法:对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集;通过短时傅里叶变换将得到的时域信号分解成二维的时频信号;提取时频单元级别的听觉特征短时傅里叶对数能量谱,并进行归一化;利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。将提取出的特征作为模型的输入,选定的分离目标作为模型的训练目标,进行深层模型的训练。利用得到的估计的分离目标以及产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
  • 一种双讲状态检测方法及装置-201810497070.0
  • 周舒然;李志飞 - 出门问问信息科技有限公司
  • 2018-05-22 - 2020-06-16 - G10L21/0308
  • 本发明提供了一种双讲状态检测方法及装置,该双讲状态检测方法包括:获取参考信号、近端信号以及残余回声信号;其中,所述参考信号、所述近端信号以及所述残余回声信号的频率均在预设的第一频率范围内;确定所述近端信号与所述参考信号之间的第一相关系数;确定所述近端信号与所述残余回声信号之间的第二相关系数;根据所述第一相关系数以及所述第二相关系数判断是否处于双讲状态。因此,本发明提供的方案可以快速的检测出是否处于双讲状态。
  • 基于反馈变分模式分解的单通道盲源分离方法-201710156644.3
  • 强芳芳;赵知劲;黄艳波;杨安锋;尹辉;张笑菲;毛翊君 - 杭州电子科技大学
  • 2017-03-16 - 2020-05-26 - G10L21/0308
  • 本发明公开了一种基于反馈变分模式分解的单通道盲源分离方法。本发明首先假定模态数目为两个并初始化源信号个数,利用变分模式分解方法对观测信号进行分解,得到相应的模式分量;其次,计算两个模式分量与观测信号的相似系数,并选取较大相似系数对应的模式分量;将选出的模式分量反馈到变分模式分解输入端,即观测信号减去该模式分量,更新待分解信号;重复以上的反馈和分解步骤,直到当前分解得到的两个模式分量与观测信号的相似系数的最大值小于前一次分解得到的相似系数的最小值。本发明针对模态数目不确定的情况,将反馈机制引入变分模式分解算法中,自动确定源信号数目并很好得实现了单通道混合信号的盲分离。
  • 基于麦克风的音频处理方法和装置-201710539306.8
  • 黄大伟;李虹辰 - 北京中瑞智科技有限公司
  • 2017-07-04 - 2020-03-31 - G10L21/0308
  • 本发明提供一种基于麦克风的音频处理方法和装置,其中,该方法包括:获取每一个麦克风在同一时间内所采集的音频;根据每一个麦克风在同一时间内所采集的音频,分别确定每一个麦克风所采集的音频的音频变化量;确定音频变化量属于预设范围的音频,为待进行音频处理的音频。在多个麦克风同时分别采集音频时,对多个麦克风在同一时间内所采集的音频分析,确定出后续需要进行处理的音频,进而提取出一路音频;从而在多个麦克风同时开着进行收音的时候,麦克风发生串音时,对多个麦克风所采集的音频进行分析,确定出哪一个是当前需要收音的麦克风所采集的音频,该音频为待进行音频处理的音频,可以对待进行音频处理的音频进行播放、语音识别等处理。
  • 一种基于DFT的双通道语声分离方法-201710287632.4
  • 叶晨;陈建清;陈适宜 - 同济大学
  • 2017-04-27 - 2020-03-24 - G10L21/0308
  • 本发明涉及一种基于DFT的双通道语声分离方法,包括以下步骤:S1,分别对左声道和右声道的时域信号序列分片,进行DFT变换,得到左声道和右声道的频域信号序列;S2,获取左、右声道背景音乐分量之间的夹角条件,以及语声分量与频点信号之间的夹角条件,将语声和音乐分离;S3,对步骤S2得到的结果进行DFT反变换,得到语声和音乐分离后的左声道和右声道的时域信号。与现有技术相比,本发明通过利用分片的离散傅里叶变换,可以将背景音乐和语声有效分离;考虑拾音系统的角度范围和拾音系统两通道之间的距离,确定了不同的相差条件,从而使计算结果更加准确;对得到的最后结果进行滤波,滤除不必要的噪声,可应用于K歌类型的手机应用程序中。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top