[发明专利]一种轻量化声纹识别方法及系统在审
申请号: | 202310434146.6 | 申请日: | 2023-04-21 |
公开(公告)号: | CN116631409A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 李郡;王啸;游恒;尚德龙;周玉梅 | 申请(专利权)人: | 中科南京智能技术研究院 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/08;G10L17/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210000 江苏省南京市江宁*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种轻量化声纹识别方法及系统,属于声纹识别技术领域,方法包括:根据预获取的训练数据集中音频的质量,构建批次数据;根据所述批次数据和基于检测误差权衡曲线下面积的损失函数,利用预获取的已固定参数的高性能教师模型,对预获取的待更新参数的轻量化学生模型进行知识蒸馏,获取高性能轻量化学生模型;利用所述高性能轻量化学生模型,获取注册说话人嵌入层和实时说话人嵌入层;计算所述实时说话人嵌入层和注册说话人嵌入层的相似度,并根据所述相似度获取声纹识别结果。该方法能够获取高性能轻量化学生模型,提高对平凡发音等易受环境影响的短时发音的识别效果。 | ||
搜索关键词: | 一种 量化 声纹 识别 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科南京智能技术研究院,未经中科南京智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310434146.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 一种基于深度学习的语音识别方法-202310914137.7
- 陈志丰;张灵芝 - 陈志丰
- 2023-07-25 - 2023-10-24 - G10L17/18
- 本发明公开了一种基于深度学习的语音识别方法,该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别,本发明属于语音识别技术领域,具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,采用基于集成学习的口语识别架构进行口语理解,提高了语音识别的可用性和精确性,采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
- 一种音频提取方法、装置及电子设备-202310031699.7
- 陈亚楠;张世磊;高莹莹 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
- 2023-01-10 - 2023-10-20 - G10L17/18
- 本发明提供一种音频提取方法、装置及电子设备,涉及通信技术领域。该方法包括:获取待处理的混合信号以及待提取目标人声的声纹特征向量;将所述混合信号和所述声纹特征向量输入到复数长短期记忆LSTM网络模型,得到第一输出数据;根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据;利用所述第二输出数据获取所述目标人声的音频数据。本发明的方案能够解决解决目前目标说话人语音增强技术,存在提取目标人声的音频信息的质量较差的问题。
- 一种基于DV-Softmax损失函数的声纹识别方法-202310780293.9
- 曹毅;叶凡;李杰;李平;周辉 - 江南大学
- 2023-06-29 - 2023-10-13 - G10L17/18
- 本申请提供的一种基于DV‑Softmax损失函数的声纹识别方法,其构建了DV‑Softmax损失函数,采用重加权函数对不同类别的样本产生不同的裕度,基于权重指示函数使得对声纹识别模型的训练更集中于硬样本,更好的强调了不同样本之间和不同样本类别之间的关系,由于简单样本对模型训练仅起微弱的正作用,硬样本训练困难但对训练起较大的正作用,模糊样本所包含的噪音对训练起反作用,因此,通过加强硬样本的权重,降低简单样本和模糊样本的权重可有效提升训练效果,进而提高声纹识别模型的泛化能力。
- 语音验证方法、装置、计算机设备及存储介质-201910068827.9
- 黎立桂 - 平安科技(深圳)有限公司
- 2019-01-24 - 2023-10-13 - G10L17/18
- 本发明实施例公开了一种语音验证方法、装置、计算机设备及存储介质,包括下述步骤:获取验证语音信息,其中,所述验证语音信息为验证用户在朗读验证信息时,目标终端采集到的语音内容;根据所述验证语音信息判断所述语音内容是否为预设的声音类别,其中,所述预设的声音类别为表征语音内容为人类声音的声音分类;当判断所述语音内容不属于所述预设的声音类别时,确定语音验证失败。通过对验证语音是否为真实人声进行校验,可以有效排除机器、AI、爬虫等恶意用户,防止此类恶意用户对网站、平台的攻击,保证验证用户有效性和真实性,提升语音验证的安全性。
- 一种基于无人艇拖曳方式的白海豚监测方法及系统-202310928712.9
- 董贵信;李湛伟;董超;陈焱琨;简天浩;李康荣;刘思健;杨萃;李杰;张鹏 - 广东长隆集团有限公司;国家海洋局南海调查技术中心(国家海洋局南海浮标中心);华南理工大学
- 2023-07-26 - 2023-10-10 - G10L17/18
- 本发明公开了一种基于无人艇拖曳方式的白海豚监测方法及系统,通过拖曳水听器模块对海洋声源进行采集得到海洋声源音频数据后,根据频谱特征对海洋声源音频数据进行分类,得到生物音频数据和噪声音频数据,对生物音频数据进行FFT和功率谱分析后,得到生物音频数据中的频段能量信息,并对频段能量信息进行白海豚音频特征提取,得到白海豚音频数据,调用人工神经网络算法对白海豚音频数据进行识别,得到识别结果,根据识别结果得到对应的声源位置信息和声源距离信息,以使调查人员根据识别结果、声源位置信息以及声源距离信息对白海豚进行监测。
- 一种婴儿哭声识别方法、系统及装置-202311000988.7
- 刘诚;曹海涛;陈海山 - 广州番禺职业技术学院
- 2023-08-10 - 2023-09-29 - G10L17/18
- 本发明公开了一种婴儿哭声识别方法、系统及装置,属于数字信号处理领域,包括基于表示已经被公开的用于表征婴儿哭声含义的数据集合,通过设置环境噪声数据,生成数据集;通过对数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型;基于神经网络模型,对采集的婴儿哭声进行识别,获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义;本发明通过使用小波散射网络来更高效地提取声音信号的特征,提高了哭声识别的准确率,并且在保证效果的同时,使得用于识别的神经网络模型的参数量大大降低,进而节约硬件资源,节省了软硬件开发成本,降低了产品功耗。
- 基于轻量化卷积神经网络的声纹识别方法和装置-202110886681.6
- 许静;吴彦峰;赵俊安;过辰楷;朱静雯 - 南开大学
- 2021-08-03 - 2023-09-22 - G10L17/18
- 一种基于轻量化卷积神经网络的声纹识别方法和装置,解决了现有技术中声纹识别技术精度低且网络参数量和计算量过大的问题。声纹识别方法包括:基于声学特征向量,顺次执行多个特征提取子例程,分别得到多个第四声纹特征向量;基于部分第四声纹特征向量确定第五声纹特征向量;采用低秩矩阵分解技术对第五声纹特征向量进行全连接,得到第六声纹特征向量;根据第六声纹特征向量进行声纹识别。其中,特征提取子例程包括:对输入特征向量进行多个不同空洞率的深度可分离卷积操作,得到多个第一声纹特征向量,确定多个第一声纹特征向量各自的权重向量,基于权重向量对多个第一声纹特征向量进行加权融合,得到第二声纹特征向量。
- 一种轻量化声纹识别方法及系统-202310434146.6
- 李郡;王啸;游恒;尚德龙;周玉梅 - 中科南京智能技术研究院
- 2023-04-21 - 2023-08-22 - G10L17/18
- 本发明公开了一种轻量化声纹识别方法及系统,属于声纹识别技术领域,方法包括:根据预获取的训练数据集中音频的质量,构建批次数据;根据所述批次数据和基于检测误差权衡曲线下面积的损失函数,利用预获取的已固定参数的高性能教师模型,对预获取的待更新参数的轻量化学生模型进行知识蒸馏,获取高性能轻量化学生模型;利用所述高性能轻量化学生模型,获取注册说话人嵌入层和实时说话人嵌入层;计算所述实时说话人嵌入层和注册说话人嵌入层的相似度,并根据所述相似度获取声纹识别结果。该方法能够获取高性能轻量化学生模型,提高对平凡发音等易受环境影响的短时发音的识别效果。
- 一种基于EDRSN的电力通信系统声纹识别方法及系统-202310628366.2
- 白智全;马媛媛;贺邦玮;张庆锐;翟洪婷;翟启;权玮虹;孙丽丽;张延童;李亮;刘保臣;王敏;张化代;毛恒 - 山东大学;国网山东省电力公司信息通信公司;国家电网有限公司
- 2023-05-29 - 2023-08-11 - G10L17/18
- 本发明涉及一种基于EDRSN的电力通信系统声纹识别方法及系统,包括:采集语音信号并对语音信号进行降噪;对降噪后的语音信号进行预处理,增强语音信号声纹特征;将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果;其中,声纹识别模型为:在DRSN的基础上,引入软阈值机制来进一步区分噪声特征并消除噪声,并引入卷积注意力机制模块,增强声纹特征。本发明对采集的语音信号使用双路径卷积递归网络,降低嘈杂电力环境中的噪音影响;本发明通过语音信号端点检测消除长时间的静音片段,利用语音信号预加重来增强语音片段以减少噪音的影响;本发明提高了声纹识别的准确性。
- 一种基于mean-SAP池化模型的说话人识别方法及系统-202110894996.5
- 邓飞;邓力洪;张葛祥;杨强;姚光乐 - 成都理工大学;成都图灵志杨信息科技有限责任公司
- 2021-08-03 - 2023-07-18 - G10L17/18
- 本发明公开了一种基于mean‑SAP池化模型的说话人识别方法及系统,该方法及系统通过线性注意力机制产生每帧帧级特征的重要性权重,并通过产生的重要性权重生成统计向量,然后将帧级特征和统计向量的残差与重要性权重加权平均生成话语级特征。最后将话语级特征与数据库中的说话人特征进行欧式距离比较,以确定说话人身份。本发明通过线性注意力机制及引入统计向量的方式,弥补了Self‑attention pooling(SAP)池化模型捕捉有效帧不准确生成的话语级特征鲁棒性弱的问题,提高了说话人识别的准确率。
- 用于确定声音特性的方法、系统、装置和存储介质-201980011206.5
- 王志铭;姚开盛;李小龙 - 支付宝(杭州)信息技术有限公司
- 2019-10-31 - 2023-07-14 - G10L17/18
- 提供了用于确定声音特性的方法、系统、装置和存储介质,包括编码在计算机存储介质上的计算机程序。方法之一包括:获得说话者的语音数据;将所述语音数据输入到至少通过联合地最小化第一损失函数和第二损失函数而训练的模型中,其中,所述第一损失函数包括基于非采样的损失函数,所述第二损失函数包括具有非单位多元协方差矩阵的高斯混合损失函数;以及从经训练模型中获得所述说话者的一个或多个声音特性。
- 一种线上面审处理方法、装置、存储介质及设备-202310313333.9
- 梁俊杰 - 平安银行股份有限公司
- 2023-03-27 - 2023-06-30 - G10L17/18
- 本申请实施例提供一种线上面审处理方法、装置、存储介质及设备,该方法中,获取AI面审过程中虚拟客服问问题时录制的第一音频和客户回答问题时录制的第二音频,通过音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征,之后,通过将该第一声纹特征分别与该虚拟客服的声纹特征和该客户的声纹特征进行对比,以及将该第二声纹特征与该客户的声纹特征进行对比,判断是否存在旁人。如此,避免旁人在不露面时指点客户回答的情况,从而确保AI面审的合规性。
- 通过神经网络机器学习的车辆周围音频分类-201710976026.3
- 伊桑·格罗斯 - 福特全球技术公司
- 2017-10-19 - 2023-06-20 - G10L17/18
- 本公开描述了通过神经网络机器学习检测和分类车辆周围的声音的方法和设备。方法包含音频识别系统,该音频识别系统可以确定声音的起源是在车辆的里面或外面并且把声音分类为比如成人、儿童或动物声音这样的不同类别。音频识别系统可以与在车辆内部和周围的多个传感器通信以获取车辆的状况的信息。基于声音和车辆的状况的信息,音频识别系统可以确定乘员或车辆是否处于风险中并且发送警告消息或发出警报信号。
- 域适应的声纹特征识别方法及系统-202211431413.6
- 张星东;赵胜;丁卓 - 南京龙垣信息科技有限公司
- 2022-11-15 - 2023-06-06 - G10L17/18
- 本方案涉及一种域适应的声纹特征识别方法及系统。所述方法包括:中心服务器接收声纹查询请求,并获取待识别音频;所述中心服务器通过域适应循环对抗神经网络对所述待识别音频进行域分类,得到类别序号并发送给分布式存储设备;所述分布式存储设备在声纹数据底库中查找与所述类别序号相同的已注册名单,并根据所述已注册名单计算出各个打分矩阵;所述分布式存储设备将各个所述打分矩阵发送至所述中心服务器,所述中心服务器根据各个所述打分矩阵得到声纹识别结果。通过使用域适应循环对抗神经网络进行域分类,从而根据类别序号计算打分矩阵并得到声纹识别结果,当数据属于不同域时,不会出现域不匹配的现象,提高了声纹识别的识别性能。
- 一种基于最大池化自注意力机制的声纹识别方法及系统-202211733131.1
- 孙钢;沈然;沈皓;李伊玲;汪一帆;徐世予;章江铭;章一新;项莹洁;佘清顺 - 国网浙江省电力有限公司营销服务中心;浙江大学
- 2022-12-30 - 2023-05-05 - G10L17/18
- 本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤:提取音频特征序列;使用卷积神经网络对音频特征序列进行降采样处理;使用基于最大池化自注意力机制的Transformer编码器进行训练;对Tranformer编码器的输出进行正则化;使用统计注意力聚合的方法提取说话人声纹编码;使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别,本发明对Transformer的自注意力机制做了改进,在相似度矩阵中引入最大池化操作,提高自注意力机制对局部信息的建模能力;本发明较原始Transformer更适合进行声纹识别,准确率更高。
- 一种基于RNN聚合方式的声纹识别方法与系统-202010326716.6
- 陈华官;张志齐 - 上海依图网络科技有限公司
- 2020-04-23 - 2023-05-02 - G10L17/18
- 本发明公开了一种基于RNN聚合方式的声纹识别方法与系统,声纹识别方法包括:获取原始音频;抽取原始音频中的原始频谱特征;从原始频谱特征中获得特征层;将特征层输入RNN中聚合,输出RNN中的隐藏状态特征;将隐藏状态特征进行说话人分类;声纹识别系统包括:音频采集模块,用于获取原始音频;频谱特征获取模块,用于抽取所述原始音频中的原始频谱特征数据;特征层获取模块,用于根据所述原始频谱特征数据进行特征层的抽取;聚合模块,用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征;说话人分类模块,用于对所述隐藏状态特征进行说话人分类。
- 一种基于深度神经网络的声纹识别方法-202211622180.8
- 邢建川;曾凤;付鱼;陈洋;周春文;莫国坤 - 电子科技大学
- 2022-12-16 - 2023-04-25 - G10L17/18
- 本发明公开了一种基于深度神经网络的声纹识别方法,属于语音处理技术领域。本发明包括:训练声纹特征提取网络和声纹识别打分网络,基于训练好的声纹特征提取网络预测注册语音的声纹特征向量,基于注册声纹特征向量构建声纹特征数据库;获取待识别的声学特征,基于声纹识别打分网络获取其与声纹特征数据库的打分结果以确定识别结果。本发明所提取的声纹特征向量更为细腻,使得语音特征更好地被保留。提取的Fbank特征减少了语音预处理过程中的计算量,加快了特征构建速度。通过给网络设置更大的通道数,增强了神经网络模型的拟合能力。打分网络使用训练PLDA算法得到的参数进行网络参数的初始化,加快了网络收敛速度,并获得了更好的效果。
- 反洗钱风险检测方法、装置、计算机设备及可读存储介质-202211614190.7
- 王小红 - 平安银行股份有限公司
- 2022-12-15 - 2023-04-25 - G10L17/18
- 本发明涉及金融技术领域,具体涉及一种反洗钱风险检测方法、装置、计算机设备及可读存储介质,该方法包括:获取在电话回访中目标持卡人的第一语音信息;基于神经网络模型,提取所述第一语音信息中的第一声纹特征;将预设时间内的所述第一声纹特征和预先存储的开户人的第一留底声纹特征进行比对;若比对结果不一致,则判定所述目标持卡者存在洗钱操作风险。本发明通过在电话回访中获取目标持卡人的第一语音信息,并对第一语音信息对应的第一声纹特征进行分析比对,判断出目标持卡人和开户人是否为同一个人,从而对目标持卡者是否存在洗钱操作风险作出预测,提高了反洗钱风险检测的准确性,适用性更高。
- 一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统-202010226730.9
- 张晶 - 广东外语外贸大学
- 2020-03-27 - 2023-04-18 - G10L17/18
- 本发明公开一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统,该方法的实现过程为:S1:输入语音数据;S2:提取特征,从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;S3:将提出的特征输入到构建的CNN模型,得出识别结果。本发明与现有技术相比,相比较于传统GMM模型识别率具有显著的提高;语音时长对于CNN识别率的影响很小,在噪声环境下,CNN识别率依然维持在很高的水平,说明CNN对于噪声具有很好的鲁棒性。
- 基于双向注意力残差网络的语音欺诈检测方法-202211186472.1
- 陈晨;代博涵;白博超;杨海陆;王莉莉;陈德运 - 哈尔滨理工大学
- 2022-09-27 - 2023-04-04 - G10L17/18
- 本发明提出了一种基于双向注意力残差网络的语音欺诈检测方法,能够有效提升欺诈语音检测系统的识别性能,防止欺诈语音通过自动说话人验证系统(ASV)。在训练过程中,本发明首先对语音进行预处理,并提取常数Q变换(CQT)特征矩阵,将其作为残差网络(ResNet)的输入,利用ResNet提取浅层特征,然后将此特征输入双向注意力网络,以区分特征中不同维度的重要程度,从而得到区分性更强的特征表示。在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分,根据打分结果对真实语音与欺诈语音进行分类。实验结果表明,本发明方法能够明显提升欺诈检测系统的性能,保护ASV系统免受不法用户的侵害。本发明可应用在语音处理和生物识别领域。
- 一种听歌识人方法、终端设备及存储介质-202111122982.8
- 徐敏;肖龙源;李稀敏;叶志坚 - 厦门快商通科技股份有限公司
- 2021-09-24 - 2023-03-28 - G10L17/18
- 本发明涉及一种听歌识人方法、终端设备及存储介质,该方法中包括:采集单一说话人的音频构建第一训练集;构建基于卷积神经网络和残差神经网络的自监督学习模型;基于第一训练集中的音频的声学特征,对模型进行n次回归训练;基于第一训练集中的各音频,对模型进行第n+1次回归训练;基于第n+1次回归训练结果构建鉴别任务,将鉴别训练后的模型作为听歌识人模型;采集标注有歌手名音频数据对听歌识人模型进行分类训练,得到最终听歌识人模型;通过最终听歌识人模型对待识别歌曲的歌手进行识别。本发明无需支付高额版权费收集大量歌手歌曲,也无需人工对歌曲进行截取,只需要适量正常的带说话人标注的语音及歌手歌曲片段即可实现对听歌识人模型的训练。
- 婴儿啼哭识别的大数据算法、系统、装置及存储介质-202211045183.X
- 赵可成;吴衡 - 苏州辰逸新声电子科技有限公司
- 2022-08-30 - 2022-12-27 - G10L17/18
- 本发明公开了婴儿啼哭识别的大数据算法、系统、装置及存储介质,本发明解决其技术问题所采用的技术方案是:一种婴儿啼哭识别的大数据算法,步骤一:获取婴儿啼哭大数据库中的婴儿啼哭数据;步骤二:建立卷积神经网络识别模型并对其进行训练;步骤三:根据训练好的模型对婴儿啼哭音频数据进行意图识别;本方法降低了大量的运算压力,使其能在单片机内运算实现。
- 一种语音对话方法及相关装置-202210754139.X
- 余敦辉;张阳;张万山;张蕗怡;张与牵;陈叶子 - 湖北大学
- 2022-06-27 - 2022-12-20 - G10L17/18
- 本发明实施例公开了一种语音对话方法及相关装置,用于提高人机对话中的可持续性和主动性。本发明实施例方法包括:接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别所述文本信息中的话题实体;基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
- 一种基于Attention注意力机制的特定关键词识别方法及系统-201911328803.9
- 曾志先;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤 - 厦门快商通科技股份有限公司
- 2019-12-20 - 2022-12-06 - G10L17/18
- 本发明公开了一种基于Attention注意力机制的特定关键词识别方法及系统,包括以下步骤:S11.采集用户语音,每隔A秒保存时长为B秒的音频数据为1个数组;S12.将数组转为声纹特征数据;S13.将声纹特征数据输入已经训练好的Attention+LSTM网络模型中,Attention+LSTM网络模型输出预测结果,当预测结果大于0.5,则判定声纹特征数据对应的音频当中出现了关键词。本发明可以检测出语音流中出现的关键词,省去语音唤醒系统的解码过程,而且系统的网络结构简洁,能够实现低运算量,高准确率。
- 一种用于智能门禁的声纹识别方法-202211067446.7
- 赵思瑞;张禄;程元元;谷玉章;刘伟;康绪芳 - 山东深博建筑工程有限公司
- 2022-09-01 - 2022-11-29 - G10L17/18
- 本发明公开了一种用于智能门禁的声纹识别方法,包括以下处理模块:特征提取模块、声纹识别模块和数字确认模块;通过通过特征提取模块,将公司内部登记在册的员工声音波形信号和当前输入的说话人声音波形信号,转换成更易进行声纹区分的梅尔倒谱系数特征;进入声纹识别模块,利用所设计的人工神经网络模型对输入说话人的声纹特征与登记在册的声纹特征进行相似度比较,确认是否是本公司的员工,且输入说话人的声纹特征与登记在册的声纹特征匹配,则进入数字验证模块。采用单个麦克风声学传感器作为门禁系统的输入信号源,相较于摄像头、触摸屏等输入设备而言,产品部署时的体积更小,成本更低。
- 声纹识别方法、装置和计算机可读存储介质-202110563106.2
- 徐聪聪;霍伟明;张新健;徐浩;吴施烙 - 佛山市顺德区美的电子科技有限公司;广东美的制冷设备有限公司
- 2021-05-21 - 2022-11-22 - G10L17/18
- 本申请公开了一种声纹识别方法、装置和计算机可读存储介质,声纹识别方法包括:接收云端服务器发送的声纹模型,将声纹模型存储至本地,声纹模型是由云端服务器根据终端设备发送的历史语音数据进行训练得到的;当终端设备处于在线状态时,对本地存储的声纹模型进行更新,以通过存储的所述声纹模型对接收到的语音数据进行声纹识别。通过将声纹模型部署至本地,实现本地化,当处于在线状态时,对本地存储的声纹模型进行更新,如此,避免了在离线状态下,由于计算资源的限制,导致离线声纹识别性能不佳的问题,达到了提高离线声纹识别性能的效果。
- 基于改进时延神经网络的说话人识别方法-202210353301.7
- 王燕清;王子豪;刘雨佳 - 南京晓庄学院
- 2022-04-06 - 2022-11-04 - G10L17/18
- 本发明公开了基于改进时延神经网络的说话人识别方法,通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集的网络中有明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。
- 一种基于双注意力机制动态卷积的说话人识别方法-202210836146.4
- 罗元;朱奎林;王文豪;林子尧 - 重庆邮电大学
- 2022-07-15 - 2022-11-01 - G10L17/18
- 本发明请求保护一种基于通道‑空间注意力的动态卷积说话人识别方法,该方法包括步骤:S1,将声音信号切为多个片段,提取声音信号的声学特征;S2,为解决静态卷积以及一般动态卷积方法中注意力权重矩阵信息量不足的问题,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;S3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核。S4,将输入语音数据与该动态卷积核卷积得到说话人语音帧级特征。
- 一种说话者确认方法及系统-202110496856.2
- 陈增照;郑秋雨;何秀玲;戴志诚;张婧;孟秉恒;李佳文;吴潇楠;朱胜虎 - 华中师范大学
- 2021-05-07 - 2022-10-28 - G10L17/18
- 本发明提供一种说话者确认方法及系统,包括:对说话者的音频信息进行预处理,将所述音频信息转换为预设格式的数据;将说话者音频信息对应的预设格式的数据输入到训练好的基于空间注意力机制的深度嵌套残差神经网络,以得到帧级别的说话者向量;基于所述帧级别的说话者向量生成话语级别的说话者向量,并计算所述话语级别的说话者向量和目标说话者向量的余弦相似度,以判断所述说话者是否为目标说话者;所述目标说话者向量是预先获取的。本发明提出了一种基于空间注意力机制的深度嵌套残差神经网络,通过深度神经网络更准确地提取说话者声纹特征。
- 基于深度神经网络的说话人验证方法、终端及存储介质-202210621923.3
- 梁兴伟;庄欣楠;杨波 - 康佳集团股份有限公司
- 2022-06-02 - 2022-10-21 - G10L17/18
- 本发明公开了一种基于深度神经网络的说话人验证方法、终端及存储介质,方法包括:获取预设数据集中多个说话人的语音数据;通过预处理将多个语音数据转换为二维数据组,并根据预设比例将二维数据组划分为训练集和验证集;根据残差神经网络和长短时记忆网络构建深度神经网络,通过训练集及验证集对深度神经网络进行训练验证,得到训练后的深度神经网络;通过训练后的深度神经网络对输入的若干条待测说话人的音频信息进行预测,并输出待测说话人的验证结果。本发明充分利用音频数据的频域特征和时域特征信息,在网络模型更新参数时注重于不易被区分的音频数据,使得训练得到的模型能够更加准确完成说话人验证任务,提高说话人验证系统性能。
- 专利分类