[发明专利]基于语音时频变换特征和整数线性规划的录音终端聚类方法在审
申请号: | 201810735094.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108922559A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 李艳雄;张雪;张聿晗;李先苦 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/45 | 分类号: | G10L25/45;G10L25/18;G10L25/03;G10L25/24;G10L25/27;G10L25/48 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音时频变换特征和整数线性规划的录音终端聚类方法,步骤如下:a、对读入的录音进行预处理;b、从每帧语音中提取GTCC特征;c、构造带瓶颈层的深度自编码网络并提取瓶颈特征;d、构造高斯超矢量特征;e、对a中预处理得到语音提取频谱图特征;f、将e中的频谱图特征拼接在d中的高斯超矢量之后,得到最后刻画录音终端特性的语音时频变换特征;g、利用整数线性规划算法对所有录音样本的语音时频变换特征进行聚类,将聚类结果作为最终的分类依据。本方法的特征提取和聚类均是无监督的,与目前有监督方法相比,更具普适性。 | ||
搜索关键词: | 时频变换 聚类 录音 语音 整数线性规划 预处理 频谱图 高斯 终端 瓶颈 分类依据 聚类结果 矢量特征 特征提取 语音提取 终端特性 矢量 构造带 普适性 无监督 自编码 读入 算法 拼接 样本 刻画 网络 监督 | ||
【主权项】:
1.一种基于语音时频变换特征和整数线性规划的录音终端聚类方法,其特征在于,所述的录音终端聚类方法包括以下步骤:1)读入语音:读入由不同录音终端录制的录音样本;2)预处理:对读入的录音样本进行预加重、分帧、加窗、离散傅里叶变换、取绝对值操作;3)提取GTCC特征:从录音样本提取GTCC特征;4)提取瓶颈特征:以GTCC特征作为输入,构建DAN特征提取器,从DAN提取瓶颈特征;5)构造高斯超矢量特征:以全部录音样本的瓶颈特征作为输入,训练一个UBM,再为每个录音样本自适应生成一个GMM并将GMM的均值矢量依次拼接构成高斯超矢量特征;6)提取频谱图特征:将预处理后的语音进行归一化、灰度图谱分块、子图块统计量拼接等处理;7)构造语音时频变换特征:将每个录音样本的频谱图特征与高斯超矢量拼接起来,得到该录音样本的语音时频变换特征;8)录音终端聚类:采用整数线性规划算法对全部录音样本的语音时频变换特征进行聚类,估计录音终端个数并将相同录音终端的录音样本合并为一类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810735094.5/,转载请声明来源钻瓜专利网。
- 同类专利
- 基于语音时频变换特征和整数线性规划的录音终端聚类方法-201810735094.5
- 李艳雄;张雪;张聿晗;李先苦 - 华南理工大学
- 2018-07-06 - 2018-11-30 - G10L25/45
- 本发明公开了一种基于语音时频变换特征和整数线性规划的录音终端聚类方法,步骤如下:a、对读入的录音进行预处理;b、从每帧语音中提取GTCC特征;c、构造带瓶颈层的深度自编码网络并提取瓶颈特征;d、构造高斯超矢量特征;e、对a中预处理得到语音提取频谱图特征;f、将e中的频谱图特征拼接在d中的高斯超矢量之后,得到最后刻画录音终端特性的语音时频变换特征;g、利用整数线性规划算法对所有录音样本的语音时频变换特征进行聚类,将聚类结果作为最终的分类依据。本方法的特征提取和聚类均是无监督的,与目前有监督方法相比,更具普适性。
- 基于模式聚类和子空间算法的语音欠定盲恢复方法及装置-201810678323.4
- 黄翔东;徐婧文 - 天津大学
- 2018-06-27 - 2018-11-16 - G10L25/45
- 本发明公开了一种基于模式聚类和子空间算法的语音欠定盲恢复方法及装置,方法包括:对M路观测信号做加汉宁窗L点50%重叠的STFT变换,得到观测频谱;逐帧对STFT混合信号频谱做基于插值法的频谱校正操作,并对所有谐波参数对进行模式筛选;逐帧重复上一步骤,收集所有时间帧得到的SAS模式组成单源域;对单源域中的SAS模式进行数据密度聚类,得到估计的源数目及混合矩阵;根据估计出的源数目及混合矩阵,并通过子空间算法恢复源信号。装置包括:将采集到的多路观测信号经过A/D采样得到样本序列,以并行数字输入的形式输入进DSP芯片,经内部处理,得到混合矩阵的估计;借助输出驱动及其显示模块显示混合矩阵的估计值。
- 一种基于特征的音乐版权识别方法-201711377591.4
- 尹学渊;王东明;何林 - 成都嗨翻屋文化传播有限公司
- 2017-12-19 - 2018-04-27 - G10L25/45
- 本发明公开了一种基于特征的音乐版权识别方法,包括获取待识别音频文件,对所述音频文件分片处理,提取音频片段的音频指纹,遍历指纹库的音频指纹,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,获得匹配结果;对所述匹配结果进行优化处理,包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值,如果是,计算出现相同时间差最多的音频指纹持续时间;判断所述音频指纹持续时间是否大于第二预设阈值,如果是,分析音频指纹对应的时间点的个数;判断所述时间点的个数是否大于第三预设阈值,如果是,获得每个音频片段的识别结果;将每个音频片段的识别结果进行合并处理。本发明的音乐版权识别方法,识别准确度和识别率高。
- 一种基于分层可靠度变化趋势的音频分割方法-201610872916.5
- 杨新宇;王银瑞;丁建行;董怡卓;罗晶;杨泽正;王艺蒙;李雨墨 - 西安交通大学
- 2016-09-30 - 2017-08-01 - G10L25/45
- 本发明公开了一种基于分层可靠度变化趋势的音频分割方法,具体步骤包括1)定长分析窗内基于可靠度变化趋势的分层跳变点检测;2)基于定长分析窗内跳变点检测的音频分割。本发明采用定长分析窗来避免分窗检测导致的累积误差,在定长分析窗内根据可靠度变化趋势来检测声学跳变点以解决冗余点过多与硬判决的局限性问题,同时在定长分析窗内采用自顶向下的分层检测方式来避免跳变点漏检的情况,能够有效减少冗余分割点,提高综合性能。
- 音声数据检测装置、音声监控系统及其方法-201210045216.0
- 刘昆;吴伟国 - 索尼公司
- 2012-02-24 - 2013-09-11 - G10L25/45
- 本发明公开音声数据检测装置、音声监控系统及其方法。该音声检测装置:音声数据接收部件,被配置为接收输入的音声数据流;音声数据处理部件,被配置为利用谱聚类方法对所述音声数据流进行分段处理,以将所述音声数据流分割为多个单一类型的音声数据段;以及声音检测部件,被配置为针对所述音声数据段提取检测特征,并利用预先建立的检测模型对该音声数据段的类型进行检测。
- 专利分类