[发明专利]一种基于正态分布规律的矢量量化方法有效

申请号：	201710083683.5	申请日：	2017-02-16
公开（公告）号：	CN106898357B	公开（公告）日：	2019-10-18
发明（设计）人：	贺前华;蔡梓文;王亚楼	申请（专利权）人：	华南理工大学
主分类号：	G10L19/012	分类号：	G10L19/012;G10L19/032;G10L25/18;G10L25/51
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	郑浦娟
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于正态分布规律的矢量量化方法，在码本生成中，首先将训练样本集的特征中心作为初始码字，然后再对初始码字进行码字分裂，当码字为非首次分裂时，将各码字的码字宽度和隶属于各码字中的训练样本数作乘积，将上述乘积最大的L个码字选取出来作为待分裂码字，得到新的码字均值，实现码字分裂，在码字每完成一次分裂后，进入数据划分阶段；数据划分时将各码字描述为正态分布，计算每个训练样本对各个码字隶属度，划分胞腔更新码字；判断量化失真度是否收敛，若否，继续数据划分；若是，则判断码字总量是否达到一定值，若否，则继续码字分裂，若是，则输出最终码本。本发明方法能够提高码字分裂准确性，降低了矢量量化的误差。
搜索关键词：	一种基于正态分布规律矢量量化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于正态分布规律的矢量量化方法，包括码本生成过程、码本搜索过程和码本索引分配过程，其特征在于，所述码本生成过程具体如下：S1、预处理：对获取到的音频信号进行静音检测，提取出非静音音频信号，并且对非静音音频信号进行分帧处理，将分帧处理得到的每帧非静音音频信作为训练样本，组成训练样本集；S2、提取训练样本集中每个训练样本的频谱特征，计算出训练样本集的特征中心，并且将训练样本集的特征中心作为初始码字；然后进入步骤S3；S3、码字分裂：判断当前码字分裂是否为初次分裂；若是，则对初始码字进行随机分裂，在随机分裂后进入步骤S5；若否，则进入步骤S4；S4、确定分裂的码字及其分裂方向和尺度，分裂得到新的码字，具体过程如下：S41、定义各码字c_i的码字宽度δ_i为各码字c_i中所有维度归一化后的方差乘积；取定值L，判断当前存在的码字总量是否大于L；若否，则将当前存在的所有码字选取出来作为待分裂码字；若是，将各码字c_i的码字宽度δ_i和隶属于各码字中c_i的训练样本数N_i作乘积，然后将上述乘积以从大到小的顺序排名前L的对应L个码字选取出来作为待分裂码字；S42、计算训练样本集中各训练样本与上述选取出的各待分裂码字之间的距离，将计算出的最大距离对应的训练样本和待分裂的码字所构成的直线方向作为码字的分类方向，并将其归一化矢量记为w；S43、根据当前存在的码字总量I、选取出的各待分裂码字的均值以及步骤S42中获取到的归一化矢量w确定新的码字的均值，从而得到分裂后的码字：其中X_h为选取出的待分裂码字c_h的均值矢量，δ_h为选取出的待分裂码字c_h的码字宽度，X_h′为计算得到的新的码字的均值矢量；S44、进入步骤S5；S5、数据划分，具体如下：S51、首先采用最近邻原则对训练样本集进行首次量化分类，划分胞腔，根据得到的胞腔更新码字，然后进入步骤S52；S52、接着用正态分布描述各码字，然后根据正态分布描述的码字计算训练样本集中每个训练样本对各个码字的隶属度，根据每个训练样本对各个码字的隶属度划分胞腔，根据得到的胞腔更新码字，然后进入步骤S53；S53、计算量化失真度，判断量化失真度是否收敛；若是，则停止数据划分，然后进入步骤S6；若否，则返回步骤S52；具体操作如下：S6、判断当前存在的码字总量I是否大于等于定值M；若否，当前存在的码字总量I小于定值M，则回到步骤S3；若是，则输出最终的码本；所述码本搜索过程，对于获取到的需要进行矢量量化的音频信号，首先进行静音检测，提取出非静音的各段音频信号，然后对上述各段音音频信号进行分帧处理，并且提取出上述各段音音频信号中各帧音频信号的频谱特征；其中对于非静音的各段音音频信号中各帧音频信号，考虑语音的准平稳特性，将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果，具体操作如下：S71、对于s段音频信号中的第一帧音频信号的特征参数值f＝1，采用K邻近准则量化，量化码字对应为S72、对于s段音频信号中的第f帧音频信号的特征参数值f＞1，计算其隶属于码本中各个码字的隶属度，将得到的最大的K各隶属度对应的码字选取出来，其中选取出来的码字分别为对于s段音频信号中的第f帧音频信号的量化结果码字根据下述原则确定其总量化失真度量及来源：其中表示s段音频信号中的第f帧音频信号对应量化结果为码字时的量化误差；其中表示s段音频信号中的第f‑1帧音频信号对应量化结果为码字时的量化误差，码字表示s段音频信号中的第f‑1帧音频信号其中一个量化结果；T_s为s段音频信号的总帧数；其中其中表示码字和码字之间的距离度量，为码字和码字之间的距离度量，其中p＝1,2,...K，表示s段音频信号中的第f‑1帧音频信号其中一个量化结果；ε_lk为一修正常数，该值与s段音频信号中的第f帧音频信号对应量化结果码字和s段音频信号中的第f‑1帧音频信号对应量化结果码字之间的距离度量成正相关；表示s段音频信号中的第f帧音频信号与码字之间的距离度量；其中其中为码字的均值矢量，为码字的方差矢量；S73、对于s段音频信号中的各帧音频信号的各个量化结果码字通过步骤S72依次求取s段音频信号中的各帧音频信号的总量化失真度量及来源S74、k取1,2,...,K，然后从中选取最小的一个作为s段音频信号中最后一帧音频信号的特征参数值的量化失真度；最后根据该最小的量化失真度，通过步骤S72中的总量化失真度量及来源公式依次反索确定s段音频信号中各帧音频信号的特征参数值对应的最小的量化失真度，从而根据各最小的量化失真度确定s段音频信号各帧音频信号的量化结果；所述码本索引分配过程具体如下：S81、对量化后的每段音频信号，分别作为样本，定义第g段样本的关联码字为该段样本中每一帧音频信号关联码字的并集，用集合表示；其中，定义为第g段样本第f帧音频信号的量化结果，包括K个隶属码字及相应的隶属度值；L_g表示第g段样本的帧数；用集合A＝{A₁,A₂...A_G}表示所有量化后数据的关联码字信息，G为量化后的音频信号的总段数；S82、首先统计当前各码字的隶属度之和，即集合A中，与各码字关联的各样本的音频信号帧对各码字的隶属度之和；选择隶属度最大的码字并且存入最大码字集合C_max中，即此时最大码字集合S83、根据码字对集合A进行第一次筛选，得到集合A⁽¹⁾，使得集合A⁽¹⁾中量化结果对应的样本至少有一帧是隶属于的最大码字S84、统计集合A^(b)，b≥1中量化结果对应的样本隶属于除当前最大码字集合C_max中的码字之外的其他码字，并且从这些码字中选择隶属度之和最大的一个码字b≥1，然后存入最大码字集合C_max中，即此时最大码字集合根据码字对集合A^(b)进行筛选，得到集合A′^(b)，使得集合A′^(b)中量化结果对应的样本至少有一帧是隶属于码字的；S85、判断步骤S84当前获取到的集合A′^(b)量化结果所对应的样本数是否小于预设值F(F为常数)；若否，则b加1后返回大步骤S84；若是，则将集合A′^(b)量化结果对应的样本作为目标样本，即索引样本，此时集合A′^(b)量化结果对应的样本同时隶属于当前最大码字集合中的各个最大码字。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710083683.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于正态分布规律的矢量量化方法有效

专利文献下载