欠定盲源分离在语音信号处理中的应用研究
摘要:语音信号处理是欠定盲源分离的一个重要研究领域。本文基于混合语音的基本模型,分析并讨论了两种欠定盲源分离方法在语音信号处理中的应用思路。欠定混合语音信号分离更接近实际情况,有着重要的研究意义。
关键词:盲源分离 语音信号 欠定盲源 1 引言
盲源分离是指在源信号和传输通道参数未知的情况下,根据输入源信号的统计特征,仅由观测信号恢复出各个源信号。盲源分离是近年来信号处理领域的研究热点,已经被广泛应用于生物医学、医疗图像、语音信号处理、通信系统、地球物理信号处理等多个研究领域。
欠定模型的盲信号处理算法要解决源信号数目多于观测信号数目情况下的问题,更接近盲源分离实际情况。目前研究欠定盲源分离的主要方法是基于稀疏特征的分离算法和基于统计概率模型的过完备描述算法。
在语音信号处理领域中,从混合语音信号中分离出各个语音源信号或提取出人们感兴趣的目标语音,来模仿人类的语音分离能力,对语音识别、语音增强等都有着非常积极的理论意义和实用价值。
2 混合语音信号分离原理
假设有n个统计的语音源信号和m个观测信号,在不考虑噪声的情况下,观测信号x和未知的源信号s之间有如下关系:
x(t)=As(t) (1)
其中x(t)=[x1(t),x2(t),…,xm(t)]T是m维的观测信号向量,A为未知的m×n的混合矩阵,s(t)=[s1,s2,…,sn]T是未知的n维源信号向量。
盲源分离的思路就是求解分离矩阵W,根据观测信号向量x(t),从而恢复出未知的源信号s(t),分离系统输出可通过下式表示:
y(t)=Wx(t)(2)
其中式y(t)=[y1(t),y2(t),…,ym(t)]T为源信号的估计矢量,即:
欠定情况下混合语音的分离识别是在m<n时,只假设信源s之间相互,A和s均未知的情况下实现信源分离。由此情况下,为实现盲源分离一般要进行先验假设,假设源信号之间是相互统计的,并且在时域或变换域具有一定的稀疏性,同时假设矩阵A式满秩的。
3 欠定混合语音信号盲源分离算法 3.1 基于稀疏特征的欠定盲源分离算法
稀疏信号处理是研究欠定信号分离的有效手段,利用稀疏性弱化欠定模型为正定模型,是解决欠定情况下混合语音信号分离问题的关键所在。基本方法是采用时频线性变换进行稀疏处理,然后通过聚类的方法实现混叠矩阵A的估计,在最大后验概率法准则下实现分离。
在线性变换中,短时傅里叶变换后的实部和虚部组成的观测向量具有较好的稀疏性,可以实现混叠矩阵的精确估计。对m=2的情况,假设A的列向量长度1,即可写成(cosα,sinα)T的形式,采用角度来描述聚类方向,其中α为偏移聚类方向θ的角度。
3.2 基于过完备描述的欠定盲源分离算法
在过完备描述算法中,同样是利用信号稀疏性的特点,假设观测信号向量在一个过完备基上进行分解所得到的系数向量是稀疏的,从而得到有效描述信号的基函数。
过完备描述算法基于概率统计原理,是在x和A均未知的情况下估计s和A,首先从观察信号x概率P(x|s,A),由贝叶斯公式可以得到s的后验概率分布为:
通过梯度迭代算法最大化样本的对数似然函数,推断出过完备描述的基函数A,同时给出源信号s。
4 结语
本文讨论了欠定盲源分离技术在语音信号分离中的主要思路和方法。欠定盲源分离算法更符合实际情况,具有更广泛的应用,但其分离理论尚不成熟,还需要进一步研究完善。
参考文献 [1]M.S.Lewieki
and
T.J.Sejnowski.Learning
overcomplete
representations[J]networks,Neural Comput.,2000:337-365.
[2]P.Bofill nd M.Zibulevsky.Underdetermined blind source separation
using
Sparse
representations
[J],Signal
Proeess.,2001,81(11):2353-2362.
[3]M.Zibulevsky and B.A.Pearlmutter.Blind source separation by Sparse
Decomposition
in
a
Signal
Dictionary[J],NeuralComPut.,2001,13(4):863-882.
[4]马建仓,牛奕龙,陈海洋.盲信号处理[M].国防工业出版社.2006.