能不能把混在一起的信号拆开
2026-05-25
32

这篇论文研究的是盲源分离。简单说:你面前有几路混在一起的信号,只能听到它们混在一起后的结果,不知道原来每一路是什么以及怎么混起来的。能不能靠这些混合结果,把原来的几路信号重新拆出来?
过去很多做法是盯着“独立性”做文章:只要几路源信号彼此独立,就有机会把它们分开。但这篇文章讨论的是 “时间可预测性”方法:不同信号的变化节奏,往往不一样。有的变化快,有的变化慢;有的自相关结构明显,有的则没有。既然节奏不一样,能不能靠这个差别来把它们拆开?
靠时间可预测性来分离信号,真正起决定作用是这些源信号的时间结构,也就是自相关结构是不是彼此不同。作者给出的结论是:只有当源信号的时间结构不同,这种方法才能把它们分开。
这件事为什么重要?以前大家会觉得“时间可预测性”听起来像一个普适指标。作者这篇文章就是在立规矩:真正决定能不能分开的,是各个源信号的自相关函数是不是不一样。如果两路信号在时间上“脾气”完全一样,指望靠时间结构去分开它们就不行。
定理 2 、定理 3、定理 4连起来回答了一个问题:什么时候这套方法能分开源信号。论文回答到:如果对应的广义特征值彼此不同,就能分出对应的源;特征值归根到底是源信号的 covariance rate 不同,covariance rate 不同等价于这些源信号的自相关结构不同。

![]()
![]()
作者把源信号分成两组:一组是三个均匀分布信号,另一组是三段语音。结果很有意思:第一组分不开,第二组能分开。图 1 给出解释:三段均匀分布信号在各个时间延迟下的自相关几乎差不多,区分度很低;而语音信号的自相关结构差异一直比较明显,很多区分指数都接近 1。也就是说因为它们在时间上的变化模式不一样。

这篇论文继续输出了一个有价值的点:不只讲“能不能分开”,还讲“能分开多少”。作者拿六路信号来试,前两路是均匀分布信号,后四路是正弦类信号。结果是,后四路能分得很干净,前两路不行。论文给出的数字很清楚:前两路对应的 SNR 只有 2.5383 dB 和 2.9742 dB,几乎谈不上分开;后四路则能到 61.1167 dB、61.5457 dB、65.4071 dB 和 73.6396 dB。说明这套方法能把时间结构足够有差异的部分先挑出来。
关于算法层面的实际改进,作者建议:别再死用广义特征值分解,改用联合近似对角化,也就是 JAD。即同样的理论条件下,怎么把分离做得更稳。JAD 能把更多协方差信息一起利用起来,通常比单纯的广义特征值分解更稳健。第三个实验就是在拿这一点说话。
第三个实验里,作者把 JAD-CR、GE 和经典的 SOBI 做了比较。表 3 回答了三者到底谁更稳。结果显示,JAD-CR 的分离质量整体更好,比如六路信号对应的 SNR 分别达到 31.0081、33.2351、54.5361、59.7855、69.3151 和 79.1490 dB,整体上比 GE 的结果更强,也通常比 SOBI 更稳。然而,JAD 的代价是多花一点时间生成更多协方差矩阵,但可以换来更稳定的结果。

最后,这篇文章还有一个很棒的地方:它知道现实里并不是每次都能看到原始源信号,所以作者专门提出了一个新指标 RI,用来在不知道源信号和混合矩阵的情况下,大致判断分离结果靠不靠谱。
作者简介:谢胜利,广东工业大学自动化学院教授、博士生导师。长期从事控制、信号处理与智能信息处理等领域的教学与研究,研究工作涉及无线通信与网络、物联网信息技术等方向。现为国家杰出青年科学基金获得者、国家自然科学二等奖第一完成人。
DOI:10.1162/neco.2009.10-08-890