能不能把混在一起的信号拆开

2026-05-25

263

这篇论文研究的是盲源分离。简单说：你面前有几路混在一起的信号，只能听到它们混在一起后的结果，不知道原来每一路是什么以及怎么混起来的。能不能靠这些混合结果，把原来的几路信号重新拆出来？

过去很多做法是盯着“独立性”做文章：只要几路源信号彼此独立，就有机会把它们分开。但这篇文章讨论的是 “时间可预测性”方法：不同信号的变化节奏，往往不一样。有的变化快，有的变化慢；有的自相关结构明显，有的则没有。既然节奏不一样，能不能靠这个差别来把它们拆开？

靠时间可预测性来分离信号，真正起决定作用是这些源信号的时间结构，也就是自相关结构是不是彼此不同。作者给出的结论是：只有当源信号的时间结构不同，这种方法才能把它们分开。

这件事为什么重要？以前大家会觉得“时间可预测性”听起来像一个普适指标。作者这篇文章就是在立规矩：真正决定能不能分开的，是各个源信号的自相关函数是不是不一样。如果两路信号在时间上“脾气”完全一样，指望靠时间结构去分开它们就不行。

定理 2 、定理 3、定理 4连起来回答了一个问题：什么时候这套方法能分开源信号。论文回答到：如果对应的广义特征值彼此不同，就能分出对应的源；特征值归根到底是源信号的 covariance rate 不同，covariance rate 不同等价于这些源信号的自相关结构不同。

作者把源信号分成两组：一组是三个均匀分布信号，另一组是三段语音。结果很有意思：第一组分不开，第二组能分开。图 1 给出解释：三段均匀分布信号在各个时间延迟下的自相关几乎差不多，区分度很低；而语音信号的自相关结构差异一直比较明显，很多区分指数都接近 1。也就是说因为它们在时间上的变化模式不一样。

这篇论文继续输出了一个有价值的点：不只讲“能不能分开”，还讲“能分开多少”。作者拿六路信号来试，前两路是均匀分布信号，后四路是正弦类信号。结果是，后四路能分得很干净，前两路不行。论文给出的数字很清楚：前两路对应的 SNR 只有 2.5383 dB 和 2.9742 dB，几乎谈不上分开；后四路则能到 61.1167 dB、61.5457 dB、65.4071 dB 和 73.6396 dB。说明这套方法能把时间结构足够有差异的部分先挑出来。

关于算法层面的实际改进，作者建议：别再死用广义特征值分解，改用联合近似对角化，也就是 JAD。即同样的理论条件下，怎么把分离做得更稳。JAD 能把更多协方差信息一起利用起来，通常比单纯的广义特征值分解更稳健。第三个实验就是在拿这一点说话。

第三个实验里，作者把 JAD-CR、GE 和经典的 SOBI 做了比较。表 3 回答了三者到底谁更稳。结果显示，JAD-CR 的分离质量整体更好，比如六路信号对应的 SNR 分别达到 31.0081、33.2351、54.5361、59.7855、69.3151 和 79.1490 dB，整体上比 GE 的结果更强，也通常比 SOBI 更稳。然而，JAD 的代价是多花一点时间生成更多协方差矩阵，但可以换来更稳定的结果。

最后，这篇文章还有一个很棒的地方：它知道现实里并不是每次都能看到原始源信号，所以作者专门提出了一个新指标 RI，用来在不知道源信号和混合矩阵的情况下，大致判断分离结果靠不靠谱。

作者简介：谢胜利，广东工业大学自动化学院教授、博士生导师。长期从事控制、信号处理与智能信息处理等领域的教学与研究，研究工作涉及无线通信与网络、物联网信息技术等方向。现为国家杰出青年科学基金获得者、国家自然科学二等奖第一完成人。

DOI：10.1162/neco.2009.10-08-890