严骏驰相关研究成果介绍⑤：用稀疏表示和低秩分解找显著区域，这篇早期工作把显著性检测写成了矩阵问题

2026-05-19

用稀疏表示和低秩分解找显著区域，这篇早期工作把显著性检测写成了矩阵问题

显著性检测的目标，是在复杂视觉场景中自动找出最容易吸引注意的区域。这个问题一方面与人类视觉注意机制有关，另一方面又直接服务于目标检测、识别和图像分析等计算机视觉任务。早期许多显著性模型主要依赖颜色、亮度、方向等底层特征，但如何在更统一的表示里把“背景的规律性”和“显著区域的异常性”区分开来，一直是一个很有挑战的问题。

这篇论文的出发点非常清楚：如果背景通常体现为一种更规则、更冗余的结构，而显著目标则更像稀少、局部突出的成分，那么显著性检测是否可以被转写成一个矩阵分解问题。作者据此把稀疏表示和低秩-稀疏分解引入视觉显著性建模，希望用更整体的方式刻画显著区域。

二、核心方法与关键机制

论文首先通过学习 overcomplete dictionary，把输入图像分成重叠图像块后投影到稀疏表示空间中。这样，每个 patch 在字典上的响应可以组成一个矩阵，其中比较规则、可重复的背景模式会更倾向于形成低秩结构，而少量突出的显著区域则更容易表现为稀疏成分。也就是说，作者并不是直接在像素空间里寻找显著性，而是先构造一个更适合分解背景与前景差异的特征空间。

在这一基础上，论文采用低秩与稀疏矩阵分解，把响应矩阵拆成 regular part 和 salient part。最终，稀疏矩阵部分被重新映射回图像空间，得到显著图。这种方法的关键优势在于，它把视觉显著性从手工特征堆叠转换成了“规律成分 + 异常成分”的结构分离问题，因而能够借助凸优化和矩阵分解理论来求解。

论文核心流程图：基于稀疏表示与矩阵分解的显著性检测框架，展示从图像块表示到显著图生成的处理链路。

三、实验结果与结论

论文在自然图像和心理学图案上进行了测试，并使用人眼注视数据作为对比标准。结果显示，这种基于稀疏追踪和矩阵分解的方案能够较好地突出显著目标区域，在与既有方法的比较中表现出竞争力。实验意义不只在于“结果更好看”，而在于验证了作者的建模假设：背景的低秩性与显著区域的稀疏性，确实可以作为分离显著目标的有效线索。

论文表明，把显著性检测写成稀疏表示后的低秩-稀疏分解问题，能够在自然图像和心理图案上得到具有竞争力的显著区域定位结果。这使显著性检测从传统的局部特征融合，转向了更具全局结构意味的优化视角。

四、研究价值与启示

这篇较早期的工作很能体现研究中的一个持续特点：把视觉问题重写成结构优化问题，再借助数学工具提供更清晰的机制解释。虽然主题和后续图匹配、多图优化不同，但这种“先找到恰当结构表示，再做约束化求解”的思路其实是一脉相承的。对今天回看显著性检测研究的人来说，这篇论文也提示我们，深度学习兴起之前，基于矩阵分解和凸优化的方法已经在尝试用更统一的模型表达视觉注意。

它留下的重要启示是，很多视觉任务的关键突破，并不只来自更复杂的特征，而是来自把问题转换到更适合分离结构与异常的表示空间。

作者简介：严骏驰，上海交通大学人工智能学院教授（兼计算机科学与工程系），主要从事机器学习及其与组合优化、图学习、计算机视觉等方向的交叉研究。曾在 IBM Research（IBM研究院）任研究员/首席研究员多年，长期致力于将学习方法与组合优化、图匹配等问题相结合。