AI的“连连看”黑科技

2026-06-02 39

12.png


手机刷脸解锁、在海量网盘中搜寻相似照片,或者科学家在电脑前比对复杂的蛋白质结构时,计算机的幕后都在疯狂运行着同一种底层技术——图匹配(Graph Matching


简单来说,计算机看世界时,眼前的对象往往不是孤立的数字,而是一副由点(节点)和线(边)交织而成的“骨架”。将两幅甚至多幅“骨架”完美地对齐、连线,找出它们之间的对应关系,就是图匹配的核心任务。为了梳理这一计算机视觉与机器学习领域的基石技术,这篇综述论文跳出了传统模式识别的狭窄视角,用系统性的框架为我们揭开了如何教 AI 玩这场“超难数学连连看”的奥秘。


在数字世界里,最传统的记录数据方式是“向量”(可以理解为一串死板的数字排列)。但向量有一个致命弱点:抹杀空间和结构信息。相比之下,“图(Graph)”具有结构跨越能力。它允许我们在节点上挂载属性(比如人脸的五官特征),还能在连接节点的边上挂载任意的几何或数量关系(比如眼睛到鼻子的距离、角度)。这种灵活的建模方式让它成了描述真实世界物体关系的完美工具。


在理想的数学世界里,如果两幅图的节点和边完全对应、严丝合缝,这叫“图同构(Exact Graph Isomorphism)”。然而,现实生活充满了噪音、遮挡和形变。当两幅照片角度不同、或者蛋白质分子发生扭曲时,绝对重叠是不可能的。因此,论文将重点放在了更具现实控制力的“非精确加权图匹配(Inexact Weighted Graph Matching)”上。目标不再是追求零误差,而是在不完美的现实世界中,寻找能够最大化相似度(亲和力)或最小化扭曲程度的最佳折中连线方案。


图匹配听起来很直观,但在数学层面上通常被建模为著名的二次指派问题(QAPQuadratic Assignment Problem,在计算机科学中属于NP-complete(或 NP-hard级别的终极硬骨头。这意味着随着节点数量的增加,计算的可能性会呈指数级爆炸。为了衡量两幅图连线得好不好,科学家们设计了不同的数学天平:


1. 经典的二阶亲和力模型

最为通用的表现形式是Lawler的QAP模型,其核心优化目标可以写为:


13.png


在这里,矩阵X代表我们梦寐以求的配对连线图(1代表连上,0代表不连),而中间庞大的矩阵K就是二阶亲和力矩阵(Second-order Affinity Matrix。它不仅记录了点和点像不像,更记录了“图1的A-B线”与“图2的C-D线”在结构上是否契合。


另一种由Koopmans-Beckmann提出的经典变形则更侧重于邻接矩阵的痕迹运算:


14.png


通过将点相似度(Kp)与边拓扑结构(Fi, Fj)分离开来,为大厂和科学家们提供了一本直观的结构账本。


论文强调了近年来的一项重大技术突破——通过将原本大到让人绝望的矩阵 K拆解为更小的点、边亲和力矩阵的乘积,不仅极大地节省了宝贵的计算机内存,更为各类图匹配算法的融合打通了理论隧道。


随着大数据的爆发,传统的“两两连线”已经无法满足AI的胃口了。综述论文重点向我们推介了近十年来最前沿的两个进化方向:


(1) 迈向高阶:用三角形对齐三角形:传统的二阶匹配只看一条线和另一条线配不配。但如果物体发生了剧烈的仿射形变,直线长度全变了怎么办? 科学家们引入了高阶图匹配(Higher-order Graph Matching。AI不再单线比对,而是每次抽取三个点组成小三角形(Triplet),直接比对三角形的内角。利用高阶张量(Tensor)来存储这种三阶甚至高阶的几何线索,极大地提升了AI在面对剧烈干扰时的鲁棒性。


(2)多图联合:绕不开的循环一致性幽灵:假设有100张猫的照片,用传统求解器两两不相关地进行匹配,很快就会遇到一个尴尬的“内讧”悖论: 如果照片A的猫眼配上了照片B的猫眼,照片B的猫眼配上了照片C的猫眼,但在独立计算时,照片A的猫眼却阴差阳错配上了照片C的猫嘴!这种逻辑上的崩溃被称为循环不一致(Cycle Inconsistency


为了解决这个问题,近年来涌现出了“一气呵成法(One-shot)”和“循序渐进法(Iterative)”。前者通过矩阵补全或同步技术一次性强制大一统,后者则在迭代中像揉面团一样逐步注入一致性约束,从而完美利用了跨图的多重信息流动。


既然精确解出QAP问题是计算上的灾难,科学家们到底是怎么让电脑在几毫秒内给出高分答案的?论文为我们梳理了三大主流的“数学妥协艺术(松弛策略)”:


(1)谱松弛(Spectral Relaxation:直接放开配对矩阵非0即1的硬性限制,将其放宽为一个单位向量。通过直接计算亲和力矩阵的最大特征向量来瞬间锁定轮廓,速度极快,但对噪音敏感。


(2)半正定规划松弛(SDP:把非凸的硬约束空间通过引入高维变量扩充为凸的半正定空间。虽然拥有极漂亮的数学逼近理论边界,但因为计算成本太贵,往往让大厂的服务器感到吃力。


(3)双妥协概率松弛(Doubly-stochastic Relaxation:这是目前最流行的做法。它允许配对矩阵里的数值在0到1之间滑行(概率分布),把离散的跳跃变成平滑的斜坡,从而允许梯度下降和Frank-Wolfe等经典优化算法在上面纵马驰骋,最后再用临门一脚(如匈牙利算法)将其还原为离散的0和1。


作者简介:严骏驰,上海交通大学人工智能学院教授(兼计算机科学与工程系),主要从事机器学习及其与组合优化、图学习、计算机视觉等方向的交叉研究。曾在 IBM Research(IBM研究院)任研究员/首席研究员多年,长期致力于将学习方法与组合优化、图匹配等问题相结合。


ORCID:0000-0001-9639-7679


DOI:10.1145/2911996.2912035

会议官网

扫码关注艾思科蓝订阅号 回复“0”即可领取该资料

去登录