胡亮相关研究成果介绍⑦:长尾推荐真正难的,不是找到热门答案,而是别让尾部一直被忽略

2026-05-19 25

长尾推荐真正难的,不是找到热门答案,而是别让尾部一直被忽略

一、研究背景与问题提出

推荐系统的评价常常围绕整体准确率展开,但这类平均指标很容易掩盖一个现实:头部项目和头部用户贡献了大量数据,而真正数量庞大的长尾项目和长尾用户却长期处于被低估、被稀释甚至被忽略的状态。TOIS 2017 论文《Improving the Quality of Recommendations for Users and Items in the Tail of Distribution》正是从这个角度重新审视推荐质量。作者指出,如果系统始终只在数据最丰富、最容易预测的部分上进步,那么这种进步未必能转化为更好的用户体验,也未必符合长尾商业的真实价值。

论文首先强调,长尾问题并不是一个单纯的‘数据少’问题,而是多个风险叠加在一起的结果。由于热门项目占据了大部分交互,模型很容易学出强烈的流行度偏置;与此同时,长尾对象本身反馈少、证据弱,更容易受到噪声和恶意评分的干扰。也就是说,长尾用户和长尾项目面临的不是单一维度的稀疏,而是‘弱证据 + 强偏置 + 低鲁棒性’共同作用的结果。如果推荐模型不正面处理这些问题,尾部区域就会一直停留在“看起来难做,所以干脆少管”的状态。

二、核心方法与关键机制

围绕这一点,作者提出了由 C-HMF 和 S-HMF 组成的耦合正则化框架。前者更强调可信度,试图从模型层面增强对不可靠反馈和攻击行为的抵抗力;后者则更强调用户选择的特异性,努力让系统在长尾区域也能学到真正具有辨识度的个性偏好。更关键的是,这两个模型不是分别训练后简单融合,而是通过 recurrent mutual regularization 让彼此的估计结果反复互作经验先验。这样的设计相当于让“可信”与“有个性”在同一个优化过程中互相约束、互相补强。

论文核心结果图:长尾分布示意图,展示长尾用户与长尾项目面临的数据不均衡问题。

如果进一步拆开来看,C-HMF 和 S-HMF 其实对应了长尾推荐里的两条不同主线。第一条主线是‘我凭什么相信这条反馈和这个判断’,这涉及可信度、鲁棒性和对恶意数据的抵抗;第二条主线是‘我是否真的学到了尾部对象的特殊性’,这涉及个体差异和非热门偏好的表达。作者把这两条主线同时放进模型,而不是只押注其中一边,因此方法才能在长尾区域形成更完整的改进。

耦合正则化本身也是这篇论文最值得细看的部分。它并不是给两个模型简单加一个联合损失,而是让二者的估计结果轮流充当对方的经验先验。这样做的效果,是可信度建模不会脱离个性表达,个性表达也不会脱离可信度约束。换句话说,作者试图解决的不是单个模型该怎么做得更好,而是尾部推荐中的两个关键目标如何在训练过程中彼此牵制、共同变强。

三、实验结果与结论

实验结果说明,这种双目标耦合的思路确实有效。论文在大规模真实数据集上考察了多项指标,结果显示该方法不仅整体表现优于多种对比模型,更重要的是它对尾部用户和尾部项目的提升更明显。换句话说,这篇论文不是在头部区域继续挤出一点边际精度,而是在系统真正最薄弱、也最值得改善的地方实现了质量提升。对于长尾推荐来说,这种导向本身就很有价值。

从结论层面看,这项工作的推进主要体现在两点。第一,它把‘推荐质量’从整体平均准确率扩展到了尾部区域的真实表现;第二,它证明了长尾问题不能只靠单一技巧解决,而需要把可信度和个性表达放在同一个优化框架下考虑。这种理解后来影响了不少关于公平曝光、尾部发现和去流行度偏置的研究。

四、研究价值与启示

从更广的视角看,这项工作的意义在于重新定义了推荐质量。推荐做得好,不应该只看系统是否更会推荐热门内容,还要看它是否有能力把原本不容易被看见的人和物品准确连接起来。长尾推荐关乎的不只是公平,也关乎发现与机会。作者所提出的耦合正则化框架,正是在提醒我们:如果推荐系统想真正服务丰富的用户需求和多样化的内容供给,就不能永远只围着最容易学的那一小部分数据打转。

作者简介:胡亮,同济大学计算机科学与技术学院教授、博导,分别毕业于上海交通大学与悉尼科技大学,研究方向涵盖人工智能、推荐系统、机器学习、深度学习与数据科学,入选上海海外高层次人才,获国家自然科学基金优秀青年科学基金项目(海外)支持。

会议官网

扫码关注艾思科蓝订阅号 回复“0”即可领取该资料

去登录