如何以初学者角度写好一篇国际学术论文？

2020-03-20

6628

人工智能顶会论文之争越来越激烈了，CVPR、AAAI、ICLR等各大会议虽然录取率逐年降低，但是投稿论文数量却在逐年增加。

虽说发论文不是衡量一位学者的学术能力的唯一标准，但确是极为重要的标准。一篇好的论文不仅要求主题明确，思路新颖，而且还要求论文写作本身行文流畅，逻辑清晰。

如何写出一篇合格的国际学术论文呢？在论文写作过程，你是否在引文中用到过这样的句子呢：“因为模型A好使，所以用A做某任务”、“因为任务B没有人做，所以我做了”、“之前的人做了什么工作，我做了什么工作，我的好”......

以上问题其实是论文写作中常见的错误逻辑，在顶会审稿人审校这些论文的时候，其实是最反感这种写法。

通过揭露这些常见错误，来自中国人民大学赵鑫老师在3月17日专门做了题为《如何以初学者角度写好一篇国际（顶级）学术论文》分享。

赵鑫，人民大学信息学院副教授、博士生导师。博士师从北京大学李晓明教授，专注于研究面向文本内容的社交用户话题兴趣建模，曾获得2011年谷歌博士奖研金（该年大陆高校共4人获奖）和2012年微软亚洲博士奖研金（该年亚太高校共10人获奖）。近五年内在国内外著名学术期刊与会议上以第一作者或者第二作者身份发表论文60余篇，其中包括信息检索领域顶级学术期刊ACM TOIS和学术会议SIGIR、数据挖掘领域顶级学术期刊IEEE TKDE和学术会议SIGKDD、自然语言处理顶级会议ACL和EMNLP。所发表的学术论文取得了一定的关注度，据Google Scholar统计，已发表论文共计被引用2000余次，其中以第一作者发表的《Comparing Twitter and Traditional Media Using Topic Models》被引用1000余次。担任多个重要的国际会议或者期刊评审，入选第二届CCF青年人才发展计划。曾获得CIKM 2017最佳短文候选以及AIRS 2017最佳论文奖。目前担任计算机系首届图灵实验班班主任。

在报告中，赵老师通过大量的事例，结合报告人的经验，讲述论文写作过程中注意事项和常用步骤与方法，主要涉及的内容包括引文、模型、实验以及参考文献的写作方法，另外还介绍了初学者应该避免发生的写作问题，最后也介绍了一些国际期刊的投稿经验。

下面AI科技评论对赵老师的演讲进行了有删减的整理，希望能助各位读者顶会之路一臂之力~

回放链接：

http://www.mooc.ai/course/778

赵鑫：

今天用的两个例子虽说是信息检索、数据挖掘、自然语言处理领域的，但方法比较通用。其实回头看18年的论文，有些地方也没有特别好，一些常见错误，我自己之前也会犯。

比如用到的两个事例的论文，我都觉得有些地方我好像有语病。语病可能不是写作的一个最关键，重要的是如何写出来，如何组织。

第 1 篇是发表在KDD19上面，目的是为用户规划路线，即生成个性化的路线。第2篇是基于知识属性的序列化推荐算法，基本思路是使用记忆网络扩展数据存储，知识存于记忆网络，隐状态做结构化解码。

下面主要是用第1篇论文去讲，这次讲解希望给大家提供一个八股文，可能比较功利，但是中间会传递给大家如何去写的一些价值点。

引文是论文的“门面”

引文非常关键，是你整个论文的门面，摘要基本上是没啥大用，只要不是写的太差，审稿人不会因为摘要拒掉论文，但是引文写不好，却100%会被拒掉。

原因是审稿人一般不会去看摘要，他们首先要看的是引文。一般来说，引文包括的内容有：要交代研究的任务，阐述现状以及总结不足，提出新的思路，然后给出的新方案的设计，还有总结贡献以及实验结论。

交代研究任务是你必须让读者知道你要做的事情，关键点在于让你室友或有计算机理论的人能够看懂。

那么阐述研究现状并总结不足部分需要注意的是和论文中的相关工作部分有很大的不同，这部分不需要说清楚一共有多少相关工作，只需写明目前整体的研究到哪了、当前的挑战。如果没有挑战，而且不难，如果你只是列出了10个人工作，只说清楚了A做了什么，B做了什么，那么这一点都不会帮你加分。

解决新思路部分要引出论文的解决思路，或者idea，然后再较为详细的介绍一下idea的实现。不需要特别详细，只需要从方案上介绍idea是什么样子。

这KDD的这篇论文中，即个性化的路线推荐，我就首先说明了要做的是：给定路网，生成用户特定的路线的建议。前面我也做了铺垫：这个任务是重要的。一般来说也说任务也说重要，这还不够，然后还要说清楚挑战是什么？

这篇论文中，我提到在大图和复杂路网上“找路”是很难，然后另外又补充了一些，比如说需要把丰富的背景信息给考虑进去。

所以，一开始你要带入，让大家快速的熟悉你的任务。

其次是介绍研究现状并总结不足，这部分在于给读者一些研究背景的铺垫，说清楚现有的研究状态，以及他们所用方法的优缺点。

在这篇论文中，我提到当前的方法主要分为两类，第1类就是传统启发式搜索，比如A*算法，其优点是在大图上特别的快，搜索也非常好。第2类就是偏机器学习或者是deep learning，它的好处是非常灵活。

分类讨论之后，我话锋一转介绍就我的思路，即能否把这些方法的优点结合起来，然后就有了我这篇KDD 19的论文。

在Idea设计与实现上，大家可能都不会有太大的问题，但要注意不要写的太细，能给你的同行评审员看懂就可以了，让他们清楚你的模型大概是个什么样子即可。

最后在引文部分要总结一下优势，说清楚整个论文的整个最新颖的点是在哪里？另外，不要说太多贡献，说太多会显得论文很散，一篇论文讲明一个贡献就够了。不建议写很长，“贡献可以列为下面三点，实验还能证明这个方法的有效性”，这种文字全都可以删掉。

上面是一些初学者可能犯到的错误，我当年初学的时候也犯过。“因为模型A好使，所以拿A去做某任务”，这个点在DeepLearning刚出来的一两年，我审论文的时候发现50%的引文都是这么写的，每当看到的时候，我都想把它拒绝掉。

“这个任务没人做，所以我做了”，这一点也很霸道，毕竟世上没人做过的事情有很多。

“之前的人做了什么工作，我做了什么工作，我的好”，这种写作也非常霸道，没有给人一丁点儿代入感，会让reviewer非常不爽~

“夸大自己模型的贡献、忽略别人的工作”极有可能导致论文被拒，千万不能夸大！

其实有些同学也问：我们是不是在制造一些论文的垃圾？靠一些写作去把东西包装的冠冕堂皇。其实不是这样，科研过程要有一个推进，你现在可能觉得这个技术不怎么样，但是你可能需要持续的去发力。那么你要发力的一种形式，就是论文，当然其他形式也有。

如果说你不想让你的论文成为垃圾，一定要把你的贡献说得很清楚。

其中一个问题就是包装一定要适度，不要过度包装，过度包装是对学术的很大的一个不尊重。有些度可能你自己都没有注意到，例如随意给出一些非常主观的意见，连个引用都不加。还有随意使用一些特别普遍的词汇，我审论文基本上都会遇到，一整就是knowledge，context、Information。在用这三个词的时候，问问自己知道是什么意思吗？能不能用一句话去定义这三个词？所以，你在用这些词的时候吗，基本上是模糊的状态

另一个很容易犯的错误是随意夸大自己的模型，所以同学在写的时候一定检查一下副词、形容词，多用一些限定词，比如说：在什么样的任务，加上这个东西，效果会好一些。

引文的作用是吸引大家，最重要的是做一些铺垫，必须是要解释清楚主要术语。比如说有的同学在做knowledge-aware，但是从头到尾都没有解释过什么叫knowledge-aware，这就非常有问题。

然后一定要解释清楚模型的主要的设计、思路、技术路线。但也不能太细，一些调参细节就不用介绍了。

最重要的是不要把方法说的云里雾里，要让你的同行室友能够看懂模型。所以，最好的方法是把你室友拉过来，然后让他看一段英文，你问他能不能看懂，他如果看不懂，你赶快把那自己那段话重新写一下。

最后还要强调一点，突出主要的创新之处，需要写出一句到两句非常中肯，学术的话来总结自己的贡献、创新点。这是非常关键的，我发现，包括我自己组里的同学有时候也说不清楚自己的idea，但这个比较绕，这个只能需要大家自己去把握。

然后我说一些八股文的写作方法，可能对初学者有帮助，第1句话写什么？写你的任务介绍写意义；第2句话写什么？概述，现在研究状况以及主要的问题；第3句写什么呢？解决这些问题的研究挑战；第4句写什么？当前这个方法的主要出发点和解决思路；第5句话写什么呢？一些当前方法的主要的技术方案，最后写总结和强调贡献。

写完这6句话之后，你在做什么事情就能很清楚了，如果能把这6句话写好，其实你基本上已经把引文给写好了。

还有一些过渡词，特别建议大家把每一个词是什么意义，自己去查一下。因为有的时候我也容易搞乱。

写作是一门讲故事的艺术，要让别人听懂，这是也是义务，这并不是说包装。如果你的东西你别人都看不懂，听不懂，你的东西，再好有什么用呢？因为你没有办法给别人带来收益。

引文的第一个状态让读过的人知道你在做什么。第二个状态就是让人觉得你的工作是重要的。第三点是说，让别人觉得你的思路就是和别人不一样，如果能给人耳目一新的感觉，那么论文很可能被接收。

最后一境界是让人读起来如沐春风，这个状态我现在也没有达到。所以在引文里头，一定要把握节奏，节奏感是达到状态的灵魂。

总体来说，引文写作步骤是：首先要交代背景，让人进入你的工作，紧接着铺垫包袱，说清楚你要做的事，你要解决的挑战是什么。然后最后要转回来，带入细节的解析，让读者知道你是怎么做的。