一位计算机科学学者的思索——访致远学院任课教师李永露 建立于2025-12-15,可以参见和李永露老师通话 - 251027

编者按

在人工智能高速发展的今天,如何走好科研之路,是每位青年学子需要思考的命题。

本文源自与一位青年学者的深度对话。他从亲身经历出发,分享了自己**从独自摸索到接触前沿视野的蜕变历程,探讨了从“能够到”的研究到挑战“无人区”的学术选择。**在他的讲述中,科研不仅产出论文,更重塑心智与思维。

对话涵盖了科研训练的系统设计、高水平想法的产生逻辑、面对成果被“撞车”的应对智慧,以及在“内卷”常态中寻找自我定位的思考。对于大模型时代的学习范式变迁,他敏锐指出:“复杂度并未消失,只是发生了转移。”

愿这篇对话为你带来启发,帮助你在快速变化的时代,找到自己的成长节奏与精神底色。前路漫长,愿每一步都清醒而坚实。

教师介绍

李永露博士,上海交大副教授、上海创智学院全时导师,博导,研究具身智能、物理推理、行为理解。在TPAMI、CVPR、NeurIPS、CoRL等发表成果50余篇,引用100+论文8篇,获ICRA 2025 Best Paper Award(HRI,独立通讯),开源项目获Github star 1.3万+;代表工作HAKE(引用1.48k+,Github Star 2.18k+,官网全球访问16.8万+次)、AlphaPose(引用780+,Github Star 8.3k+)。任NeurIPS、ICLR Area Chair, VALSE EACC,中国人工智能学会-具身智能专委会副秘书长。主持、参与多项国家级项目,如青基、科技部重点研发计划等。获上海市海外高层次人才、中国人工智能学会吴文俊人工智能科学技术奖-优秀博士学位论文、蚂蚁Intech奖、WAIC云帆奖-璀璨明星、明日之星、AI100青年先锋、世界互联网大会领先科技奖、NeurIPS’20/21杰出审稿人、百度奖学金、华人AI新星百人等。在致远学院任教ACM班《计算机视觉》。

个人主页:

https://dirtyharrylyl.github.io/

实验室主页:

https://mvig-rhos.com/recruit

您实验室的招新推送里面有写到培养本科生的四个阶段,这里面有哪些您对于人才培养的考虑呢?

我给本科生安排系统的科研训练,是因为我本科和读研时都是自己摸索,没人指导,所以过程很痛苦。那时候不是不知道怎么做,而是自己摸索会走很多弯路,遇到很多问题。你会处于一个信息茧房里,很多信息完全接触不到。后来读博时能发表一些文章,是因为那时我能接触到大量信息,比如北美顶尖实验室在研究什么,一些优秀导师的学生在做什么,以及某些领域的世界级研究者是如何思考和看待问题的。最重要的是,他们会传递给你一个信号:什么样的研究是好的。这种“taste”需要在一个合适的平台上才有机会获得。

以前我在自己的实验室里做一个方向时,完全没有人能帮我建立这种信息渠道,这需要实验室的平台来搭建桥梁。 所以,如果初期就有人引导,告诉你哪些东西应该先看书学习,哪些需要边动手边学,有了这些额外信息,你就可以学得更轻松,入门更顺畅,否则就会很痛苦,自己在那里绕来绕去。另外,科研和考试这类事情不太一样,它有一些特殊的需求,比如交流、写作,怎么表达自己的想法,怎么让别人理解你的想法。这些技巧需要在实验室体系下传承,很难自己摸索出来,否则容易走偏,养成不好的习惯。

所以我觉得系统性的训练,除了能让学生更高效地打好基础,还包括一些通过课程或自学难以获得的东西,这些需要实验室来提供。因为我自己早期没有这样的机会,所以我觉得这件事很重要,不能让我带的学生也经历同样的过程。

您在博士期间发表了许多高质量的文章。您是如何看待博士生涯的?

**我觉得是这样:头几篇文章可能是一个技能培养阶段,这个时候不用特别纠结这篇文章有多牛,它的主要作用是帮助你训练从阅读相关文献、理解领域重要问题、找到自己想解决且能解决的问题、设计合适的实验方案、做实验、写论文、 rebuttal、去开会、presentation等一系列技能。**这整条线上有很多技能需要掌握,这需要时间,天分再高也需要时间。比如你天分高但口才不好,也需要时间去锻炼。这个过程我觉得可能需要两三篇文章的锻炼,之后你才能变成一个相对成熟的researcher。再往后就看个人喜好和你想追求什么了。

像我是自己给自己找麻烦的类型。初期我做行为理解比较多,头几篇文章基本上都是一次就中了。连续发了好几篇之后,我觉得需要改变,就去做一些concept learning、物体理解、推理等方向,主动去挑战一些我觉得更深、更有价值、也更难的方向,所以那时我的产出就骤减了。

那个分界线大概在2020年。我记得CVPR我第一次投了三篇一作,结果都中了。那时我意识到,我已经非常熟悉这个小方向了,所以我需要改变。后来有一篇文章,是我和我的一个师弟(也算我的学生)合作的。就是那篇做concept learning的文章,被拒了5次。

那篇文章就是我主动找麻烦去做的。因为早期我们做一些attribute learning的文章很容易就中了,甚至CVPR、TPAMI都一次中。但后来做这篇文章就很难,因为大家会觉得:你为什么要提这个东西?它太新了,和过去的研究是什么关系?你应该按照过去的思路来解释这个东西。所以会遇到很多问题。这篇论文我们修改到最后,发现文章变成了一个“四不像”,所以我们干脆又改回去,把它描述得尽量简洁、少一点,后来可能也有点运气,就中了。

其实我发现,到了机器人时代,文章的价值逐渐变得重要。那时候我们想去做分类,比如识别一个物体有什么物理性质、能用来干什么。现在变成了需要完成人的一句指令,比如“我饿了”,它需要去分析场景中的物体,其实要做的事情本质上是一样的。但如果没有一个完善的数据集、一套流程和清晰的问题定义,就太难做了。所以那时做这个太早了,如果放在当下,估计会更容易中一些。

所以我觉得,一个好的博士生生涯,其难度曲线应该是这样的:初期做一些不用踮脚就能够到的工作;中期做一些需要踮起脚才能够到的工作;后期当你有了比较好的积累,并且博导也支持你时,可以去挑战一些更难的工作。 这是一个比较好的路径。但真正决定你学术生涯的时段,可能是毕业后的两年。

您觉得做研究中高水平的idea应该具备怎样的一些特性?或者说我们怎么样才能得到这样一个高水平的 idea?

我可以说一些鸡汤,但我更愿意讲一个更具执行性的方案。首先要对科学问题有个基本的定义。简单来说,我们可以对论文进行一个基本的分类。按照一个学科从被定义、发展到高潮、再到末尾的阶段,我们可能有几个不同的生命周期。

比如“The first paper”,就是第一次把这个问题提出来。 比如我觉得可以用神经网络的方法去解释蛋白质折叠,或者用神经网络去做图像生成、生成3D点云、生成视频。虽然不可能完全创新,但可能是有所变化的。那你就要先定义科学问题:它在数学上是一个什么样的过程?我们是用统计学习的分布拟合方法去做一件事,还是用采样方法去做一件事?这篇论文一开始可能不会得到特别多的关注,但如果这个方向发展起来了,它就会是那个“第一篇论文”,也就是定义问题的那篇。这种文章需要前期大量的积累和思考,可能要坐点冷板凳。然后要让公众发现这个方向很有潜力,比如像扩散模型(diffusion)、Transformer,它们很早就出来了,但到大放异彩,可能是2020年以后了。

然后是“The second paper”,就是让大家意识到这个东西很有价值。 或者过去第一篇论文定义的问题太难、解决不了,大家尝试过但效果不好,而这篇论文给出了一些可行的迹象或范式,让大家有更广阔的思路,可以沿着做下去。第二篇论文会让这个方向产生巨大的影响。这个时期需要你具有敏锐的眼光,能够从一堆文献中发现最有价值的方向,并且找到一个好的解法,而不是靠最初的简单思路就能解决,需要很巧妙的思路。比如大家也想把神经网络加深,都做过尝试但失败了,ResNet 出来之后,大家发现可以加深了,而且ResNet后来变成了一个非常基础的backbone,有各种各样的变体,从十几层到几十层都有。然后大家沿着这条路一直做,延续Kaiming的思路,做得更深更厚,或者在很多任务上做得更好。

**那我们把它叫做“The third paper”,或者叫“The best paper”,就是你在某个领域做到了这个方向的极致,再往上可能只是工程技巧。**比如刷到很高的分数。这类论文是大家最喜欢做的,也是做的人最多的。第二篇论文出来后,就会有一大堆人想去争抢第三篇论文的位置,所以就会卷着这个方向一直往下走。最后这个方向已经很成熟了,所有人都知道了,哪怕不看论文、只看社交媒体的人也都知道了。然后还会有一批人进来,继续做一些工程性的工作,把它推到更稳定、性能更高、可以直接用、甚至傻瓜化的程度。

最后是“The last paper”,把这个方向终结掉。 大家觉得,按照这种方式去做,可能没有太多空间可以搞了。

这是我划分的:第一篇、第二篇、第三篇、第四篇。这中间就有好几个区间:一和二之间、二和三之间、三和四之间,你都可以做选择。

一般来说,刚开始读博时,想直接做第一篇论文是比较难的,除非你的博导也在思考这个问题,你可以作为一作把它完成。大概率你可能需要从第二、第三、第四类论文中选择入手。

比如我在第二类和第三类论文之间,已经做了很多文章,做得还不错,在小方向上甚至可以做到比较前沿的位置,那我就会考虑:我这个方向里是不是有很多基本问题?我们是不是可以换个方式去做?或者我做的过程中发现,比如行为理解缺乏一些非常基本的东西:应该怎么定义人类的行为?它有没有像英文字母一样的一些primitive?如果没有,我们是不是要去定义它?如果有,应该怎么实现?这里面有一些很基础的问题,其实我在做第二类和第三类论文时就会思考。

但那时没有办法解决,只有经过两年多的积累,各方面条件成熟了,我才有资格去挑战这个问题,才会进入一和二之间,甚至去做第一类论文。这个阶段非常难,一是成功概率低,二是不太容易被接受。 因为这类论文需要你的想法和大多数审稿人的想法基本匹配才能中。审稿机制会挑选出正态分布两三个σ以内的文章,特别与众不同的论文也不太好中。所以本质上是两个极端:要么做得特别差,要么做得特别前沿。过于前沿就会变成“先烈”,稍微前沿一点变成“先知”。

这就是一个模型,可以让你大致理解科研的演进规律,在博士生阶段我觉得是够用的。如果你后面要当老师了,那就要有自己的哲学和美感,就是你觉得这个问题,虽然不知道怎么解决,但你相信某种优雅、简洁的方法才是合理的,哪怕做一辈子也没突破也没关系,那是另一种追求。当然我觉得目前AI领域发展比较快,做这种风格的人可能会少一点。但有人这样做,他们都拿了图灵奖,对吧?所以看你的个人追求是什么。

当我们的研究被别人抢先发表的时候,可能会陷入一种情绪低迷的状态。您觉得这种情况我们应该如何应对?

有句话说“选择比努力重要”。首先,如果你对自己做的是哪个区段的工作有清晰的认识,你就已经知道这个风险了。你所有的行为都来源于你对未来整体收益的期望估计。就像你买了一只股票,它可能会涨会跌。这是第一点。第二,如果你已经做出了选择,很多事情就进入了action space,你就跳不出来了。比如你已经做了一年半,还有沉没成本,你必须把它完成。这个时候突然被大团队撞上了,那确实很惨。

这也是科研中会遇到很多挫折的原因,因为有价值的东西大家都看得到,都会去抢。这个时候我觉得:一是要珍惜已有的结果。 世界上没有两片完全相同的叶子,你做的东西一定和他有不一样的地方。你可以考虑把文章里重叠的部分剥离掉,去发展一些你自己独特的地方。二是痛定思痛,他们做出了这样一个重大成果,你为什么没有做出来?这其实是一个自我成长的重要契机。你要想一想这个问题,如果是平台性的问题,你就要考虑个人的选择;如果不是平台性问题,而是你自己策略上的问题,那你就要更新你的策略包。这是一个我觉得比较重要的事情。我也经历过这种问题,而且最近比较频繁。这没办法,因为一个科学问题在高速发展期就是这样。这种事情一定会发生,无非是谁来做。所以其实还是看个人追求。如果你自己喜欢投入这种竞争,喜欢去赢,并且也有这个实力,那你就去做这种工作,总得有人做这样的工作。大家都“避世”躲进山里也不现实,总得有人“入世”。

一个是对这个事情本身的认识,另一种就是我们中国有巨大的哲学积淀,可以帮助你更好地调整心态。 我的办公桌上贴了几句话,比如“无心而为”:做事情不要太功利,太功利、算得太细,其实你算不出来的。还有“无所为而为”:有些事情你不用刻意去做,只要平时积累就可以了。还有“无为无不为”:有些事情不需要那么算计地去考虑。当然不是让你完全不算。比如我知道这件事很难,但我还是要干,这是孔子的一种勇气的哲学。所以面对这种情况有两个层面:一种是策略层面,我们肯定要足够理性;另一种是从哲学上去看待这件事,你看待它的方式不一样,就会极大地影响你的心情。 所以如果你把它看成一种机械式的对抗,那就一定会有消耗,这是必然的。你不能只选择快乐,选择了快乐就会有痛苦。

以及这是一个很长期的事情,一时的得失其实没有我们想象的那么重要。比如问你个问题:你两年前,大二时忧虑的那些问题,现在还会忧虑吗?你肯定觉得那时候傻乎乎的,为什么会忧虑这种问题。一样的,两年后你也不会忧虑你现在忧虑的事。我觉得事情是这样的。

另外不是有个“一万小时定律”吗?也不一定非得一万个小时,但确实需要重复性的、刻意的训练。一件事情当你的心理成本很低的时候,你就不会痛苦了。就像刷牙一样,你不会觉得刷牙好麻烦。我遇到过一些很牛的人,大家都去聚餐了,他就坐在那里写论文。他不会把它当成一件很特别的事。所以,当你到一定阶段的时候,面对文章中了或者没中,你也会比较平静。

达到这种心态也有两种方式:一种是无意识地达到那种状态,就是经验到了,自然而然就到了;另一种是有意识地接近那种状态。我觉得第二种会好一点,你不是糊里糊涂地达到那个状态,而是很清楚为什么这样。这样可以举一反三,在很多其他事上你也可以用到这个技巧。 所以读博最重要的事情之一是对于自己的心智、思维、做事方法,甚至包括你自己的智力都需要进行“reshape”。我觉得这可能是你成熟之前最后一次低成本修改自己模式的机会,因为毕业之后可能就不太允许你有这么多的容错空间去尝试。所以读博有一个很重要的任务,就是重新审视自己想要的东西、自己的状态,以及自己作为一个“系统”,是否适合你想要的东西。最后要达到的状态是:你喜欢的、你想要的、你从事的工作,这三者能否对齐。如果能对齐,我觉得不管怎么样都会有一个不错的未来。

在您带过的学生里面,有没有什么印象比较深刻的例子?

那多了。我接触过很多同学,有我的师弟师妹,也有我自己带的学生。我就不举具体例子了。

我个人喜欢比较踏实的学生。不是说他很勤奋,而是他天生不那么急躁。这是一种性格禀赋,他更冷静一点。更冷静就会给自己更多的机会去理解客观事物,进行客观分析,而不是完全出于条件反射的本能和别人告诉你的经验。 冷静下来后,你会更愿意用自己的脑子去思考问题。所以我觉得一般这种同学会成长得快一点,少走一些弯路。

当然,交大的同学整体都比较聪明,我遇到的厉害的学生很多,有很多比我强。他们毕业之后去外面发展,做得很好。这个就很难一概而论了。

还有一点就是,其实不管是成功还是失败,成功的方式有很多种,做得好的人各种各样。但做得不好,有一些固定的模式。 但这和“幸福的家庭都是相似的,不幸的家庭各有各的不幸”那句话不完全一样。有一些固定的失败模式是可以借鉴的。比如选择方向时,什么火就做什么;或者对审稿人或一些意见特别emotional,把它当成一种对个人的评价,就会很难受。没有人喜欢被否定,对吧?如果你把文章的审稿意见变成别人对你个人的评判,那就会很累。

像前段时间ICLR,大家都很激动。我年轻时也是这样。后来想清楚一个问题,就是我刚才讲的:它是一种分布的匹配。只是说你的文章刚好在正态分布的某个位置,你才得到了这样的反馈。另一个是,很多时候我们会有作者和读者之间的偏差,我们会觉得,我写一篇文章,读者应该理解我,但其实别人阅读是需要成本的。所以这层关系需要换位思考之后才能明白。

您对本科生科研怎么看?您觉得是应该早点开始好,还是晚点开始好?

这个问题很有争议。**我是觉得,如果不以培养“卷王”为核心的话,可以早点开始。如果只是单纯地去卷论文、卷奖项、卷奖学金、卷GPA,我觉得从长期来看不一定是好事。**我也有很多本科生实习生,我更希望他们先有一个基础。我只针对CS和AI专业(别的专业我不知道)。我会让他们先学一些基础课程,再真正到实验室做实验。在进实验室之前,要先学课程,每周固定时间练习编程,这不管在不在这个实验室都是有用的。

另外,他们来了之后,我希望他们能提早掌握一些基本的研究技巧。这不仅仅是为了发论文。做其他事情,比如今天我做饭,也要考虑并行和串行,对吧?这是一种思维模式。所以我觉得这个可以提前开始,但不是说一定要在本科就发表那么多篇一作论文,比如发5篇、3篇,我觉得没有必要,因为人生路很长。

我认为最重要的事情之一是“taste”要好。 这个“taste”很玄乎,每个人都觉得自己品味好,但其实不是的。科研里有一些固定的模式,好的研究问题有一些固定的例子。所以我觉得年轻的时候应该接受好的品味的熏陶。这不一定非得是这个老师来教。你可以去看爱因斯坦、曼宁(Manning),或者其他学者。比如汉明(Hamming)有一个演讲叫“You and Your Research”,里面讲到不同的学者。这种经过多年认证的科学研究的品味,需要很早就开始培养。因为这属于所谓的“道”层面的东西,就有点玄乎了。

还有一个事情是,现在确实资源有限,而且“卷”是一个客观现实,逃避它没有意义。你将来想去一个更好的平台,有更多的发展空间和机会,那确实需要和同龄人竞争,这是客观现实。所以,在课余有余力的情况下,早一点做一些研究,有一些成果是好事。而且年轻人,我觉得是这样的。

像AI这种学科,它并不需要多少资历才能做事情。你可以看到很多创业者、很出名的研究者都很年轻,20多岁就可以了。 所以不是一定要到27岁才能开始做事业,年轻的时候就可以。甚至你本科就可以做出很强的工作,那为什么不做呢?我很不喜欢用资历去评价研究水平,这完全没有关系。甚至你脑子里“senior”的东西太多了,反而不利于你做研究。

所以我觉得本科生应该有志向去做一些伟大的事情,这不是唱高调,是真的可以。 因为可以看到OpenAI,或者其他一些很强的实验室里,很多人也就20多岁就做出了非常重要的工作,甚至很多人一辈子都做不出来。所以我觉得这个时代对做AI的人是很幸运的,他们可能没有掌握社会资源和地位,却会有这样的机会。在别的行业可能没有这样的机会。别的行业看你是个20多岁的年轻人,可能不会理你,但在AI领域不是这样。

所以从这个角度来说,如果你学有余力,我觉得早一点接触科研没有坏处,但不是说你一定要去卷很多篇论文。 因为有时候论文发多了不一定是好事。论文只能在初期和你的水平大致正相关,但到了一定阶段之后就不一定了。比如体重越大,力气越大,初期确实是这样,到了一定阶段就不一定了,这是另一回事。

您在上ACM班的《计算机视觉》课时,会收获到什么样的感受?或者说做老师这个职业给你带来了什么样的成就感?

我觉得学生年年都不一样。现在的学生基本上每一年都和上一年很不一样,很有意思。每一年的学生都觉得上一年的学生已经很老了,其实只是比他们小一岁。因为这个时代发展很快。两年前,没人觉得写代码是可以自动化搞定的事情,现在大家甚至都开始反过来想了。我以前布置大作业会在coding上考考他们,但现在发现考coding没有意义了。现在我就要考虑别的问题。所以我一般都会希望他们不是仅仅学会知识,因为知识很容易忘掉。我一般都会强调:这节课我觉得你们应该记住的一句话是什么,而不是一个具体的知识点。

另外,我非常有感受的一点是:提问题的能力是一个更重要的问题。现在知识很便宜了,甚至很高深的知识都很便宜。问题是你会不会query(提问)?提问题,是需要水平的。像咱们高考写作文,可能给你一整段引言让你写作文。有的人只是问:“啊,这个是怎么回事?”这样的问题没意义。你要有很长的题干,有上下文,然后提出一个问题,那个问题的解空间才会很清晰,它会让你对这个深刻、复杂的问题有很好的理解。

我觉得给他们上课时,我更在乎这个。当然,ACM班的同学有很好的编程基础,所以在活跃度和兴奋度上会好一点,思维会比较活跃,这是一个很典型的特点。然后其他方面,我感受到现在的年轻人和我们那时候变化特别大。对,其实也很好理解,因为客观的物理现实和基础也不一样了。

对于在AI大模型时代成长起来的新一代学生,您如何看待他们所处的环境及其对学习与科研的影响?

过去要想获取一些信息是需要很多条件的,现在你可以很便宜地打开手机获得信息。

复杂度发生了转移,转移到了别的事情上。**过去的成本在获取信息的条件上,以后可能就变成了:你都掌握这么多信息了,信息过载了,你怎么样去过滤?**以及在大家都有信息的情况下,你会不会主动采取一些行动?你做的事情能不能让你快速迭代起来?这意味着大家做事的成本都降低了,这时候就考验一些其他的东西。这是学生时代,甚至整个教育行业都要面临的问题。

我们过去培养的是让学生掌握更丰富、更系统、更全面的知识,掌握很多动手能力。现在知识不需要存到脑子里了,可以存到大模型里。这就相当于有很多助手,可以调用大模型来做事。这个时候难度就从努力获取、记住或运用信息,变成了一些别的事情。这需要老师、学生、学校,包括整个社会一起去研究。

现在大模型刚出来,还太新鲜了,我们自己也要适应。过去很多工程问题现在不再是问题了。比如写一个前端,很容易就写出来了。我现在给学生改论文,以前改得很头疼,全是typo,现在看到typo会很开心,为什么?证明这不是大模型生成的,它还有点语法错误。以及现在会检测你多少内容是大模型生成的,那注重的就是大模型之外的方面。

我觉得事情没有变简单,只是复杂度转移了。

您在科研之外有其他的兴趣爱好吗?这些兴趣爱好对您有什么意义呢?

我以前有一些爱好,我很喜欢看漫画,也很喜欢看电影。但是现在时间有限,我已经很久很久没看过电影了,漫画买了也没时间看,偶尔闲的时候会翻一翻。

**我觉得是这样:我喜欢体验不同人的生活。所以当你自己没有足够的时间和精力时,可以通过“代入”的方法去体验。这是一种拓展人生体验的方式,对研究有帮助,因为它会改变你固定的思维模式。**有时候你想不出一个东西,其实是因为你看问题的角度有问题。科研很多时候就是找新的看待问题的角度,这时候你也不可能换一个脑子。你只能说:如果我是谁,我经历过这样的事,我会怎么看待这个问题?这就是一个获取idea很好的方法。

过去的话,你可能需要真的到那个地方,和那个人有深度理解后才能做到。但其实通过书本、电影或其他方式也可以获取,就看你自己愿不愿意了。有些人可能只关注其他东西,有些人会想:如果是我,我会怎么做?喜欢历史的人应该都会有这种感触。