揭秘！Sora背后的2篇技术论文，其一去年被拒稿

2024-03-01

4989

随着人工智能（AI）巨头OpenAI再次搬出王炸引爆全球科技界，文生视频大模型Sora背后的研发团队也进入公众视野。

研发团队15人，不乏00后与华人

公开资料显示，两位研发负责人Tim Brooks和Bill Peebles均博士毕业于伯克利人工智能研究所，导师同为Alyosha Efros。

Tim Brooks在伯克利期间发明了InstructPix2Pix，曾在谷歌从事为Pixel手机摄像头提供支持的人工智能工作，并在英伟达从事视频生成模型的工作。同时，他也是OpenAI文生图模型DALL·E的主要研究员。

William (Bill) Peebles（Bill系William昵称）本科毕业于麻省理工学院，师从Antonio Torralba，曾在Adobe和英伟达有过实习经历。

根据OpenAI官网介绍，Sora核心团队共有15人，除了研发负责人，团队还有00后，亦不乏华人身影。而从公开资料显示的毕业和入职时间来看，这支团队的成立时间尚未超过1年。

基础论文曾因“缺乏创新”被拒

Sora背后，是两项核心技术的突破——Spacetime Patch（时空Patch）技术和Diffusion Transformer（DiT，或扩散型 Transformer）架构。

时空Patch技术

OpenAI发布的Sora技术报告中透露了Sora的主要理论基础，其中Patch的技术论文名为《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》。该篇研究论文是由谷歌DeepMind的科学家们于2023年7月发表的。

DiT架构技术

OpenAI发布的Sora技术报告透露，Sora采用的DiT架构是基于一篇名为《Scalable diffusion models with transformers》的学术论文。而这篇论文，是由Peebles和华人学者谢赛宁一起合著的。

但戏剧性的是，这篇论文曾因为“缺乏创新”，被CVPR（国际计算机视觉与模式识别会议）2023拒绝。仅仅1年之后，就成为Sora的核心理论之一。