揭秘!Sora背后的2篇技术论文,其一去年被拒稿

2024-03-01 3867

随着人工智能(AI)巨头OpenAI再次搬出王炸引爆全球科技界,文生视频大模型Sora背后的研发团队也进入公众视野。


研发团队15人,不乏00后与华人


公开资料显示,两位研发负责人Tim Brooks和Bill Peebles均博士毕业于伯克利人工智能研究所,导师同为Alyosha Efros。

Tim Brooks在伯克利期间发明了InstructPix2Pix,曾在谷歌从事为Pixel手机摄像头提供支持的人工智能工作,并在英伟达从事视频生成模型的工作。同时,他也是OpenAI文生图模型DALL·E的主要研究员。

William (Bill) Peebles(Bill系William昵称)本科毕业于麻省理工学院,师从Antonio Torralba,曾在Adobe和英伟达有过实习经历。

根据OpenAI官网介绍,Sora核心团队共有15人,除了研发负责人,团队还有00后,亦不乏华人身影。而从公开资料显示的毕业和入职时间来看,这支团队的成立时间尚未超过1年。


基础论文曾因“缺乏创新”被拒


Sora背后,是两项核心技术的突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型 Transformer)架构。

时空Patch技术

OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》。该篇研究论文是由谷歌DeepMind的科学家们于2023年7月发表的。

DiT架构技术

OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为《Scalable diffusion models with transformers》的学术论文。而这篇论文,是由Peebles和华人学者谢赛宁一起合著的。

但戏剧性的是,这篇论文曾因为“缺乏创新”被CVPR(国际计算机视觉与模式识别会议)2023拒绝。仅仅1年之后,就成为Sora的核心理论之一。

版权声明:文章来源澎湃新闻、网络等,由艾思科蓝整合撰写。分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。


扫码关注艾思科蓝订阅号 回复“0”即可领取该资料

去登录