广告
加载中

谷歌视频大模型VideoPoet负责人蒋路已加入TikTok

赵健 2024/02/22 10:12

「甲子光年」独家获悉,谷歌高级科学家、卡内基梅隆大学(CMU)计算机学院兼职教授蒋路,已经加入TikTok。

蒋路是谷歌VideoPoet项目负责人,VideoPoet是谷歌在2023年 12月推出的视频生成大模型,类似OpenAI刚刚发布的Sora。

昨天,昆仑万维创始人周亚辉在朋友圈表示,有个论文的作者加入字节北美做Tech Leader,正是指《VideoPoet:A large language model for zero-shot video generation》论文的作者蒋路。

资料显示,蒋路先后在西安交通大学、布鲁塞尔自由大学、卡内基梅隆大学学习计算机,并先后进入微软亚洲研究院、谷歌研究院、雅虎研究院实习。

2017年,蒋路毕业后加入谷歌。他是谷歌云AI的创始成员,也是李佳博士和李飞飞博士首次聘请的研究员。此后,蒋路进入谷歌研究院工作。

蒋路的研究曾被应用到谷歌多个产品,如YouTube、云服务、云AutoML、广告、Waymo和翻译服务,影响了全球数十亿用户的日常生活。

蒋路的工作在自然语言处理(ACL)和计算机视觉(CVPR)的顶级会议上被提名为最佳论文。他是研究社区的活跃成员,担任美国国家种子基金(NSF SBIR)的AI评审专家,并定期担任CVPR、ICCV、NeurlPS、ACM Multimedia和 AAAI等著名会议的领域主席。

蒋路的研究兴趣主要在多媒体交叉领域,他专注于生成式AI和视频创作。2019年起,他就开始尝试将Transformer用在图像、视频生成研究上。

与Sora采用的Diffusion+ Transformer架构不同,蒋路负责的VideoPoet视频生成模型采用了单Transformer架构,可以将任何自回归语言模型或大型语言模型转换为高质量的视频生成器,支持生成方形或纵向视频,以针对短格式内容定制生成视频,并支持视频输入生成音频。

VideoPoet采用了名为Tokenizer的数据处理技术,可以将视频和音频片段编码为离散标记序列(discrete tokens),这些标记也可以被转换回原始表示。其中,视频和图像数据使用名为MAGVIT V2的技术,音频数据使用SoundStream的技术。

VideoPoet通过使用多个Tokenizer训练一个自回归语言模型,以学习跨视频、图像、音频和文本模态。一旦模型根据某些上下文生成了标记,这些标记就可以通过分词器解码器转换回可查看的表示。

3周前,蒋路本人在职场社交平台宣布了自己在谷歌的Last Day,并特别表示对在谷歌所做的视频生成项目(VideoPoet,MAGVIT,WALT等)感到自豪。

蒋路表示自己将继续留在湾区,开始视频生成领域的新旅程。现在来看,新的旅程就是TikTok。

值得一提的是,字节跳动已经在大模型领域全面布局,模型层推出了自研的「云雀大模型」以及类ChatGPT对话机器人产品豆包。2023年底,字节跳动成立新的AI应用部门Flow,并在海外推出了Coze等多款产品。抖音集团CEO张楠也于近期卸任,专注于AI工具剪映的发展。

字节跳动昨天辟谣了推出中文版Sora,并表示:“还无法完善产品落地,距离国外模型有很大差距。”但另一方面,字节跳动正在大力招揽人才。

大模型战场,字节跳动将会如何搅局?

注:文/赵健,文章来源:甲子发现,本文为作者独立观点,不代表亿邦动力立场。

文章来源:甲子发现

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0