机器之心报谈妖媚婷儿 户外
剪辑:Panda、大盘鸡
视频生成界限的确越来越卷且越来越迈向实用性!
在 OpenAI Sora 难产的时候,Meta 首次公开展示了自家的「用于媒体的打破性生成式 AI 计划」:Meta Movie Gen。
Meta 在相应博客中使用了「premiere」一词,也便是首次展示,因此手痒的用户可能还得再等上一段时刻。
Meta 泄露:「无论是但愿在好莱坞大展技艺的电影制作主谈主,如故趣味为不雅众制作视频的创作家,咱们笃信每个东谈主都应该有契机使用有助于提高创造力的用具。」
把柄 Meta 的描画,Movie Gen 的功能包括:文本生成视频和音频、剪辑已有视频、图片生视频。而且东谈主类评估标明,Movie Gen 在这些任务上的领路均优于行业内访佛模子。
具体的效果若何,咱们先来看几个示例。
不错看到,小女孩在奔波的过程中衣服的褶皱就依然吊打好多视频生成应用了。
prompt:一个女孩正在海滩上奔波,手里拿着一只风筝。她衣着牛仔短裤和黄色 T 恤,阳光洒在她身上。
在记忆、正视前线、含笑的几个看成中,东谈主物面部依然不错保持踏实情景,克服了形变。怪不得 Meta 在博客中还谈到,这是能够用来分享平淡生涯的厚爱技艺。
prompt:别称女子正坐在南瓜田的草地上。她围着领巾,手里拿着一个杯子。布景中是一溜排南瓜。
生成动物对 Movie Gen 来说亦然小菜一碟。动物的毛发、看成都十分传神。仔细看这只山公的尾巴,在讳饰后依然能够罢黜讳饰前的诱骗轨迹。布景生成收尾也十分贴合 prompt。水面的波动、反照都维妙维肖。不外水下折射的生收效果看起来还有些跳跃空间。
prompt:一只红脸白毛的山公正在自然温泉中沐浴。山公在玩水面上的一艘袖珍风帆,这艘风帆由木头制成,配有白色的帆和小舵。温泉周围环绕着邑邑芊芊的绿植,有岩石和树木点缀其间。
视频时刻长一些,Movie Gen 也能有踏实的领路。东谈主物大幅度看成的展现也相比传神。但每一帧定格下来,还会有些纰谬。不外这是视频生成一贯的贫寒,Meta 概况会在改日进行矫正。
prompt:镜头位于别称男人的死后。男人赤裸上身,腰间系着绿色布料,光脚耸峙。他的双手各持一个点火的物体,作念出大幅度的圆周看成。布景是一派安心的海面,火舞营造出迷东谈主的氛围。
Sora 刚刚问世时,不时还需要 Elevenlabs 这么的音频生成应用来辅助。而 Movie Gen 彰着愈加方便,除了视频生成,配备相应的音乐、音效亦然看家本事。
面临一通盘这个词视频的场景,合适的布景音乐能够贯串全程。不仅如斯,音效的适配度也很高。这个瀑布流泻的水声就十分传神。
视频贯串:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936903&idx=1&sn=ce6d9d9b862c95a11fcfbc45ef0c7483&chksm=84e7d239b3905b2fc62f64be47bbd94b903a079b388d41ff31fbacd3c66458bf9351b740e267&token=140482680&lang=zh_CN#rd
prompt:雨水流泻在绝壁和东谈主身上,有布景音乐。
更让东谈主讶异的是,音效还能够精确地与视频内容匹配。它能够通过视频中的看成节点来把抓音效出现的时机,让画面和声息相得益彰,给咱们呈现出齐备的生收效果。
视频贯串:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936903&idx=1&sn=ce6d9d9b862c95a11fcfbc45ef0c7483&chksm=84e7d239b3905b2fc62f64be47bbd94b903a079b388d41ff31fbacd3c66458bf9351b740e267&token=140482680&lang=zh_CN#rd
prompt:车轮飞快旋转,滑板落在水泥地上发出砰的一声。
无论是视频,如故音频 Movie Gen 看起来都领路优异。
若是 Meta 所言非虚,那么 Movie Gen 也真算得上是当今起头进和最千里浸式的「讲故事模子套件(storytelling suite of models)」。
Meta 泄露熟识使用的数据集都是公开数据集或已得回授权的数据集。底下将简要先容各项智力以及背后的技艺,更多笃定请参阅原论文。
论文称号:MovieGen: A Cast of Media Foundation Models论文贯串:https://ai.meta.com/static-resource/movie-gen-research-paper更多演示:https://ai.meta.com/research/movie-gen/
Meta 在博客中粗拙记忆了我方的视频生成之旅。他们的第一波生成式 AI 计划始于 Make-A-Scene 系列模子,这些模子不错生成图像、音频、视频和 3D 动画。
跟着扩散模子的出现,他们又基于 Llama 基础模子作念出了第二波计划,成功齐备了更高质地的图像和视频生成以及图像剪辑。
Movie Gen 则是 Meta 的第三波计划。他们将以上通盘模态都组合到了沿路,并能夙昔所未有的神志为用户提供进一步的细粒度遏抑。
底下详备先容 Movie Gen 的各项智力。
视频生成
给定文本教唆词,Movie Gen 会使用一个针对文生图和文生视频任务优化过的蚁集模子来创建高质地和高澄澈度的图像和视频。这个 30B 参数的 Transformer 模子有智力生成长度最多 16 秒帧率为 16 FPS 的视频。Meta 泄露还发现这些模子不错推理物体诱骗、主客体交互和相机诱骗,而且它们还能学习各式观点的合理诱骗 —— 这也使它们成为了同类中的 SOTA 模子。
具体经由如下图所示,他们先通过一个时刻自动编码器模子(TAE)熟识了一个时空压缩的隐空间,然后再基于此熟识了一个生成模子。
模子架构上,他们接受了 Transformer,合座位于 Llama 3 的想象空间中。下表展示了其 30B 参数基础模子的各个超参数。值得防范的是,这里的 30B 参数指的是 Transformer 自身的参数目,并不包含文本镶嵌模子、TAE 等。
为了熟识这个模子,Meta 使用了多达 6144 台 H100 GPU,每一台的热想象功耗为 700W,而且都配备了 80GB 的 HBM3。
下图展示了 Movie Gen Transformer 主干网罗的合座结构以及所使用的模子并行化机制。具体来说包括张量并行化(TP))、序列并行化(SP)、荆棘文并行化(CP)和全分享式数据并行(FSDP)。
熟识经由上,他们接受了一种多阶段熟识法子,该法子分为三个阶段:
在文生图(T2I)任务上进行驱动熟识,sewang之后再在文生图和文生视频(T2V)任务上进行蚁集熟识;徐徐从低分裂率 256 像素的数据膨胀成 768 像素的高分裂率数据;在野心和时刻遏抑上,使用矫正过的数据集和已优化的熟识法子进行连续熟识。
之后当然也会践诺微调。
而在推理阶段,Meta 的一个转变想路是率先使用 Llama 3 对用户输入的教唆词进行重写,将其膨胀成愈加详备的版块。实践标明该法子如实有助于晋升生成收尾的质地。此外,Meta 还在晋升推理效劳方面引入了一些新想路。
效果上,下表展示了 Movie Gen Video 模子与之前干系计划的胜率情况。防范这里的数值是 Movie Gen 的告捷百分比减去落败百分比,因此可知 Movie Gen 的合座领路胜过之前的模子。
个性化视频
基于上述基础模子,Meta 还拓荒出了个性化视频功能。用户只需提供东谈主物图像输入和对应的文本教唆词,就能生成包含该东谈主物以及文本描画的细节的视频。Meta 泄露 Movie Gen 生成的个性化视频在保留东谈主类身份和诱骗方面作念到了 SOTA。
下图展示了个性化 Movie Gen Video 模子(PT2V)的架构和推理经由。
具体来说,率先使用 Movie Gen Video 模子的权重对该模子进行驱动化,然后添加非凡的可学习参数来基于参考图像齐备条目化剪辑。
熟识过程先是进行预熟识(分为身份注入、长视频生成、晋升当然度三个阶段),然后践诺监督式微调。
收尾上看,在经过微调之后,PT2V 模子在身份和东谈主脸一致性上的领路都绝顶不凡。
下图展示了两个与 ID-Animator 的对比示例:
精确的视频剪辑
如故基于相似的基础模子,Meta 也作念出了视频剪辑功能,而且不错作念到相配精确的剪辑 —— 可仅操作干系像素!具体来说,给定一段视频和文本教唆词,模子不错生成安妥要求的经过修改的输出,其中包括一些相配高阶的剪辑功能,比如添加、移除和替换元素,修改布景和立场等全局成分。
若是背面执行效果真如 Meta 描画那么好,那么这项功能可能会成为一大利器。
为了作念到这极少,Meta 团队相似接受了一种多阶段法子:率先践诺单帧剪辑,然后进行多帧剪辑,之后再合座剪辑视频。
为此,他们对前述的视频生成模子进行了一番修改。率先,通过向图块镶嵌用具添加非凡的输入通谈而齐备了对输入视频的转变,从而可沿通谈维度将隐含的视频输入与有噪声的输出隐视频谀媚起来,并将谀媚后的隐视频提供给模子。
此外,按照 Emu Edit 的作念法,他们还加入了对特定剪辑任务(举例添加对象、更正布景等)的接济。具体来说,该模子会对每个任务学习一个任务镶嵌向量。关于给定的任务,模子对相应的任务镶嵌应用线性变换,产生四个镶嵌,这些镶嵌与文本编码器的粉饰泄露谀媚在沿路。咱们还对任务镶嵌应用了第二个线性变换,并将得到的向量添加到时刻步镶嵌中。另外,为了饱和保留模子的视频生成功能,他们将通盘新添加的权重诞生为零,并基于预熟识的文生视频模子驱动化剩余的权重。
该法子的效果相配显耀,在两个数据集上的东谈主类和自动评估收尾基本都优于其它对比法子。顺带一提,Movie Gen Edit Bench 是 Meta 提议的一个新基准,用于评估「下一代视频剪辑模子的视频剪辑智力」。
天下第一在线视频社区音频生成
此外,他们还熟识了一个 13B 参数的音频生成模子 Movie Gen Audio。该模子不错基于视频和可选的文本教唆词生成长达 45 秒的高质地高保真音频,包括环境声息、音效(Foley)和布景音乐 —— 通盘这些都与视频内容同步。
视频贯串:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936903&idx=1&sn=ce6d9d9b862c95a11fcfbc45ef0c7483&chksm=84e7d239b3905b2fc62f64be47bbd94b903a079b388d41ff31fbacd3c66458bf9351b740e267&token=140482680&lang=zh_CN#rd
底下是 Movie Gen Audio 的模子暗意图,不错看到其接受了基于流匹配(flow-matching 生成模子和扩散 Transformer(DiT)的模子架构。此外,还添加了一些条目化模块来齐备对模子的遏抑。
此外,他们还提议了一种音频膨胀技艺,不错为淘气长度的视频生成连贯的音频。底下是该技艺的暗意图。其野心是一次生成 30 秒长度的音频,然后哄骗该膨胀延展至淘气长度。
总体而言,他们在音频质地、视频到音频对皆和文本到音频对皆方面齐备了 SOTA。
结语
Meta 在架构、熟识野心、数据不竭法子、评估公约和推理优化等多个技艺方面作念出了转变打破。下图展示了 Movie Gen 四项智力的东谈主类 A/B 评估对比收尾。正净胜率泄露东谈主类相较于其他行业模子,愈加偏疼 Movie Gen。
Meta 这一次展示我方在视频生成方面的计划效果如实出东谈主预料,这也使其成为了这片越来越拥堵的战场的又一强力竞争者,而且咱们也还不明晰 Meta 是否会像发布 Llama 系列模子那样饱和免费发布 Movie Gen,让我方在真・OpenAI 之路上连续前进。总之,网友们依然在期待了。
终末妖媚婷儿 户外,例行老例,如故得向 OpenAI 问一句:Sora?