快手发布对标Sora的视频生成大模型「可灵」已开放邀测体验

OpenAI文生视频大模型Sora发布后，国内企业争相入局，国产文生视频大模型迈入加速阶段。36kr获悉，近日又一国产视频大模型加入战局，快手“可灵”视频生成大模型官网目前已正式上线。相较此前各家放出的视频大模型以展示视频为主，本次亮相的可灵大模型不但效果对标Sora，且已在快手旗下的快影App开放邀测体验。

可灵大模型官网

作为短视频领域头部玩家，快手在短视频视频技术方面有多年的深入积累，其视频生成大模型也有天然、广泛的应用场景。可灵大模型为快手AI团队自研，采用类Sora的技术路线并结合多项自研创新技术，具备诸多优势：1、能够生成大幅度的合理运动；2、能够模拟物理世界特性；3、具备强大的概念组合能力和想象力；4、生成的视频分辨率高达1080p，时长高达2分钟（帧率30fps），且支持自由的宽高比。

具体而言：可灵大模型能够生成大幅度的合理运动。可灵采用了3D时空联合注意力机制，能够更好地建模视频中的复杂时空运动。因此，可灵大模型不仅能够生成较大幅度的运动，且更符合客观运动规律，能够真正做到让想象力动起来。下面宇航员在月球上奔跑的例子中，随着镜头慢慢抬升，我们可以看到宇航员跑步的动作流畅轻盈，步态和影子的运动合理恰当。

prompt：一名宇航员在月球表面奔跑，低角度镜头展现了月球的广阔背景，动作流畅且显得轻盈

能够模拟真实物理世界的特性。得益于自研模型架构及Scaling Law激发出的强大建模能力，可灵大模型为我们构建起了一个无限逼近现实的想象空间，无论是真实世界的光影反射，重力影响下的流体运动，还是与物理世界的交互，可灵大模型都能够生成符合物理规律的视频。下面是小男孩吃汉堡的生成视频，一口咬下去，汉堡被咬掉一个大大的缺口，并在视频中一直保持。可以看到小孩咀嚼汉堡的享受表情，脸部的肌肉动态非常逼真。

prompt：一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

具备强大的概念组合能力和想象力。凭借模型对文本-视频语义的深刻理解和基于 Diffusion Transformer 架构学到的强大概念组合能力，可灵大模型能够将用户丰富的想象力转化为具体的画面，让创意触手可及。下面的视频展示了熊猫吉他手坐在湖边弹着吉唱着歌的想象场景。

prompt：一只大熊猫在湖边弹吉他

可灵大模型生成的视频分辨率高达1080p、时长高达2分钟（帧率30fps），且支持自由的输出视频宽高比。可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频，可以生成高达1080p分辨率30fps的视频。得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构，可灵大模型能够生成长达2分钟的视频。在推理过程中，还可以做到同样内容输出多种视频宽高比。同时，可灵官网还展示了分钟级的视频生成效果，可以跟随镜头看到，小男孩骑自行车游览花园，在一镜到底中穿越春夏秋冬四季的风景。

快手发布对标Sora的视频生成大模型「可灵」 已开放邀测体验

免费教学更多>>

快手发布对标Sora的视频生成大模型「可灵」已开放邀测体验