首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

大众集团启动欧洲范围数据驱动道路安全计划 极氪8X外观设计官方解读:一体式直瀑格栅 保时捷多款纯电车型接入特斯拉超充网络 一汽红旗全固态电池首台样车成功下线 一场岛屿争端,为何让欧洲车企股价集体雪崩? 特斯拉与沃尔沃汽车将成为中加电动汽车协议首批赢家 启境汽车发布第三期网友问答,线下服务网络规划明确 纯电下滑30%!2025俄罗斯车市大洗牌 华为上半年的大招!麒麟9030+直屏+3D面容识别,Pura90放手一搏 后库克时代谁主苹果? “硬件掌门”约翰·特努斯呼声最高 不讲武德,什么电摩敢卖几十万? 月销87870台,同比下滑32.4%,上汽大众2025年12月销量出炉 全域AI 2.0助力,吉利今年将带来全新智舱、智驾体验 魏牌12899台,哈弗66453台,长城汽车2025年12月销量出炉 2025年12月的新势力销量成绩单,藏着未来的生死局 新能源电驱领军企业未来3年采购额预计破30 亿,寻源泛欧供应商! 启境汽车官宣11月20日发布 SU7部分车型交付提速,小米汽车有何考量? 小米汽车公布车辆“相对超速”提示专利 2025年1-9月智能座舱供应商装机量排行榜:技术迭代加速,头部优势凸显 进厂打工!优必选工业人形机器人WalkerS2开启量产交付 新一代奔驰GLB内饰官图发布 12月8日亮相 法雷奥温岭新厂房即将投产 华为乾崑All in新品牌\"启境\",首款车型2026年年中上市 换装第五代2.0T发动机!中期改款揽巡发布 华为加持!广汽丰田铂智7亮相 东京车展沦为“地方庙会”?全球车市仍看日本脸色 锂电池出口管制暂停实施;马斯克或将离开特斯拉 华域汽车前三季度净赚46.9亿元;保隆科技与威孚高科合资公司开业 最低购车价6.48万 2026款起亚奕跑上市