首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28来源: 15210273549

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

德勤携手戴尔、NVIDIA推出端到端服务方案,助力政府AI应用落地 对标苹果A18 Pro,小米正式发布玄戒系列芯片 8200美元起:Caviar打造豪奢版iPhone 16 Pro,致敬经典腕表 古尔曼:苹果AI智能眼镜项目加速,目标在2026年底发布首款产品 苹果计划2026年底推智能眼镜,与Meta、谷歌竞逐新市场 荣耀披露阿尔法战略细节,将投百亿立足深圳建设AI终端生态 一加Ace 5竞速版曝光:首发天玑9400e+7100mAh, 性能电量双突破 中兴通讯午后走势分析:震荡上行遇压,主力资金流出需警惕 魅族 Note 22 5G 作为一款坚固且价格亲民的安卓智能手机在全球上市 真我Neo7 Turbo“透明灰”亮相,天玑9400e助力,科技感拉满 2025华为全系手机价格大曝光!Mate70 Pro居然比iPhone便宜? 定损14.7万,保司只愿赔付6.2万,4S高返点抢来的事故车砸手里了? 智能纯电性价比之王 试驾广汽丰田铂智3X 阿维塔11增配上市28.99万起,新增暗夜骑士版 仰望新车U8L亮相上海车展,全尺寸行政豪华SUV又大又豪 一汽丰田bZ5价格13-16万元 发布安全智能驾驶辅助新方案 2025年黄浦区穗东街道庙头社区合同制工作人员招聘公告(5人) 2025年广州市黄埔区大沙街横沙股份经济联合社第一次招聘公告(10人) 2025年广东技术师范大学招聘辅导员公告(40人) 2025年天河区卫生健康系统事业单位招聘专业技术人员公告(第一批)(105人) 2025年河北地质大学选聘工作人员公告 长安汽车:掌握新风向 Q版“保时捷”上市 2025款缤果它想重新定义代步车? 地平线的野心,落在了“HSD”上? 3月份竟然有合资车销量逆市疯涨,国人消费回归理性出“孤证”! 16.49万元起售,捷途全新山海L9上市 从稳定过万到月销不足三千,极氪王牌因何沉沦? 小米SU7宿命之敌,全新智己L6只缺一个爆点 韩系车领衔缺席2025上海车展,是掉队还是藏招 【何小鹏:小鹏X键支持自定义“Say Hi”功能下季度回归】