2024服贸会|生数科技,求解视频大模型生成主体不一致问题

“当我们向AI输入一条指令,让它生成一段视频时,实际上,核心诉求是希望AI帮助我们完成一个完整的叙事。要实现这个目标,需要让核心元素上保持统一和可控”,在近日召开的2024年中国国际服务贸易交易会(以下简称“服贸会”)上,生数科技董事长兼CEO唐家渝给出解决方案:视频大模型Vidu的主体参照功能,即能实现对任意主体的一致性生成。为了做到这一点,业界曾尝试“先AI生图、再图生视频”等方法,但主体参照功能不光能减少工作量,还打破了分镜头画面对视频内容的限制。技术的突破让视频大模型商业化有了更大的想象空间。

大语言模型盛行时,生数科技就瞄准了多模态赛道,并在2024年1月上线了文生视频的能力。按照生数科技的计划,视频能力需要更长时长、更高一致性去发展,但Sora的亮相让这家创业公司的计划提前。

4月底发布Vidu,支持一键生成16秒高清视频,6月支持一键生成32秒视频,同时生成音效,并从单个生成的视频中重构出4D视频。7月底,Vidu正式面向全球上线,开放了图生视频、角色一致性功能以及最长8秒的视频生成能力。

此次,唐家渝在2024年服贸会上重点介绍的是Vidu的最新功能“主体参照”。所谓主体参照,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频,其中“任意”是关键词,即不管是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。

北京商报记者了解到,在该功能上线前,视频大模型对实现这一目标并不是毫无解决方案,“图生视频”和“角色一致性”等能力也可做到。

以先AI生图、再图生视频的方法为例,可以通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。

但问题在于,AI 绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。

Vidu的“主体参照”功能通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一方法大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,创造出画面丰富、灵活多变的视频内容。

中央广播电视总台导演、AIGC艺术家石宇翔分享动画短片《夏日的礼物》创作流程时表示,与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,生成的画面更具感染力和自由度,让创作的连贯性大大提升。同时帮助他节约了七成左右的生图工作量。

北京商报记者 魏蔚

Tags: