定焦(dingjiaoone)原创
作者王璐
编辑魏佳
自从今年年初 Sora 露面后,国内国外都想用 AI 颠覆好莱坞,近期的 AI 视频圈更是十分热闹,产品一个接一个发布,都喊着要赶超 Sora。
国外两家 AI 视频初创公司率先开打,旧金山人工智能科技公司 Luma 推出 Dream Machine 视频生成模型,并扔出堪称电影级别的宣传片,产品也给用户免费试用;另一家在 AI 视频领域小有名气的初创公司 Runway,也宣布将 Gen-3 Alpha 模型向部分用户开启测试,称能将光影这样的细节生产出来。
国内也不甘示弱,快手推出的可灵 Web 端,用户能生成长达 10 秒的视频内容,还具备首尾帧控制和相机镜头控制功能。其原创 AI 奇幻短剧《山海奇镜之劈波斩浪》也在快手播出,画面均由 AI 生成。AI 科幻短剧《三星堆:未来启示录》也在近期播出,为字节旗下的 AI 视频产品即梦制作。
AI 视频如此快的更新速度让不少网友直呼,“好莱坞可能又要来一次大罢工了。”
如今在 AI 视频赛道上,有谷歌、微软、Meta,阿里、字节、美图等国内外科技、互联网巨头,也有 Runway、爱诗科技等新秀公司,据「定焦」不完全统计,仅国内,便有约 20 家公司推出了自研 AI 视频产品/模型。
头豹研究院数据显示,2021 年中国 AI 视频生成行业的市场规模为 800 万元,预计 2026 年,这一市场规模将达到 92.79 亿元。不少业内人士相信,2024 年生成视频赛道会迎来 Midjourney 时刻。
全球的 Sora 们发展到什么阶段了?谁最强?AI 能干掉好莱坞吗?
围攻 Sora:产品虽多,能用的少
AI 视频赛道推出的产品/模型不少,但真正能让大众使用的十分有限,国外的突出代表便是 Sora,半年过去了还在内测,仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多,阿里达摩院的 AI 视频产品“寻光”、百度的 AI 视频模型 UniVG 都在内测阶段,至于目前正火的快手可灵,用户想使用也需要排队申请,这已经刨去了一大半产品。
剩下可使用的 AI 视频产品中,一部分设置了使用门槛,用户需要付费或懂一定技术。比如潞晨科技的 Open-Sora,如果不懂一点代码知识,使用者便无从下手。
「定焦」整理国内外公布的 AI 视频产品发现,各家的操作方式和功能差不多,用户先用文字生成指令,同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能,最终点击一键生成。
这些功能背后的技术难度不同。其中最难的是,生成视频的清晰度和秒数,这也是 AI 视频赛道各家在宣传时比拼的重点,背后与训练过程中使用的素材质量和算力大小密切相关。
AI 研究者 Cyrus 告诉「定焦」,目前国内外大多数 AI 视频支持生成 480p/720p,也有少部分支持 1080p 的高清视频。
他介绍,高质量素材越多,算力越高,训练出来的模型能生成更高质量的视频,但不代表有高质量的素材算力,就能生成高质量素材。而用低分辨率素材训练的模型,若要强行生成高分辨视频,会出现崩坏或者重复,比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决,不过效果和细节一般。
很多公司也把生成长秒数当卖点。
国内大部分 AI 视频支持2-3 秒,能达到5-10 秒算是比较强的产品,也有个别产品很卷,比如即梦最高长达 12 秒,不过大家都不及 Sora,它曾表示最长能生成一段 60 秒的视频,但由于还没有开放使用,具体表现如何无法验证。
光卷时长还不够,生成的视频内容也得合理。石榴 AI 首席研究员张恒对「定焦」表示:从技术上,可以要求 AI 一直输出,毫不夸张地说,哪怕生成一个小时的视频,也不是问题,但我们多数时候要的并不是一段监控视频,也不是一个循环播放的风景画动图,而是画面精美有故事的短片。
「定焦」测试了 5 款国内比较热的免费文生视频 AI 产品,分别为字节的即梦、Morph AI 的 Morph Studio、爱诗科技的 PixVerse、MewXAI 的艺映 AI、右脑科技的 Vega AI,给了它们一段相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”
几款产品的生成速度上差不多,仅需2-3 分钟,但清晰度、时长差得不少,准确度上更是“群魔乱舞” ,得到结果如下:
艺映 AI
Vega AI
即梦
Morph
Pix Verse
各家的优缺点很明显。即梦赢在时长,但生成质量不高,主角小女孩在后期直接变形,Vega AI 也是相同的问题。PixVerse 的画质比较差。
相比之下,Morph 生成的内容很准确,但只有短短 2 秒。艺映画质也不错,但对文字理解不到位,直接把兔子这一关键元素弄丢了,且生成视频不够写实,偏漫画风。
总之,还没有一家产品能给到一段符合要求的视频。
AI 视频难题:准确性、一致性、丰富性
「定焦」的体验效果和各家释放的宣传片相差很大,AI 视频如果想要真正商用,还有相当长的一段路要走。
张恒告诉「定焦」,从技术角度看,他们主要从三个维度考量不同 AI 视频模型的水平:准确性、一致性、丰富性。
如何理解这三个维度,张恒举了个例子。
比如生成一段“两个女孩在操场看篮球比赛”的视频。
准确性体现在,一是对内容结构理解的准确,比如视频中出现的要是女孩,而且还是两个;二是流程控制的准确,比如投篮投进后,篮球要从篮网中逐渐下降;最后是静态数据建模准确,比如镜头出现遮挡物时,篮球不能变成橄榄球。
一致性是指,AI 在时空上的建模能力,其中又包含主体注意力和长期注意力。
主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩要一直留在画面里,不能随便乱跑;长期注意力为,在运动过程中,视频中的各个元素既不能丢,也不能出现变形等异常情况。
丰富性则是指,AI 也有自己的逻辑,即便在没有文字提示下,能生成一些合理的细节内容。
以上维度,市面上出现的 AI 视频工具基本都没能完全做到,各家也在不断提出解决办法。
比如在视频很重要的人物一致性上,即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片,再用图片生成视频,或者直接给定一两张图片,AI 将其连接变成动起来的视频。
“但这不属于新的技术突破,且图生视频难度要低于文生视频,”张恒告诉「定焦」,文生视频的原理是,AI 先对用户输入的文字进行解析,拆解为一组分镜描述,将描述转文本再转图片,就得到了视频的中间关键帧,将这些图片连接起来,就能获得连续有动作的视频。而图生视频相当于给了 AI 一张可模仿的具体图片,生成的视频就会延续图片中的人脸特征,实现主角一致性。
他还表示,在实际场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考,会对生成视频有所帮助,但当下也达不到商用的程度。直观上说,5 秒是图生视频的上限,大于 10 秒可能意义就不大了,要么内容出现重复,要么结构扭曲质量下降。
目前很多宣称用 AI 进行全流程制作的影视短片,大部分采用的是图生视频或者视频到视频。
即梦的使用尾帧功能用的也是图生视频,「定焦」特意进行了尝试,结果如下:
在结合的过程中,人物出现了变形、失真。
Cyrus 也表示,视频讲究连贯,很多 AI 视频工具支持图转视频也是通过单帧图片推测后续动作,至于推测得对不对,目前还是看运气。
据了解,文生视频在实现主角一致性上,各家也并非纯靠数据生成。张恒表示,大多数模型都是在原有底层 DIT 大模型的基础上,叠加各种技术,比如 ControlVideo(哈工大和华为云提出的一种可控的文本-视频生成方法),从而加深 AI 对主角面部特征的记忆,使得人脸在运动过程中不会发生太大变化。
不过,目前都还在尝试阶段,即便做了技术叠加,也还没有完全解决人物一致性问题。
AI 视频,为什么进化慢?
在 AI 圈,目前最卷的是美国和中国。
从《2023 年全球最具影响力人工智能学者》(简称“AI 2000 学者”榜单)的相关报告可以看出,2020 年-2023 年全球“AI 2000 机构”4 年累计的 1071 家机构中,美国拥有 443 家,其次是中国,有 137 家,从 2023 年“AI 2000 学者”的国别分布看,美国入选人数最多,共有 1079 人,占全球总数的 54.0%,其次是中国,共有 280 人入选。
这两年,AI 除了在文生图、文生音乐的方面取得较大进步之外,最难突破的 AI 视频也有了一些突破。
在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于 GPT-3 时代,距离成熟还有半年左右的时间。
不过,乐元也强调,其技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。
年初 Sora 的出现震惊全球,它基于 transformer 架构的新型扩散模型 DiT 再做扩散、生成的技术突破,提高了图像生成质量和写实,使得 AI 视频取得了重大突破。Cyrus 表示,目前国内外的文生视频,大多数都沿用的是类似技术。
图源 / Sora 官网
此刻,大家在底层技术上基本一致,虽然各家也以此为基础寻求技术突破,但更多卷的是训练数据,从而丰富产品功能。
用户在使用字节的即梦和 Morph AI 的 Morph Studio 时,可选择视频的运镜方式,背后原理便是数据集不同。
“以往各家在训练时使用的图片都比较简单,更多是对图片存在哪些元素进行标注,但没有交代这一元素用什么镜头拍摄,这也让很多公司发现了这一缺口,于是用 3D 渲染视频数据集补全镜头特征。”张恒表示,目前这些数据来自影视行业、游戏公司的效果图。
「定焦」也尝试了这一功能,但镜头变化不是很明显。
Sora 们之所以比 GPT、Midjourney 们发展得慢,是因为又搭了一个时间轴,且训练视频模型比文字、图片更难。“现在能用的视频训练数据,都已经挖掘殆尽,我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。
且每个 AI 视频模型都有自己擅长的风格,就像快手可灵做的吃播视频更好,因为其背后有大量这类数据支撑。
石榴 AI 创始人沈仁奎认为,AI 视频的技术有 Text to video(文本转视频),Image to video(图片转视频),Video to video(视频转视频),以及 Avatar to video(数字人),能定制形象和声音的数字人,已经运用到了营销领域,达到了商用程度,而文生视频还需要解决精准度和可控度问题。
此刻,无论是由抖音和博纳合作的 AI 科幻短剧《三星堆:未来启示录》,还是快手原创的 AI 奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动找影视制作团队进行合作,有推广自家技术产品的需求,且作品也没有出圈。
在短视频领域,AI 还有很长的路要走,干掉好莱坞了的说法更为时尚早。
*题图来源于 Pexels。