国思软件 - 视频生成大战2.0！大厂狂卷底层模型，创企5个月吸金44亿

　　智东西（公众号：zhidxcom）

　　作者香草

　　编辑李水青

　　要说 2024 年大模型最火的赛道，视频生成一定榜上有名。

　　继 2 月 Sora 开启 AI 视频生成新时代之后，今年 6 月密集的模型发布，又将视频生成大战推向了新的高潮。

　　“AI 影视的下一个代际来了”、“太卷了，简直是你方唱罢我方登场”、“终于有希望摆脱 PPT 时代了”、“看样子很快就能用 AI 制作 MV 了”……在 AI 视频创作者或从业者当中，我们能看到最多的情绪是“兴奋”。

　　自 Sora 发布以来，超 8 家国内外 AI 企业陆续推出新产品或模型，动辄生成 10 秒以上视频且公开可用，有的据称已实现长达 2 分钟的超长视频生成，AI 视频生成赛道掀起热火朝天的 2.0 大战。

　　这边，字节抢先上线 AI 视频生成产品即梦，将视频生成时长从常见的3-4 秒拉长到 12 秒；沉寂许久的快手突然发布可灵大模型，惊艳的效果引发全网热议，排队人数一度接近 100 万。

　　▲快手可灵排队申请人数

　　那边，创企Luma AI“弃 3D 投视频”，发布 Dream Machine 高调入局；老玩家Runway也不甘示弱，甩出新一代 Gen-3 模型，将物理模拟能力推向新的高度。

　　▲Gen-3 视频生成效果

　　融资战场上，战火同样炽烈。国内，爱诗科技、生数科技自 3 月起接连斩获亿级融资；海外，Pika在 6 月获得 8000 万美元融资，估值翻倍至 5 亿美元，而Runway则被曝正在筹备一笔高达 4.5 亿美元的融资。

　　Sora 如同一颗重磅炸弹，震撼了 AI 视频生成界。如今经过 5 个月的激烈追赶，海内外 AI 视频生成产品究竟进展如何？它们能否与 Sora 一较高下？又将面临哪些挑战？通过对可用产品的横向体验，以及与从业者、创作者的探讨，智东西深入分析了这些问题。

　　在实测中，我能明显感受到视频生成的速度变快、“翻车”现象大幅减少，从简单的“PPT 式”平移进化为有角度、动作变化的运动。整体体验下来，免费可用的产品中效果最佳的是即梦和可灵，无论是时长、稳定性还是物理模拟都实现领跑。

　　在融资方面，与 Sora 发布前相比，AI 视频生成相关的融资密度和金额都大幅上涨，5 个月内吸金超 44 亿，还带动视频制作流程“上下游”的其他产品如 AI 剪辑、AI 灯光等获得资本青睐。此外还有多个新玩家入局，有的还没发布任何产品或技术就已经融到亿级资金。

　　一、技术之战：卷时长、卷高清、卷物理模拟

　　2 月 16 日，OpenAI 发布 Sora，一夜颠覆了 AI 视频生成赛道格局。然而 5 个月过去，Sora 仍是一款期货产品，什么时候能为普罗大众所用，看起来也遥遥无期。

　　这期间，国内外的大厂、创企争相发布新产品或模型升级，且大多数都已向全体用户开放，其中不乏效果惊艳的产品，这也让 AI 视频生成的格局再次发生改变。毕竟，Sora 再好，用不上又有什么价值呢？

　　据智东西不完全统计，Sora 发布以来国内外至少有8 家公司发布新产品或模型，其中除生数科技的 Vidu 之外均公开可用。

　　▲AI 视频生成产品发布/模型升级（智东西制表）

　　2 月 21 日，Stability AI 正式上线了 AI 视频生成产品 Stable Video 网页版，且面向所有用户开放。虽然其底层模型 Stable Video Diffusion 于去年 11 月便已开源发布，但作为模型仍有一定的部署和使用门槛，打包成网页版发布后让更多用户可以简单便捷地上手使用。

　　4 月 27 日，生数科技联合清华大学发布长时长、高一致性、高动态性视频大模型 Vidu，据称可生成长达 16 秒、分辨率 1080P 的视频，并且能够模仿真实物理世界。

　　从放出的 Demo 来看，Vidu 确实在清晰度、运动幅度、物理模拟等方面取得了很好的效果，不过遗憾的是，Vidu 与 Sora 一样尚未开放。智东西向生数科技询问得知，产品将于近期开启内测。

　　▲生数科技 Vidu 视频 Demo

　　5 月 9 日，字节剪映旗下 AI 创作平台 Dreamina 更名“即梦”，并上线 AI 作图和 AI 视频生成功能，最长支持生成 12 秒的视频。

　　6 月 6 日，快手发布 AI 视频大模型可灵，并上线快影 App，用户只需填写问卷即可申请使用。可灵大模型主打对物理世界特性的高强度模拟，例如难倒众多 AI 的“吃面条”等问题，在其提供的视频案例中均有体现。

　　目前，可灵支持生成 5 秒、10 秒固定时长的视频。据其官网介绍，模型最高能生成 2 分钟、帧率 30fps、分辨率 1080P 的视频，后续将上线视频续写等功能。

　　6 月 13 日，此前主要做 AI 生成 3D 的创企 Luma AI 宣布推出视频生成工具 Dream Machine，支持文本、图像生成 5 秒长度的视频，同时提供视频延长功能，可基于已生成的视频一次延长 5 秒。

　　6 月 17 日，Runway 发布新一代模型 Gen-3 Alpha 版本，并于 7 月 2 日面向所有用户付费开放，订阅费最低为每月 15 美元。Gen-3 目前支持基于文本生成 5 秒、10 秒长度的视频，图生视频以及其他可控工具暂未开放。

　　▲Gen-3 Alpha 生成视频效果

　　7 月 6 日，智象未来（HiDream）在 WAIC 上发布了智象大模型 2.0，提供5、10、15 秒三种视频生成时长，并增加文字嵌入生成、剧本多镜头视频生成、IP 连贯一致性等能力。

　　7 月 17 日，此前专注 AI 3D 重建的英国 AI 创企 Haiper AI，宣布旗下 AI 视频生成产品 Haiper 升级至 v1.5，时长延长到 8 秒，且提供视频延长、画质增强等功能。

　　下表展示了这些模型的生成时长、分辨率、帧率等参数，以及除基础生成外的附加能力。

　　▲升级的 AI 视频生成产品参数（智东西制表）

　　从参数上看，这些 AI 视频生成产品首先在生成时长上实现了明显进步，基础生成时长从此前的2-4 秒延长到 5 秒，并且有一半以上都支持超 10 秒的时长，还有部分产品提供了延长功能。目前免费可用的产品中，生成视频最长的为即梦的 12 秒。

　　在视觉效果方面，分辨率、帧率都有较大提升，支持 720P 及以上的产品更多了，帧率也向 24/30fps 靠拢，此前的产品生成视频分辨率大多在 1024*576 左右，帧率多为8-12fps。

　　二、产品之战：上手实测6 款免费“现货”，“抖快”领跑

　　Sora 刚发布时，智东西曾对国内可用的 8 款 AI 视频生成工具进行了深度体验，当时差距还比较明显，“翻车”情况较多。（全网首个“中国版 Sora”横评！15 家企业对决，字节领跑）

　　那么经过几个月的迭代升级，已经交出新答卷的这些玩家表现如何？智东西对新发布或升级的 AI 视频生成产品进行了体验，为公平起见，统一只试用免费能力，且均选取第一次生成的视频。

　　需要注意的是，视频生成本身就有类似于“抽卡”的运气成分在内，且和提示词的撰写也有很大关系，因此少量的案例并不完全代表模型能力。

　　第一关我选择了静物场景，提示词为：郁金香沐浴在夕阳暖光中的特写。

　　Stable Video 在这个提示上表现出很高的稳定性，同时画面清晰度、色彩的丰富程度都比较高，在运动上以镜头的运动为主。

　　▲Stable Video 生成视频

　　Dream Machine 的画面清晰度明显掉了一个档次，不过在对提示词的表现上还是比较准确的，运动同样以镜头的平移为主。

　　▲Dream Machine 生成视频

　　Haiper 生成的视频视觉效果很好，但是运动幅度略小。

　　▲Haiper 生成视频

　　智象大模型的表现也不错，画面有很强的景深效果，但细看花瓣会发现存在细节上的缺陷和不稳定。

　　▲智象大模型生成视频

　　即梦生成的是固定镜头的画面，运动方面以郁金香的晃动为主，整体效果比较稳定。

　　可灵生成的视频把“特写”这一提示词展现到了极致，同时画面清晰度较高，还刻画出了花瓣上的纹理。不过话说回来，对“郁金香的特写”该如何理解，本身也不是一个有固定答案的问题，所以也说不上谁对谁错。

　　//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_郁金香-可灵 .mp4

　　▲可灵生成视频

　　整体来看，各路玩家在静物场景上的表现都很稳定，生成视频的可用程度很高。

　　第二关我选择了动物场景，且增加了风格化和动态动作的元素，提示词为：一只卡通袋鼠在跳迪斯科。这其实是 Sora 提供的案例中的一个，首先我们来看一下 Sora 的打样。

　　//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

　　▲Sora 生成视频案例

　　Stable Video 在这一关“扑街”。第一帧画面很完美——这或许与 Stable Video 在生成视频时选取的路径有关，在生成流程中，它会先生成 4 张图像供用户选择，再根据用户选择的图像生成视频——随后袋鼠的全身都开始扭曲变形。

　　比较有趣的是画面背景中的人物和拟人化的动物并没有太大的问题，不知道是不是“跳迪斯科”这个动作把 Stable Video 给难倒了。

　　▲Stable Video 生成视频效果

　　Dream Machine 生成的视频整体稳定性不错，但在袋鼠的脚部、手部等细节上会有稳定性的缺失。在运动幅度上，除了袋鼠本身的运动外，它还进行了从特写到全景的镜头推移。

　　我又试用了 Dream Machine 的视频延长功能，视频后 5 秒是其延长生成的内容。可以看到它并没有局限在单一镜头，而是进行了从全身到上半身近景的镜头切换。不过延长的视频中虽然背景中的人物群像稳定性较高，但袋鼠更加不稳定了。

　　//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

　　▲Dream Machine 生成视频效果

　　Haiper 生成的袋鼠有一定程度扭曲，且没有体现“跳迪斯科”这一关键词。

　　▲Haiper 生成视频

　　智象大模型在这一关翻车比较严重，和 Stable Video 一样出现了画面主体大幅度扭曲的问题，并且也没有体现“跳迪斯科”。

　　▲智象大模型生成视频效果

　　即梦生成的视频整体视觉效果比较好，清晰度、色彩丰富程度很高。稳定性方面，前几秒还比较正常，但在后 3 秒左右出现了明显的扭曲，扭曲程度与 Dream Machine 差不多。

　　在语义理解上，画面有体现一定的“跳舞”动作，但和“迪斯科”关系不大。此外，画面背景中的文字看起来像是“鬼画符”。

　　//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_即梦 .mp4

　　▲即梦生成视频效果

　　可灵生成的视频整体比较稳定，主要的问题集中在手部和眼球。但在语义理解方面，并没有体现出“跳迪斯科”这一关键词。

　　//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_袋鼠-可灵 .mp4

　　▲可灵生成视频效果

　　这一关整体来看，Dream Machine、即梦、可灵的表现更胜一筹，但都无法达到 Sora 的水准。此外，这个提示词也展现了各个模型在审美上的差异，包括色彩的倾向、风格的选择、镜头的切换等。

　　第三关设置为人物特写，使用的提示词为：一个宇航员在空间站外漂浮的特写镜头，背景中有地球和月亮，星星在头盔面罩上反射。

　　Stable Video 在这一关的表现还不错，准确地描绘了“宇航员”、“地球”、“月亮”、“星星反射”等关键词，稳定性也很高。运动方面不是简单的镜头平移，而是画面主体相对背景的运动。

　　▲Stable Video 生成视频

　　Dream Machine 则大翻车，完全把“宇航员”给丢在了脑后，绘制了一幅宇宙场景。

　　▲Dream Machine 生成视频

　　Haiper 在这一关表现不错，虽然漏掉了“月亮”，但其他关键词都有体现，头盔中的倒影也很自然。

　　▲Haiper 生成视频

　　智象大模型起初拒绝生成该提示词，显示存在敏感内容。在多次删减后，我终于用“一个男子在空间站外漂浮的特写镜头”生成了一段视频。

　　画面整体效果比较真实，虽然最终用的提示词里只有“空间站”这一个体现内容的关键词，其还是描绘了地球、航天服等元素。不过这位主人公并没有戴航天头盔，不知道是怎么呼吸甚至讲话的（doge）。

　　▲智象大模型生成视频效果

　　即梦在人物细节的刻画上较为优秀，人脸、服装都比较精致，稳定性也很高，但是画面背景中似乎出现了第二个“地球”，此外镜头相较于“特写”更偏向“近景”。

　　//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_宇航员-即梦 .mp4

　　▲即梦生成视频

　　可灵生成的视频画面中一开始没有出现人物，随后宇航员缓慢进入镜头当中，但背景又是静止的，看起来有种淡淡的幽默。不过画面本身的准确度和稳定性还是很高的，体现了每一个关键词，还描绘了部分选手遗漏的“空间站”。

　　//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_宇航员-可灵 .mp4

　　▲可灵生成视频

　　人物关的整体表现虽然不如静物场景稳定，但相比上一关效果好了不少，可能和训练数据丰富、运动幅度小有关系。这一关表现更好的是 Stable Video、Haiper、即梦和可灵。

　　总体来看，在智东西本次体验的 6 款 AI 视频生成产品中，即梦、可灵的生成效果优势比较明显，无论是在时长还是稳定性上都达到不错的能力。此外国内的 Morph Studio、NeverEnds 等产品效果也很不错，但由于其未在 Sora 发布后有新的产品或模型升级，因此不在本次体验范围内。

　　三、资本之战：5个月吸金44亿，新玩家涌现

　　Sora 发布时，如当初的 GPT-4 一样再度掀起生成式 AI 热潮，引发文生视频概念股集体涨停。

　　一级市场也迎来一波新的狂欢。据智东西不完全统计，Sora 发布至今 5 个月以来，至少有 5 家 AI 视频生成赛道的创企获得超亿元融资，累计约 12 亿元，此外还有 Runway 被曝正在洽谈 4.5 亿美元（约合人民币 32.68 亿元）新融资。

　　▲AI 视频生成相关大额投融资（智东西制表）

　　国内，爱诗科技分别于 3 月、4 月接连融到两笔亿级资金，且得到蚂蚁等知名投资方的青睐，此前其仅在去年 8 月获得一笔数千万元的天使轮融资。

　　今年 1 月，爱诗科技上线海外版 AI 视频生成产品 PixVerse，当时成为与 Pika、Runway 竞争的有力黑马。Sora 发布后，其创始人王长虎曾称将在3-6 个月内实现赶超。

　　目前 5 个月过去，爱诗科技尚未发布底层模型的迭代更新，不过陆续推出了角色一致性、运动笔刷等新功能。智东西向其询问产品进展得知，其新一代模型及新功能“文生视频故事片”将在本周发布，可生成时长 8 秒的视频，并且能一次性生成3-5 段内容连续的有声视频。

　　▲PixVerse 上线运动笔刷功能（图源：爱诗科技）

　　生数科技也在短短 3 个月内连续获得两笔数亿元融资，其中百度风投作为老股东持续加投。此前，生数科技共获得 2 轮累计超一亿元融资。

　　三呆科技（Sand AI）则是一家近期刚刚走入大众视野的创企，目前并未有产品发布。7 月 10 日，Sand AI 被曝于 5 月获得今日资本领投的数千万美元A轮融资。

　　Sand AI 成立于 2023 年 10 月，主要开发类似 Sora 的视频生成技术。值得注意的是，其创始人曹越是光年之外联合创始人之一，曾任北京智源 AI 研究院视觉模型研究中心负责人、微软亚洲研究院主管研究员。

　　公开信息显示，曹越本科、博士均毕业于清华大学，曾获得计算机视觉顶会 ICCV 的最佳论文奖马尔奖，谷歌学术被引超 4 万次。

　　▲曹越（图源其个人主页）

　　Haiper AI也是一家新入局视频生成的创企。该公司成立于 2022 年，位于英国伦敦，此前专注基于 AI 的 3D 重建方向。

　　据外媒 3 月报道，Haiper AI 获得 1380 万美元（约合人民币 1 亿元）的种子轮融资，此前曾于 2022 年 4 月筹集了 540 万美元资金。

　　Haiper AI 的创始团队是两位华人，Yishu Miao 曾在 TikTok 全球信任与安全团队任职，Ziyu Wang 曾在 DeepMind 担任研究科学家。去年晚些时候，Haiper AI 团队决定专注于视频生成，并在去年 12 月发布了首款同名视频生成产品的测试版。

　　▲Haiper 发布同名产品测试版

　　Pika于 6 月宣布获得新一轮约 8000 万美元（约合人民币 5.81 亿元）融资，估值翻倍至近 5 亿美元。去年 11 月，Pika 宣布完成累计完成 5500 万美元的融资，估值在2-3 亿美元。

　　7 月 2 日，AI 视频生成赛道的“老玩家”Runway被曝出正在洽谈 4.5 亿美元（约合人民币 32.68 亿元）的新融资，估值达到 40 亿美元。

　　Runway 的上一笔融资完成于去年 6 月，投资方包括谷歌、英伟达等，并以 1.41 亿美元的资金达到 15 亿美元融资，累计融资 2.37 亿美元。如果本轮融资落地，无论是融资额还是估值都达到两倍以上。

　　总的来看，在 Sora 发布后的这几个月，一级市场不断有新的 AI 视频生成融资出现，不仅频率更加频繁，金额也大幅上涨，单次融资额都超过此前的融资总额。即使部分创企没有产品发布或模型升级，也没能阻挡投资方的热情。

　　四、AI 视频大战 150 天，从“PPT”变成真正的“视频”

　　Sora“隐身”的 150 天，在众多大厂和创企的“围攻”下，主流 AI 视频生成产品与 Sora 的差距已经大幅缩短，并且还有至关重要的一点——可上手使用，甚至不少功能还是免费。

　　目前来看，头部 AI 视频生成产品已经实现了不错的时长和稳定性，下一步迭代的重点方向是物理模拟。从官方展示的 Demo 来看，Gen-3、可灵、即梦、Vidu 对真实世界的模拟程度较高，经过筛选过的案例已经与 Sora 放出的案例效果相差无几。

　　那么从创作者的视角来看，现阶段的产品使用体验如何呢？

　　近日，导演、AI 影视创作者陈坤（闲人一坤）制作了其 AI 短剧《山海奇镜》预告片的重制版，并与原版进行了对比。

　　在该短剧的首映会上，他向智东西等媒体谈道，半年时间内 AI 的进步还是非常明显的，尤其是物理模拟方面，在他看来已经实现了“代际性”的迭代。具体来说，现阶段可灵等视频生成模型已经实现了原生高清，不再是切片式的画面内容驱动，主体运动合理，动作幅度不但大还流畅，且对提示词响应积极。但同时，现在 AI 视频生成技术仍面临几大痛点：人物一致性、场景一致性、人物表演、动作交互、运动幅度。

　　▲《山海奇镜》预告片重制版与原版对比

　　从应用的角度来看，在影视制作等场景中，AI 目前还处于追赶传统影视的过程中。

　　在一个完整的制作流程中，AI 仍是一个辅助的手段而非主要工具，如剧本、配音、剪辑、后期等环节，目前还没有能达到生产力水准的产品出现。

　　但在成本上，包括人效比等方面，基于 AI 的流程已经实现大幅压缩，达到传统制作流程的1/4 以下。

　　▲陈坤在点映会上接受采访

　　在 WAIC 2024 上，爱诗科技联合创始人谢旭璋谈道，现在我们所说的“视频生成”其实只是视频素材的生成，只是完整视频制作流程中的一小部分，没有声音、剪辑、转场、剧本等，无论是从技术还是业务上，还有非常长的路要走。

　　这也是除了继续迭代底层模型克服视频生成现有痛点外，AI 视频发展的另一重要方向。

　　市面上也有不少公司正在各个视频制作流程中进行尝试，同样得到一级市场的青睐。仅最近一周内，就有 AI 驱动的视频编辑工具 Captions、AI 虚拟环境提供照明和合成工具 Beeble 分别获得 6000 万美元和 475 万美元融资。

　　结语：AI视频生成，等待一个GPT-4 时刻

　　Sora 的发布点燃了国内外大厂团队和创业者的热情，不过整体来看还处于早期阶段，技术路线尚未达成共识，生成效果离商业标准也有一定距离。至于具体处在什么阶段，有不少行业人士将其与语言、图像模型的早期阶段作类比，如“GPT-3 时代”、“图像生成的 2022 年前夕”等。

　　但可以肯定的是，AI 视频生成技术正在指数级飞速发展，不断有新的产品和技术问世。尽管存在一些技术痛点和挑战，但随着技术的迭代和市场的推动，这一领域有望实现更多的突破和应用。

　　AI 视频生成大战不仅是技术的较量，更是资本的角逐。在这场狂卷吸金的风暴中，谁能笑到最后，我们拭目以待。

视频生成大战2.0！大厂狂卷底层模型，创企5个月吸金44亿

我们的产品

相关链接

关于我们

联系我们