这个首创来自中国 AI 公司,能分钟级精准控制人物的视频大模型来了

  商汤科技又整大活了,只需一张照片就能生成一分钟视频。

  7 月 4 日,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会(WAIC)展览展示最高荣誉「镇馆之宝」,成为本届大会最具创新展品。

  基于商汤日日新大模型,Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

  随着大模型和生成式 AI 技术的迅猛发展,让静止的照片「活」起来已不再是难事。

  然而,市面上现有产品在实际应用中仍存在诸多问题,如动作和表情控制不精准、效果稳定性差、视频时长受限等,这些限制了视频创作者的创作空间。

  为了突破这些瓶颈,商汤科技推出了可控人物视频生成大模型——Vimi。

  与图片表情控制类技术只能控制头部表情动作不同,Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。

  同时,Vimi 还能合理生成光影变化,使得人物动作和视觉效果流畅自然,画面和谐唯美。

  更重要的是,Vimi 能够稳定生成长达 1 分钟的单镜头人物视频,画面效果不会随时间推移而劣化或失真,充分满足娱乐互动等场景对长时间稳定视频的需求。

  日日新官方表示,Vimi 将完全面向 C 端用户开放使用,尤其能够满足广大女性用户的娱乐创作需求。

  用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。

  由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。

  对于喜爱自拍的用户,Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景;对于热衷表情包的用户,Vimi 通过单张照片即可生成各种趣味的人物表情包,玩法多样,实现创作自由。

  此外,Vimi 还提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受大片质感的沉浸式视觉效果。

  目前,行业里 80% 的视频都是以人物为主要内容,同时伴随短视频、直播平台的爆发,以人物为主体的视频需求量成指数级增长。

  然而,市面上缺少可控人物视频生成的 AIGC 产品,这导致内容创作者的效率亟待提升。

  可以说,Vimi 的问世正好填补了这一空白,能够为广大 C 端的视频创作者提供了简单、好用的创作工具,方便广泛应用于人物类短视频的创作。

  在 7 月 5 日商汤科技举办的「大爱无疆·向新力」人工智能论坛上,还将揭开 Vimi 的更多细节。APPSO 届时也将跟进报道。

  目前,Vimi 已在商汤科技官网开放预约,欢迎体验。

  附上预约地址传送门:https://vme-int.softsugar.com/questionnaire/