沈向洋:“一言胜千图”时代到来,AIGC将发生颠覆式变化

·“单从技术角度而言,AIGC(AI 生成内容)所具备的能力还不够全面,现在只是从文字生成图像,但事实上我们想要的可能更多,比如对已经生成的图像进行交互式编辑。而对专业领域如服装设计,则需要非常特定的模型。这个故事才刚刚开始。”IDEA 研究院讲席科学家、“盖亚计划”负责人张家兴在采访中表示。

首个中文 Stable Diffusion 模型“太乙”根据油画“君不见黄河之水天上来”生成的图片。

11 月 22 日,在深圳举行的 2022 IDEA 大会上,粤港澳大湾区数字经济研究院(IDEA)创院理事长沈向洋在发布会上分享了他对前沿技术的看法以及对未来趋势的判断,其中他谈到了当下 AI 发展的技术趋势,提到风头正劲的 AIGC,将其概括为“从一图胜千言到一言胜千图”。沈向洋认为,伴随算力和数据的数量级增长,以及大模型持续迭代, AIGC 领域将发生颠覆式变化,如何用好 AI 数字生产力,是各类企业和创业团队接下来要思考的问题。

IDEA 研究院公布了专注于 AIGC 领域的项目——“盖亚计划”,这一项目已于今年 11 月 1 日正式开源了自主研发的首个中文 Stable Diffusion 模型“太乙”,旨在更好地助力中国 AIGC 文化产业数字化转型的创新发展。

DALL.E(基于 GPT-3 开发的一种新型神经网络)根据语言描述生成的牛油果形状扶手椅。

每个人都是达芬奇

AIGC(AI-Generated Content,AI 生成内容),即使用语言描述就可以通过人工智能自动生成生动的图片甚至视频,比如 OpenAI 的图像生成模型 DALL-E。

“人工智能大模型发展的规模和速度,都到了今天我们不可忽视的地步。最新的技术可以通过一句话,创造出数不清的图像,每张都有自己的特点。可谓从一图胜千言,到了一言胜千图。”沈向洋在 IDEA 大会上说, “我从事计算机视觉研究这么多年,如果三五年前告诉我能做出这样的效果我是不会相信的。”

沈向洋谈到,人工智能技术将在文本生成图像等领域开启新的技术趋势。今年发布的 DALL-E 2、近期备受热议的 Stable Diffusion 等模型,为人们展现了 AI 数字生产力在图像生成乃至艺术创作上的强大力量。

“AIGC 最重要的是,可以帮助每个人在有艺术创作冲动时做一些事情。”沈向洋说,“有人研究过历史上为什么有些艺术家一辈子只能画几张画,而其他艺术家可以画很多画,这其中最著名的就是达芬奇。艺术史研究者专⻔研究后发现:达芬奇那么多的作品不是他一个人画的,而是带了很多徒弟。”而到了现在,“每个人都是‘达芬奇’,人工智能就是每个人的小徒弟。”

沈向洋认为,目前 AIGC 能实现这样的效果有三个技术基础:巨大的数据量、庞大的算力和新的深度学习算法。“这个结果代表了今天人工智能能够达到的高度和方向。”

“这个故事才刚刚开始”

这个突破是如何实现的呢?IDEA 研究院讲席科学家、“盖亚计划”负责人张家兴对澎湃科技(www.thepaper.cn)表示,从整个 AI 的发展历程来说,“此前我们更多在研究 AI 如何分析和理解,比如图像识别、人脸识别、文本情感分析等。然后这个技术趋于成熟,这时候大家亟待有一个新的 AI 能力出现。”

在 AIGC 的探索过程中有一个重要的思路转换:不是用 AI 理解内容,而是用 AI 来直接生成内容。“原来的技术趋势,如卷积神经网络从输入基本图像到输出我们想要的结果,过程就是对原始输入有越来越抽象的理解。而当下的生成,实际上是一个反向的过程——从一张完全模糊的图像开始想象,最终呈现清晰的图像。”张家兴对澎湃科技解答道,这个过程大概从 2015 年左右开始,尝试了六七年的时间后,终于现在有一些模型上的进步,如 Diffusion 模型,于是才有了这样一个大的突破。

Diffusion 模型通过定义一个不断加噪声的前向过程来将图片逐步变为高斯噪声,再通过定义一个逆向过程将高斯噪声逐步去噪变为清晰图片以得到采样。

Diffusion 模型在使用上一个非常大的限制就是采样速度,模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片。据 11 月发布的最新研究,清华大学计算机系教授朱军带领的 TSAIL 团队将扩散模型的快速采样算法提升到了极致:无需额外训练,仅需 10 到 25 步就可以获得极高质量的采样,采样 8 张图片的时间从原来的 8 秒钟被缩短至 4 秒钟。

除此之外,对于当下存在的问题,张家兴表示,“单从技术角度而言,AIGC 所具备的能力还不够全面,现在只是从文字生成图像,但事实上我们想要的可能更多,比如对已经生成的图像进行交互式编辑。除此之外,对专业领域如服装设计,那就需要非常特定的模型。”

“这个故事才刚刚开始。”张家兴说。

“中文 AIGC 时代”

目前在国内,大部分团队主要基于翻译 API+ 英文 Stable Diffusion 模型进行开发,Stable Diffusion 被称为当下最强的 AI 图像生成器。然而,由于中英文之间的文化差异,在遇到中文独特的叙事和表达时,这种模型就很难正确匹配图片内容。

为了解决这个问题,“盖亚计划”近期开源了首个中文 Stable Diffusion 模型“太乙”。“我们这个项目的开源也标志着中文 AIGC 时代的来临。”沈向洋说。

“盖亚计划”由 IDEA 研究院认知计算与自然语言研究中心发起,致力于在预训练大模型时代建设认知智能的基础设施,是国内目前唯一以开源为目的的技术团队。

为什么如此看重开源?和 AIGC 本身的技术门槛有关。

“AIGC 一定要依赖于预训练模型,而预训练模型的训练本身就是一个巨大的技术门槛。因为要想得到一个真正高质量的 AI 模型,需要聚集大量的算力、数据以及在训练模型方面有经验的人才。从这一点来说,目前可以聚集这样资源的团队并不多。整个 AIGC 的预训练模型生产也呈现高成本化的状态。”张家兴对澎湃科技表示。

而开源就意味着,下游的所有公司都可以免费使用这个模型完成其产品创新。“这件事情非常重要。其实这次国际上为什么 AIGC 会这样兴起?这跟 Stability AI 开源了其模型非常相关。所以我们希望通过开源让整个产业成长。”张家兴介绍称这是 IDEA 研究院的一个长期目标。

张家兴提到的 Stability AI 在 10 月宣布获得了 1.01 亿美元超额融资,此轮融资后,Stability AI 估值到达 10 亿美元,成为新晋独角兽。其资金将用于开发图、文、视频、音频(音乐生成算法和工具 Dance Diffusion 也已曝光)和 3D 等多模态开源模型。

IDEA 大会由 IDEA 研究院创院理事长、美国国家工程院外籍院士、前微软公司全球执行副总裁沈向洋发起,致力在粤港澳大湾区搭建一个分享人工智能技术和凝聚数字产业力量的国际化交流平台,发布年度科技趋势与创新产品,将前沿对话落实到数字经济时代的实践中。