新智元报道
编辑:编辑部
2023 年会是生成式 AI 的大爆发年,期待生成式 AI 带我们跨越了红海,见证充满无限可能的、有行星级算力的元宇宙。
这几天,由 ChatGPT 引发的搜索引擎大战,谷歌和微软是打得火星四溅。
我们即使隔岸观火,也能深切感受到:这股 AIGC 的热潮,恐怕会永远改变人类社会的运作方式。
昨天,以「生成式 AI 大爆发」为主题的新智者 Talk 第二期正式上线。
新智者 Talk 由新智元创始人杨静女士主持,本期嘉宾是英伟达中国区 Omniverse 负责人何展。
生成式 AI 大爆发
在主持人和嘉宾相继阳康之后,新智者 Talk 新一期节目终于开录了。这一期的主题是「生成式 AI 大爆发」。
其实,就在节目筹备期间,生成式 AI 已经经历了几代的迭代和进化,可以说,它进化的速度比节目筹备的速度还要快。
2022 年,就在我们人类卷来卷去的时候,AI 也在悄悄进化,因此,2022 年成为了生成式 AI 的大爆发年。
有两件事,可以充分证明生成式 AI 的火爆。
比如国内知名摇滚乐队——万能青年旅社的作品《杀死那个石家庄人》,忽然在B站火出了圈。原因竟然是,它的每一句歌词都被 AI 配上了画面。
另一件事,应该是很多人耳熟能详的了。美国的一个游戏设计师,他用 AI 画了一幅画,然后用这幅画去参加了艺术类比赛,竟然得到第一名。这也是有史以来,AI 首次在艺术方面打败人类。
同样,英伟达 Omniverse 的强势迭代也体现了这一点。现在,用户可以很方便的用数字化来实现数字孪生和虚拟数字人的制作,这为元宇宙的构建夯实了基础。
邓紫棋「跨越红海」,英伟达虚拟舞台加持
杨静女士提出一个十分有趣的说法:过去这半年时间里,人类在卷来卷去,而 AI 其实也被卷到了舞台上。
比如 2023 年江苏卫视的跨年演唱会,在邓紫棋演唱《启示录》中的《Gloria》时,身边突然出现万丈波涛的海浪,就是由 AIGC 的技术和 AR 技术来生成的。
这个视觉呈现,是让我们中国的亿万观众都能亲眼看到的,来自元宇宙的震撼。
而这个舞台背后,就有英伟达的一些黑科技作为支撑。何展就做了现场解密。
比如,这个海水特效,就是内容生成重要的应用方向。这个舞台利用了 XR 技术,还结合了最新的 AIGC 生成的技术,为我们呈现出一场华丽的视觉盛宴。这些技术背后,还包括图形学的进步。
第二个黑科技,就是英伟达在 AI 深度学习加速算法上的一些优化。舞台上看,就是大规模训练模型来去迭代成型的效果。
比如说海水,就需要大量的模拟,需要更多的模型训练数据集。最终在舞台上呈现出来后,就能让观众在欣赏到美妙歌声的同时,还能身临其境。
AIGC 的三个节点
基于以上这些背景,杨静女士向何展提问道:在这样快速、强势的迭代背后,在这一轮生成式 AI 的浪潮当中,人工智能生成内容(AIGC)背后是什么算法支撑的?它对算法和算力有什么要求,让年轻人能借此冲浪耍酷呢?
何展从好几个角度,对此做了精彩的解答。
首先,AIGC 和生成式 AI 的概念,离我们并不遥远。有几个历史节点,可以让我们更好地把握 AIGC 发展的脉络。
早在 1957 年,就有了第一首由人工智能创作的弦乐四重奏——《伊利亚克组曲》,这就是最早的人工智能音乐。
当时间推到 2007 年,纽约大学出版了一本由人工智能创作的小说。虽然里面有各种逻辑错误和各种模糊的情节剧情,但是它是第一个完全由 AI 完成的小说。
下一个时间点是 2014 年,在这一年,GAN(生成式对抗网络)出现了。
这三个时间点,恰好正是生成式 AI 或者 AIGC 不同的迭代阶段。
这其中有一个非常有意思的事,不知读者发现没有——
在 AI 发展的第一个阶段,也就是第一首 AI 生成乐曲《伊利亚克组曲》的诞生,到第一本 AI 创作的小说,经历了 50 年时间;但是从第一本 AI 生成的小说到出现 GAN 网络,只过去了 7 年时间。
而在近几年,尤其是这半年时间,生成式 AI 更是如雨后春笋般涌现。有文本成图片的 DALL-E2、Midjourney、Stable Diffusion 等等。这些模型都是一两周的时间在迭代,速度非常快。
深度学习技术的快速迭代,包括刚才提到 2014 年 GAN 的生成,大幅加速了生成式 AIGC 技术的发展。
年轻人该如何利用 AIGC 的技术呢?在何展看来,未来令人遐想无限。我们都可以看到,现在已经有越来越多的工作,都涵盖了创意性的内容。
包括刚才说到的 AI 写文章,作音乐,后期制作等,这些方方面面的应用,都可能给年轻人提供非常大的空间去开拓和发掘。
如果年轻人拥抱这些变化,持续地迭代自己的能力,在未来将会拥有潜力无限。
数万亿美金蓝海
2022 年是元宇宙爆发的一年,但还没等元宇宙捂热呢,AIGC 这个新概念又以迅雷不及之势走红网络。
红杉资本的合伙人甚至还跟 GPT-3 合写了一篇文章,预测 AIGC 将会形成一个数万亿美金的新赛道。
杨静女士提问道:为什么 2022 年 AIGC 会乘上东风爆发?背后的技术逻辑和产业逻辑是什么?而元宇宙和 AIGC 又到底有什么异同呢?
何展对此解释道,提起 GPT-3,就必须提到它背后的参数——1750 亿个。
GPT-3 刚发布时,很多研究人员和开发者都惊呆了。而就在一周前,有一篇关于 GPT-4 预热的报道,提到 GPT-4 的参数能达到 100 万亿。
对于迈入百万亿参数级别的模型,未来由它创作出的内容会是什么样子?这值得所有人期待。
而 GPT-3、GPT-4 之于元宇宙,承担的就是一个内容生产的角色。
想让元宇宙应用快速地迭代发展,就必须让尽可能多的人参与进来。
举个例子,如果想让每个人都参与 Omniverse 平台,就必须把技术门槛降低,让人人都能用它创作出更多的作品。
这时,就需要能快速生成的工具,要又快又好,还要成本低廉。
那么生产力是从何而来呢?就是从生成式 AIGC 的工具。
现在,包括英伟达在内,很多公司都在做会议系统。视频会议中有 Maxine 算法,如果你开着会想去喝水,算法就可以在你去喝水时,把你的人脸矫正成一张你的新脸,让别人以为你一直在紧盯着屏幕。
嗯?等等,这不是摸鱼吗?
没错,其实,这就是摸鱼。
在几周前,英伟达还曾做过一个有趣的用户交流。
有用户说,自己想要这样一个直播间,它是一个书房,书中要有一些相框或者艺术品,相框中有蓝天、白云等等。
其实,这类要求并不像演播舞台那样苛刻,如今是完全可以实现的。
比如书房的壁纸,想要什么样的风格和色调,都可以用工具输入,就会产生实时的效果。
如今这些技术的进步,算是完全把个人的创造欲给激发出来了。
想象一下,以前你需要画一幅油画,现在直接可以让 AI 去快速生成,这真的太梦幻了。
2023:AIGC 元年
杨静女士表示,这种设想真的让人非常兴奋,因为现在微博和微信上的视频号背后,都有着上千万甚至上亿的用户。如果能用 AI 来生成特效或视频,无疑会激发很多人的创作欲。
那么,这个愿望能在 2023 年实现吗?
何展引用了一个知名调研机构的报告,根据这个报告,目前生成式 AI 在整个人工智能生成的比例连1% 都不到。因此,如果能在 2025 年达到 10%,已经是很惊艳的成绩了。
而在生物科学医疗领域,到 2050 年,药物和材料由 AI 生成的占比可能会达到 30%。
那么,在林林总总的生成式 AI 技术当中,哪些能够成为杀手锏呢?AIGC 什么时候能真正走向大众,成为超级 APP,又有哪些企业会赢得黄金的机会呢?
何展认为,最关键的地方在于,辨别这些应用到底需要哪些杀手级应用。
举个例子,你需要设计一个电热水壶,但又想偷懒摸鱼,怎么办?
现在,其实有不少大厂的 3D 模型生成工具,都可以实现这种设计的定制。
比如谷歌的 DreamFusion 和英伟达的 Magic 3D,只需输入一段文字就可以生成你想要的效果。
概括来说就是,只要能够满足设计师或工程师的需求,AIGC 随时都能爆发。
爽剧一键生成
显然,生成式 AI 跟内容的融合更加紧密,在电商、传媒、影视等行业,都可以用 AI 去助力视频的剧本创作、游戏场景的生成、数字人辅助带货、XR 商品展示等。
现在,几句话就能生成一个剧本,甚至一个短视频、小电影。而如果未来 AIGC 大规模落地,会给产业链的哪一环节带来最大的影响呢?
何展回答说,最近视频号上非常流行的爽剧,就是用爽文拍成的。但这个过程中的生产力,其实是缺乏的。
要知道,爽剧背后的制作人员,在中国大概有 10 万人,这 10 万人在整个制作链条的最末端,他们的作品倒了很多手,才真正成为舞台上或荧幕上的作品。
这些制作人员非常辛苦,却没有得到太多收益。但是,如果爽剧能够通过 AIGC 快速生产,就会带动一批人进来。技术门槛降下来,生产力就起来了,自然会有一个闭环。
并且,不止的编剧,在药物研发、教育等领域,都会有这样一个制作、投放、产生经济效益的闭环。
不过,杨静女士提出一个非常关键的问题:既然爽文和爽剧能够一键生成,会不会让年轻人太过依赖这样的工具,从而丧失想象力呢?
何展表示,可以肯定,AI 工具并不会让人丧失想象力。
比如,英伟达去年在杭州做了一个设计周的活动,现场就展示了一个叫「神笔马良」的工艺——Nvidia Canvas。在左侧勾勒出曲线,右侧就可以通过你的输入,让 AI 脑补一个画面。
简单画几笔,右边就会生成真实照片一样的作品。
让何展非常感动的是,在场的许多小朋友比大人要认真得多,非常的聚精会神。而很多大人是开玩笑或是羞涩的态度。
因而他们画出的画,比成人参展的画作都要有想象力。
同样一个 AI 工具,产生的作品却截然不同。这就告诉我们:输入的想象力不同,作品达到的效果是完全不一样的。因此即使是科技迭代出来的工具,依然离不开人类的想象力和专注。
因此,生成式 AI 可以激发年轻人的想象力,让思维不再被束缚,让想象力插上翅膀。不论未来出现的工具多令人惊艳,最终的 input 还是取决于我们自己。
国内玩家群雄逐鹿
讲到这里,就不得不提到,谷歌、微软、Meta 等大厂最近的群雄逐鹿。而 OpenAI 这样的新晋独角兽,也在最近凭 ChatGPT 挣足眼球,获得微软的 100 多亿美元投资。
同时,国内的 BAT 等大厂,也都在 AIGC 领域抢跑。
哪些玩家会成为领跑者呢?2023 年技术发展的最大看点又在哪里呢?
何展认为,国内的互联网大厂,一定会有类似于 ChatGPT 的模型出来。
比如阿里的在线购物,腾讯的社交等等,可遐想的应用就非常多,而大厂也一定会重金投入的。
行星级算力,能生成动态「生命册」
在节目尾声,杨静女士讲起自己最近做的一个神奇的梦。在梦里,同学送给她一本相册,把她一生中记忆最深刻的画面用数字和图像活灵活现地呈现出来,仿佛一本活生生的生命册。
由此,杨静有了一个奇妙的想法:能不能利用 AIGC 技术,把一个人一年、一生的影像自动生成一个虚拟相册?如果我们想回顾自己的微博或朋友圈,一天一天地找这些记忆是很难的,而如果用 AI 回溯这些画面,自动生成一个生命册,就会容易得多。
何展表示,问题不大,就像手机有时会推送给我们一个 moment,也是同样的逻辑。
我们可以把自己过去这些年的资料作为 input,然后输入生成。而你可以要求温情一点,或者欢快一点,生成的相集也会有相应的情绪表达。
杨静女士谈起自己曾经养过一只叫小豆豆的小狗,它在 2020 年去世了。她曾看过一个广告,把狗的照片 input 给那个产品,它就会生成一个宠物狗一生的相册。但特意找狗的相片会很麻烦,所以如果 AI 能从图库里自动寻找,肯定会满足不少人的需求。
何展听完很感动,他也认为,随着工具进展得越来越快,会越来越多地进入普通人的生活,肯定会有新的行当出现,比如有些人会利用这些工具做成新的 APP。
杨静表示,我们的伙伴、宠物、亲人,都是我们生命中的软肋,也是最温情的部分,这是人性最大的资产。
而未来的元宇宙除了有爽文和爽剧,还会出现规模庞大的虚拟城市,还有很多个性相异的虚拟明星,甚至并不是人类。
这些虚拟和真实明星的数字分身又可以生成新的数字相册和虚拟电影,也就有了无数的生命册,未来 AIGC 有能力生成一个新的数字行星、数字地球,甚至是包罗万象的数字元宇宙吗?
何展认为,一切皆有可能,畅想一下,所有这些技术,最终推动的还是生产力,而现在,大家的需求已经存在了,比如生成一个相册,让人回顾那些温情的时刻。而用户需要的是又快又好又便宜,比如十几块钱就能生成一个相册。
在节目最后,杨静女士总结道:黄仁勋挂在嘴边的口头禅就是「saving money」,所以又快又好又强的一个生成式 AI,必定能够颠覆人类的未来。
所以,在 2023 年,感谢生成式 AI 带我们跨越了红海,也带我们去回顾我们人生当中温馨的记忆,所以我们更加憧憬 2023 年生成式 AI 大爆发会带来一个斑斓多彩的世界,以及一个充满无限可能的、有行星级算力的元宇宙、新宇宙。