文|偲睿洞察,作者|Renee,编辑|Emma
要是知道马斯克的自动驾驶系统可能是基于赛车游戏打造的,你是否会感到意外?
2017 年,OpenAI 宣布旗下的开源人工智能测试环境 Universe 加入了游戏大作《侠盗猎车手5》,让 AI 能够在短时间内获得准确识别各种物体和突发情况的能力。
原因在于,现实生活中,无人车摄像头感知到的其实也就是一张二维图片。游戏场景里的物体如果和现实非常相似,就能通用。
我们无法知晓特斯拉自动驾驶系统“含游戏量”有多少,不过主要靠着游戏锻炼 AI 的 Deepmind 已成功为游戏“正名”:
由此,DeepMind 团队成功将游戏的触角伸到了学术界。
目前,腾讯也有此意:2022.11,腾讯“开悟”平台宣布正式开放“王者荣耀 AI 开放研究环境”申请。它将面向非商业用途的机器学习算法研究,提供业界独有的高复杂度 MOBA 训练环境,助力相关学术领域的前沿探索。
也就是说,你天天休闲打的王者荣耀游戏,未来很有可能会为学术领域的前沿探索贡献一份力量。
这,就不得不去思考,为何游戏能够成为 AI 的“训练场”?你打的王者荣耀要怎么为学术贡献力量?
01 AI 工作娱乐两不误
目前,“AI+ 游戏”已经成为腾讯、网易等国内头部游戏企业发力的核心方向,三七、盛趣、完美、B站等,也都在探索 AI+ 游戏的可能。
为何大家都将游戏成为 AI 的主要测试平台?
我们都知道,AI 的终极目标是打造一个以假乱真的“真人”,这就意味着,AI 要有“性格、偏好”。也就是说,研究者们需要“摸透”AI 的风格,并将其打造成自己想要的模样。
DeepMind 基于此,引入了联盟(League)训练概念(让 AI 模仿某真人打法与自己进行对抗),通过博弈对战的方式了解 AI 的“性情”,各个大厂也都采取该路线。
这就需要一定的指标去衡量 AI 或者真人的风格,也需要真人大量的数据展现自己的风格,让 AI 在某些方面增强,某些方面减弱,从而让 AI 完美复刻他人。
游戏就成为了最佳“训练场”。
第一,游戏能够提供多个指标去衡量 AI 表现情况,并塑造 AI。
每场比赛结束,提供的游戏时间、胜负、金钱、击杀时间、击杀个数等数据能够作为模型的特征,反应智能体 AI 的偏好:
比如通过击杀个数可以判断其是否具有很强的战斗能力,通过短时间内的连杀数据可以判断其是否激进。基于此人们可以知道 AI 是个什么样的“人”,从而进行改进。
长此以往之后,玩家就能够通过配合度、激进度、防守能力等指标去“调整”AI 的个性,也就是说 AI 能够“拥有”独特的性格。
(AI 多样化和个性化在游戏中的应用图源:腾讯游戏学堂作者 Yaqing)
腾讯 AI Lab 游戏 AI 研发中心负责人付强在 2021 年的 TGDC 会议上也表明,所有的竞技游戏都是有明确的胜负指标,包括中间的核心指标,这些明确的指标会便于我们去测试和迭代,去塑造 AI。
第二,游戏环境能够提供丰富的场景及任务,锻炼 AI 做决策的能力,并从中得到海量数据。
王者荣耀中就有对抗路、打野区、中路、游走、发育路五种发展场景,每个场景中的人都有自己的使命,例如打野区的人就需要疯狂打怪,从而为团队提升经济水平,游走的人就需要及时到达残血的队友身边为他“保驾护航”,其他区域的人就需要高强度输出伤害,守好自己的“路”。
在这场比赛中,玩家除了需要“各司其职”,也需要和团队及时沟通战略,例如何时去打怪,何时去集体推搭,是打野怪和平发育还是抢人头激进发育,这都是需要短时间内根据现状做出最优决策。
同时付强表示,游戏世界能够不管说是获取人类自己的数据,还是通过 AI 自己对战去生成的数据,从这个角度来说,虚拟世界比现实去获取这些数据的成本、其迭代的效率会高很多。
除此之外,游戏世界试错成本要低得多。
我们不妨设想一下,某公司的 AI 产品直接在你家门口道路上尝试自动驾驶,出事故的概率很难把握。而在游戏世界中试错几万次都无所谓。所以,通过构建虚实交融的环境,我们可以建设模拟城市交通的虚拟世界,将在虚拟世界中试错出来的最优策略迁移到现实世界。
目前,游戏赋能 AI 不再是在游戏圈里“自嗨”,也踏入了学术圈。
今年 10 月,DeepMind 团队的 AlphaTensor 在没有任何现有矩阵乘法算法的知识的情况下,在团队给出的游戏场景中反复练习,从而重新演化对于矩阵乘法的算法探索,在一个有限域中改进了 Strassen(历史最快算法)的二阶算法。
在该项成就的突破背后,游戏成为了它的“法宝”——据 DeepMind 团队透露,AlphaTensor 便是从游戏系统设计中寻找灵感,通过树形搜索的方式,将矩阵乘法高效算法的问题转换为在单人游戏中寻求数学结果,而 AlphaTensor 的原型也是游戏出身的 Alpha Go。
腾讯也在积极布局之中,目前与北京大学、清华大学、电子科技大学、中国科学技术大学四所国内高校合作开发了创新课程,希望更多学者在游戏环境中探讨和研究 AI 落地难题,并寻找 AI 新技术覆盖更多场景的可能性,服务医疗、工业、农业、交通等行业。
02 DeepMind,不只是 AI 游戏王
从 AlphaGo 到 AlphaTensor,DeepMind 一直走在 AI 的前线。那么,DeepMind 为何能够开创游戏哺育 AI 的先河?
面对前所未有的领域,团队设立了重重门槛,去判断该 AI 项目是否值得研究。
在开启项目前,DeepMind 团队内部重点考核了三个问题:
游戏环境能够满足第2、3 个问题,棋牌策略类游戏的解法能够满足第 1 个问题(所有的走法都是可以归纳的)。
基于此,经过大量的棋牌策略类游戏数据训练,2016 年 AlphaGo 击败了世界围棋冠军,同时发展出能够自我对弈的 AlphaZero。
但团队的野心不止于此——成为游戏的“王者”只能证明其把某个模型玩透了,而将游戏积累的经验数据去处理真实世界的问题,才是“诗和远方”。据团队创始人透露,最开始的 AlphaGo 和 AlphaZero 都是与游戏相关,但最终目标不仅仅是破解游戏,而是使用它们来引导通用学习系统,并应对现实世界的挑战。
所以,DeepMind 团队在做棋牌策略类的游戏之外,也在寻找“更具现实意义”的游戏。
一款由华盛顿大学等机构联合开发蛋白质折叠游戏 Foldit 进入到 DeepMind 的视野。该游戏能够集中所有玩家的动力和精力,为蛋白质折叠研究做贡献。
游戏的结果出乎意料:游戏玩得最好的往往不是生物学家,而是普通玩家,他们很可能比科学家更快破解出某种蛋白质的真实结构。一些由 Foldit 玩家破解出的重要蛋白质结构还发表到《Nature》杂志上。DeepMind 团队给出的解释是,有些玩家有着非常出色的直觉。
基于此,在 2016 年,DeepMind 团队启动 AlphaFold 项目,人工构建系统模拟这些玩家的“直觉”。
在今年的 7 月 28 日,欧洲生物信息学研究所(EMBL-EBI)通过 AlphaFold 成功预测了超过 100 万种生物的 2.14 亿个蛋白质的三维空间结构,涵盖了地球上几乎所有已知的蛋白质,再次突破了 AI 界的边界。
有了 AlphaGo、AlphaFold 这样“明星”产品后,DeepMind 野心就藏不住了,这两个产品还不够优秀——只能是某一个领域的佼佼者,其他领域就是个小白,而 DeepMind 需要的是会举一反三的 AI 智能体。
于是在 2021 年,DeepMind 发布了包含数十亿任务的游戏“元宇宙”XLand 平台。
在这个游戏“元宇宙”中,无数的“游戏星球”组成了“游戏星系”,每个星球上的游戏按竞争性、平衡性、可选择性、探索难度四个纬度进行区分。
比如下图,左边的游戏双方需要将小球赶到自己的区域才算获胜,“不是你死就是我亡”,一点合作的机会都没有,所以它的竞争性指标直接被拉满了;而右图的游戏,则是要求将几何体按颜色归类到一起,多个智能体合作完成任意一组配对就可以,所以竞争性很低,但是可选择性很强。
(DeepMind 游戏元宇宙模块详情图源:DeepMind 官网)
在锻炼竞争性、平衡性、可选择性、探索难度的综合实力的同时,为了让智能体获得更加泛化的能力,研究人员设定在学习时,每个新任务都要基于通关的旧任务生成,保持学习的连续性。
目前该项目还在苦苦内测中——第五代智能体在 XLand 4000 多个“星球”中共玩了 70 万个游戏,经历了 2000 亿次训练,完成了 340 万个独特任务。
DeepMind 从一开始,就为自己的 AI 研究设立了明确的标准,从可行性最高的游戏开始做起,防止陷入“超前”的漩涡;同时有着更为长远、现实的目标:游戏 AI 并非只为了让 AI 更会玩,而是为了更好赋能现实世界,对医疗、交通、工业机器人等领域有所帮助。
如今,能够找到“数理化”相通性的泛化机器人,成为 DeepMind 下一个发展目标。
03 腾讯,跟着 DeepMind 过河?
与 DeepMind 相同,腾讯也从游戏出发,企图用 AI 来玩一些复杂多变的策略性游戏,以训练出接近人类智力水平的智能体,目前都在往医疗方向发展。
在 2021 年的 TGDC 会议上,腾讯 AI Lab 公布其具体的战略布局:
基于棋牌策略类游戏的“绝艺”平台更多从单一个体、场景,复杂博弈的角度去探索 AI 单独作战的能力;
基于王者荣耀打造的“绝悟”平台是从多智能体、复杂场景的角度去探索 AI 团队协作的能力;
“开悟”是把前两者锻炼出的能力向学术界开放,以期获得实质性的落地成果。
该布局已然明朗,“绝艺”、“绝悟”平台锻炼 AI 各个能力,而“开悟”是集成这两个平台的技术,与多方合作,加快 AI 落地。
据《王者荣耀》项目执行制作人黄蓝枭所说,开悟平台将基于《王者荣耀》游戏,集成标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,为高校老师和同学进行多智能体的机器学习算法研究提供了应用场景和验证环境。
目前,在第一个应用场景医疗上,已有“开悟”的身影。
在药物研发上,为解决制药流程耗时过长痛点(包括基础研究、药物发现、临床前沿研究、临床研究等),腾讯 AI 团队选择在药物发现、临床前沿研究两个环节赋能,即缩减药物发现和临床前沿研究所花费的时间。比如在药物发现环节,以前需要从一万个候选药里面选一个,但现在通过算法,只要从一百个候选药里面去选。
这里就用到了“开悟”上积累的经验,特别是强化学习上的经验。目前该算法已经能够能提升一个数量级甚至两个数量级。
在医药器材方面,其 AI 显微镜助理也基于开悟在线加速平台打造,协助医生精准治疗。
除了医疗之外,腾讯还有其他构想:
而所有蓝图的“地基”,是忠实的王者荣耀玩家们疯狂“上分”,为系统贡献宝贵的数据,让 AI 暗中学习。
黄蓝枭表示,该算法便可用于现实中多个机器人或是无人机的智能协同,未来还能够迁移落地到其他产业环境中,为工业机器人、救灾机器人等提供助力。
DeepMind 之后,后来者腾讯,“从游戏到医疗再到未来”。目前,缺的是一个类似于 XLand 的 AI 游戏元宇宙。
在 DeepMind 构想中,在其游戏元宇宙 XLAND 里,AI 智能体能够触类旁通,即学会了玩魔兽争霸(即时战略游戏),以后就能很快上手同等类型,但玩法更多、场景更多的帝国时代(即时战略游戏)。
相比之下,DeepMind 早期开发的 AlphaZero, 虽然非常强大,在三大棋(西洋棋、将棋、围棋)领域中打遍天下无敌手,但是每一次都需要从零开始,学习很长时间。
也就是说,腾讯需要一个虚拟空间,让 AI 能够学了数学之后,再学物理化学时,不用从头再把数学书“啃”一遍。