我们去了趟作战指挥部,窥视了一场看不见的战争

  “我们也没想到来了这么多人”,主办方工作人员告诉我,语气中一半是局促,一半是骄傲。人头攒动的报告厅里座无虚席,很多人就算挤在后方的吧台边也不愿错过一点,怎么看这都像是个开放课现场(后来倒是成真了),而不是一场专业的技术分享会。

  这里是 3 月 29 号的“隐语开源社区开放日”,在现场开放、轻松的氛围下,很难想象台上的演讲者在很严肃地探讨着“安全”、“隐私”等不甚性感的关键词。不过,也许是暗合活动主角“隐语(Secret Flow)”——蚂蚁集团开发的可信隐私计算开源框架的名字,我们很快发现,暗潮涌动之下是一场严峻的数据安全之战,而我们正身处“正义一方”的大本营。

  我们身处怎样的风险之中?

  “大数据记住我!”,这是很多网友在社交平台刷到自己喜欢的内容之后的留言,调侃的背后是将相似内容推给你我的推荐算法。不过,当这种情况跨几个毫无关系的平台同时发生的时候,其实你的隐私已经泄露了。当然,这种泄露在某种程度上方便了一些人,无伤大雅,但当它发生在制造业、供应链乃至医疗、金融领域的时候,事情就严重了起来。

  “安全的本质是对抗。不仅要直面黑灰产不断变化的作案手段,还要正视新技术、新变革带来的新风险”,“隐语”的开发方,蚂蚁集团副总裁、首席技术安全官韦韬如此说道。这段时间闹得沸沸扬扬的 ChatGPT 数据泄露事件想必大家有所耳闻,先是陌生人与 ChatGPT 的聊天记录无端出现在他人的账号里,后面则是因员工使用 GPT 而导致的内部机密源代码泄露。大模型时代,一时间人人自危,意大利已经率先全面禁止了 ChatGPT 的使用,而这还只是“失误”而已。我们不得不直面,比“失误”更可怕的,人为的、恶意的黑色产业。大的不说,就连在以安全著称的以太坊区块链上,周杰伦价值上百万美元的“无聊猿”NFT 被盗,也是轰动一时的事件。我们正身处一场与多维度风险对抗的战争之中。

  图丨蚂蚁集团副总裁、首席技术安全官韦韬

  我们拥有哪些“武器”?

  在全面数字化转型的当下,数据安全形势显得愈发严峻。去年 12 月,国家推出“数据二十条”,对全行业数据要素的推动都是一记强心针,业界普遍认为这将对整个国民经济有巨大的推动作用。为什么?关键在数据价值的挖掘。我们知道,任何事物的价值首先来源于稀缺性,数据要素也是一样,而这在以往的明文数据中是不成立的,“当一个数据你有、我有、大家有的时候,它的使用权是失控的,价值是崩塌的”,韦韬生动地讲道。其次,价值要增长则必须能够流通,也就是数据必须实现跨域流转,离开数据持有方运维管控域之外实现“外循环”,不然就是死水一潭,不可能创造新的价值。所以,要使数据成为一种资产/商品并创造更大的价值,“数据二十条”中非常核心的一点就是数据持有权、使用权与经营权“三权分置”,而这意味着,我们正面临着从明文流转到数据密态流转的大规模转型。

  在数据外循环体系中,要保证数据要素不仅“密态”,还能“流转”,这种“既要又要的行为”需要多项技术的共同支撑。其中最关键的有三个,其一是数据进入外循环时的匿名化,是满足个保法合规前提的保障;在数据外循环的管控层,区块链技术是核心,数据的确权、流转的审计,包括后期的利润分配等都由区块链来负责;而在数据外循环的数据层,其核心则是隐私计算,解决的主要问题包括具体的计算、具体的融合,并发挥出数据的价值。总之,匿名化、区块链、隐私计算,就是我们在数据要素大潮中维护数据安全的三大支柱性武器。

  这场硬仗,我们打得怎么样了?

  作为关键武器之一,隐私计算准确来说不是一种技术,而是多种技术的融合,包括多方安全计算(MPC)、同态加密等密码学技术,联邦学习,可信执行环境(TEE),可信密态计算(TECC)等,目前在全球范围内正处于攻坚阶段。虽然发展迅猛,但现有的大部分解决方案仍存在不少缺陷,如数据超范围使用、威胁模型与实际模型不匹配等,实际效果往往不达预期。

  而在具体技术层面我们也面临着重重问题。以密码学重要分支之一的多方安全计算为例,据浙江大学百人计划研究员张秉晟介绍,多方安全计算的定义是在不会泄露自己输入、没有可信第三方的前提下,在互不信任的参与方之间协同计算出一个有意义的数据,对于隐私计算非常重要,其协议主要分为通用和专用两部分。张秉晟列举了许多现有协议并一一指出了它们不安全的地方,“业界评价一个协议最喜欢的就是看性能,却忽略了还有安全假设、安全保证两个东西”。他表示,这种普遍做法的根源在于安全性评估的缺位,需要格外重视。

  图丨浙江大学百人计划研究员张秉晟

  不过,隐私计算当前最大的挑战还不在此。到目前为止,这场战争似乎只在企业巨头和黑产之间展开,因为前者有足够雄厚的资金、人力资源和技术实力来应对,而后者有着丰厚的利润。然而,随着数据要素战略的持续升级,数据安全将变得愈发重要,而撑起了经济社会半边天、就业市场一大半的中小型企业却在这场大潮中“裸泳”,这就好像打起仗来,过半的军队没有武器一样,任人宰割。

  那么,他们为什么不“武装起来”呢?很简单:学习成本与部署运维成本太高,隐私计算的技术架构与资源投入都很复杂,技术门槛高,没有足够的技术储备是用不起来的,更别提相关方案的开发了;经济成本太高,与复杂的技术路线对应的是高昂的费用,无论是自行开发还是引入外部方案,所需成本都让企业望而却步。这两点也共同导致了中小型企业尚无法普遍应用,即便是购买了安全服务的少数企业,也觉得“体验弱”,投入产出比低。

  不过行业也在快速演进中,当前已经有不少企业由于部署隐私计算获得了实实在在的业务增长,而在数据要素市场化大趋势下,收益只会越来越高。毫无疑问,隐私计算必须降低技术门槛,降低使用成本,并在保证安全性的同时,变得更好用、易用,真正下沉到更大范围的市场主体中。

  隐语 SCQL 开源,将如何帮我们赢得这场战争?

  要真正将中小型企业武装、动员起来,就必须了解他们的真实需求。

  图丨中国信通院云计算与大数据研究所高级业务主管袁博

  中国信通院云计算与大数据研究所高级业务主管袁博同样出现在了现场。据信通院发布的《中国企业智能化成熟度报告(2022)》,目前有 84% 的企业仍处于数字化建设的基础阶段。这些企业本身所拥有的数据量尚处于小样本阶段,因此,相较于 AI 机器学习方式,BI 数据分析是更具性价比和可行性的方案,在实际落地中将占据更广泛的应用场景。“我们觉得 BI 数据分析这件事情会逐渐变得越来越重要,整个隐私计算技术也会从顶层的企业逐步往下渗透”,蚂蚁集团隐语隐私计算总经理王磊如此说道。

  因此,隐语团队瞄准了当前最常用的数据分析语言 SQL,希望用户能够在熟悉的工作流程基础上,低成本地去理解和使用隐私计算技术。不过,这一路线同样面临挑战。

  首先是正确性,同样限于大部分企业的数字化水平和技术储备,使用 SQL 去跑多方安全计算(MPC)的难度和工作量都非常大,企业很难正确地运营起来;及时性方面,由于 SQL 数据分析是交互式的,要在过程中做到频繁且及时的响应,对整个系统灵活性要求非常高;安全性方面,MPC 需要保证中间结果没有任何信息泄露,与 SQL 语言的灵活性存在某种天然冲突,挑战同样巨大。

  图丨蚂蚁集团隐语隐私计算总经理王磊

  针对这些“硬伤”,隐语宣布产品升级,正式开源了这次的重磅明星——SCQL 功能,是一种基于业界常用的 MPC 技术底座,以当前主流的 SQL 作为分析语言的多方安全数据分析系统,可能是当前最好的解决思路之一。

  那么,SCQL 有什么特点呢?

  首要的,当然是易用。SCQL 提供的简单易上手的 BI 分析可帮助中小机构快速实现多方数据密态分析任务,解决急迫的长尾数据安全分析需求,在工业界首次实现了隐私数据从 Al 分析到 BI 分析,是隐语走向易用的重要一步。同时,SCQL 还提供简单易用的 API 接口,便于集成封装,真正做到开箱即用。

  同时,SCQL 功能也展现出了更好的功能丰富度和场景灵活性,支持大部分常用的 SQL 语法和函数,可满足绝大部分需求;此外,隐语在设计理念上坚持“明文+密态混合计算”,在保证安全的前提下尽量优先使用明文计算,从而降低成本,并实现安全和性能的平衡。值得一提的是,SCQL 创新性地提出了 CCL(Column Control List) 机制,让数据方可以对自己的数据如何被使用进行授权,控制粒度可精细到数据表字段(列)。

  “当今,数据信息的碎片化使得安全服务公司与中小型企业的数据安全成本过高”,韦韬说道,“而黑产成本低、能赚到钱,造成了劣币驱逐良币的局面,易用、低成本的隐私计算可能是最好的解法。”隐语隐私计算开源框架与其最新升级的 SCQL 功能正是瞄准了这一点,大大降低了中小型企业部署隐私计算的学习成本、技术门槛与经济成本,从根本上破局,赋能更为广大的企业更好地加入数据要素市场化大潮,也有了对付黑产、数据盗窃等的利器。

  协同共建,方能出奇制胜?

  为了提供更为充足的“弹药”,除了隐语开源框架之外,蚂蚁同样布局了一系列隐私计算技术,包括分布式计算引擎 RayFed,以及蚂蚁 2019 年开源的 Occlum 可信执行环境(TEE)操作系统等,并集成千余项专利自主研发了工业级全栈可信的“隐语可信隐私计算技术栈”,功能全面、安全易用。

  孤军奋战,势必困难重重。蚂蚁在战略上同样十分注重社区生态共建,此次的 SCQL 功能开源即是一项重大利好举措。一方面,开源有利于平台触达更广泛的用户并获得更多反馈,加速产品本身的迭代;另一方面,开源还将鼓励更多的开发者参与到隐私计算生态共建中来,开拓更多的应用场景和可能性;此外,开源也方便行业与利益相关方审核、建议,加速更多行业朝着数据密态转型。

  图丨英特尔产品安全和保障部高级总监郭伟

  在这样的社区氛围下,我在现场同样见到了不少各行各业的生态合作伙伴。除了学界的浙大之外,英特尔作为全球领先的芯片制造商与蚂蚁进行深度合作,为隐语框架进行定制化的硬件加速;隐语的早期用户中银金科和掌讯科技也出席,分享了隐语框架在金融风控等领域的落地应用案例。

  给我留下深刻印象的,还有晚上“开放麦”环节的年轻从业者和在校学生们,把技术讲得通俗易懂,金句频频:“隐私计算是摇滚乐,我要从南到北,我还要从东到西,我要人们都看到我,但不知道我是谁”,幽默背后是对隐私计算专业和行业的坚定信心。这支队伍,想必是会越来越壮大的。

  吹响数据安全之战的号角

  “人是能把事情搞砸的,但要把事情彻底搞砸,还要靠计算机。”韦韬略带戏谑地说道。在这样一个开放的交流场合,话题不可避免地转向了当前大火的 GPT-4,巨大的机遇面前,社区中的每一个人都意识到了它同样巨大的风险。大模型时代,数据安全与隐私保护的挑战愈发重大,数据密态任重而道远。

  不过所幸,隐私计算是当下少有的、中国公司处于世界前沿的赛道。比如蚂蚁,在短短六年内从追赶者的角色变成了专利数量超过第二、三、四名公司之和的行业领军者。前路固然困难重重,这群“白衣骑士”仍在奋力进行着他们看不见的战争。科技向善,数据要素市场化下的安全世界何时实现?我们拭目以待。