详解微软蓝屏事件:为何一家安全公司能轻易导致如此严重的后果?

  一桩全球 IT 灾难级事件,让不少微软员工大为恼火:明明不是微软的“锅”,铺天盖地的各种报道却都是“微软蓝屏”。

  7 月 19 日,全球约 850 万台装有 Windows 操作系统的计算机出现“蓝屏”死机现象,出现故障的终端并不限于桌面终端,还覆盖了大量的服务器和云节点,包括导致了多个重要的微软和 AWS 的云服务和租户服务中断,而且相关主机重新启动后依然会自动进入蓝屏状态,形成了反复崩溃闭环。

  据不完全统计,至少 20 多个国家在内,包括医院、银行、航空公司等大量社会基础设施一度停摆,造成的直接和间接经济损失以十亿美元计算。

  本次事件带来的后果影响远远超过了 2007 年赛门铁客误杀中文版 Windows 导致的系统蓝屏事件,直追 2017 年的勒索病毒 WannaCry,在历史上注定要留下浓墨重彩的一笔。

图片来自网络

图片来自网络

  而导致这一历史事件的主角,是一家大多数人并不熟悉的美国网络安全企业——CrowdStrike。

  但其重要程度,丝毫不亚于任何一家海外互联网巨头企业。据报道,美国总统拜登专门听取了关于本次事件的详细汇报,美国众议院国土安全委员会还要求 CrowdStrike 公司 CEO 乔治·库尔茨(George Kurtz)前往国会,就这一重大 IT 事故作证。

  事故发生之后,尽管微软和 CrowdStrike 用小时级的响应速度,先后发布公告和更新,试图修复这一问题,但是行业并不十分买账。

  一方面,客户对于 CrowdStrike 的后续处理并不满意,乔治·库尔茨的态度傲慢,CrowdStrike 的处理方式简单粗暴,事故恢复效率不高。CrowdStrike 给用户发放 10 美元的 UberEats 外卖代金券作为补偿,还不是每位用户都有。企业客户已经在考虑替换甚至起诉 CrowdStrike,马斯克就直言,将在特斯拉所有系统中删除 CrowdStrike。

  另一方面,行业更关注的是,为何一家安全公司居然能轻易导致如此严重的后果,微软的安全审查机制为何不起作用,以及网络安全行业该如何自查自醒。

  并非软件升级,而是“规则更新”

  洞悉本次事件的原因,首先要清楚 CrowdStrike 的工作机制,以及微软和 CrowdStrike 的合作模式。

  2011 年,两位传统杀毒软件企业 McAfee 的高管发起创立 CrowdStrike,乔治·库尔茨在创立 CrowdStrike 之前曾担任 McAfee 公司的 CTO。

  CrowdStrike 核心产品 Falcon 开启了多租户、云原生、智能安全解决方案的先河,凭借技术、体验、服务等优势(也凭借其和美政府良好的关系),迅速领先于同领域企业,并曾较长时间内是诸多网络安全上市企业中,市值最高的公司之一。

  青藤云安全 CEO 张福对钛媒体 App 表示,CrowdStrike 优势主要有三点,SaaS 化、轻量级和威胁情报,三者相辅相成。

  SaaS 化使得 CrowdStrike 覆盖大量客户,收集大量数据形成足够丰富的威胁情报,一家企业遇到的问题可以为其他企业提供预警;威胁情报越强大,就越能识别各种病毒变种,实现轻量级的功能,无需像传统终端安全软件对系统做深层次的改动;更加轻量级的模式又能带来更好的客户体验,形成正向循环。

  安天科技集团高级副总裁、安天云安全公司负责人王小丰也表示,CrowdStrike 基于云的安全托管服务和支撑其 Falcon 产品后面的威胁猎杀工程师,是其核心优势之一,也正是 CrowdStrike 导致本次事件的原因。

  CrowdStrike 直译为“联合打击”,部分代表了其理念和商业模式。CrowdStrike 的威胁猎杀工程师会根据云平台监测到的线索,比较频繁地更新和分发威胁数据的检测/采集配置规则,所以导致本次事件的更新内容,并不是公众以及部分业内人士误解的“软件更新”,而是模块、主防点和相关配置定义的混合升级。

  根据 CrowdStrike 给出的解释,程序在增加处理新观察到的利用命名管道进行C&C通信的恶意代码活动时,更新相应的配置文件(“C-00000291-”开头的文件)触发了一个代码中的逻辑错误,在内核态形成非法内存访问触发操作 Windows 系统蓝屏。

  也即是说,CrowdStrike 每天都要更新多次威胁情报的规则,由于不是软件版本的更新,所以显得有些“随意”,而规则更新导致了连锁反应,最终造成微软 Windows 操作系统崩溃。至于规则更新如何作用于 Windows,微软和 CrowdStrike 暂未给出原因。

图片来自网络

图片来自网络

  对于微软和 CrowdStrike 的合作机制,微软发言人在接受媒体采访时表示,2009 年微软与欧盟达成协议。根据该协议要求,微软承诺给予所有安全软件与微软自身软件相同的 Windows 内核访问权限,使得像 CrowdStrike 这样的第三方安全软件开发商的安全产品,可通过 Windows 客户端和服务器系统中的 API,访问并执行极其复杂的操作。

  微软认为,这一政策的代价是系统安全性降低,蓝屏死机事件正是这一政策后果的体现。微软发言人抱怨称,“尽管公司希望能够进一步锁定操作系统以提高安全性,但欧盟的要求使得这一目标难以实现。”

  腾讯安全 iOA 产品运营总监 Raymond 提到, CrowdStrike 目前提供的信息上主要是解释蓝屏原因,但没有解释“为什么没监测到引发蓝屏的错误更新”。并且由于缺乏细节,目前没有明确信息能回答 CrowdStrike 为什么没有提前发现这个错误。

  微软 Windows 生态机制较为开放,所有软件都可以随时、独立自行提供版本更新、二进制更新、策略模块更新等机制,每次发布的更新也并不需要微软审核后才能发布。因此在微软的视角上看,CrowdStrike 是一款可信的安全软件,其内核驱动 csAgent.sys 存在可信签名允许在 Windows 系统加载,也就难以发现其策略更新引发的 csAgent.sys 逻辑错误而导致蓝屏。

  CrowdStrike 的“傲慢与偏见”

  事故之前发生的 CrowdStrike,财务指标异常优秀,市值也近千亿美元。在本次“蓝屏”事件发生前,CrowdStrike 已经出现 “傲慢”和“迟缓” 的苗头。

  过去数月,CrowdStrike 出现多起稳定性事故,显得响应迟缓、店大欺客。例如今年 4 月份 CrowdStrike 的防病毒更新导致一家公民技术实验室的所有 Debian Linux 服务器全部崩溃并无法启动,类似的问题也出现在 Rocky Linux 系统,均是因为 CrowdStrike 在不同操作系统上的兼容性测试不足。

  本次“蓝屏”事件发生之后,CrowdStrike 的应对依旧不尽如人意。王小丰提到,CrowdStrike 后续的联动处理不够合格,例如,处置方式的发布需要通过了用户认证登录其网站上才能看到,说明其还是担心事件影响扩散,大量用户在当时所有主机已经蓝屏停摆,根本不具备登录其网站查看信息的条件。

  “令我们特别费解的是,其提供的处置方式进入在安全模式后,手工进行的文件查找和删除,由于这一事件必须要网管和用户逐一机器处理,这就使相关操作要消耗掉很多时间,而相关处理可以快速简单地封装成一个 GUI 或行命令工具,帮助用户节省时间,但 CrowdStrike 却一直没有做,因此我们才在事件的几个小时之后写了一个 GUI 的小工具。”王小丰如是说。

  张福表示,CrowdStrike 在 Windows 上覆盖率很高,Linux 和 mac 上覆盖的很少,结合 CrowdStrike 公布的客户数量和去年 30 亿美金的营收可以推算,其在全球装机量不超过 2000 万台 PC。

  850 万台机器蓝屏,是因为 CrowdStrike 推送规则更新的时候,正好有这么多的电脑在线,考虑到全球时区不同,如果有更多电脑在线,本次事件的影响只会更大,CrowdStrike 根本没有设定相应的反馈机制,一推送就是全量。

  全球范围内,中国企业受到本次事件的影响较少,奇安信预估,国内的 CrowdStrike 软件装机量在万级,相关单位数在百级,用户主要集中在北上广深等发达地区。受影响的主要是外企、外企在华分支机构及合资企业,大量这类机构中招,有反馈某个在华外企大量终端中的 40% 崩溃。

  这是因为 CrowdStrike 对中国大陆禁售,而且并不是近年来中美关系紧张之后的事,CrowdStrike 对中国早有偏见。客观地说,CrowdStrike 是一家典型美国政治生态下的“旋转门”企业,即公职人员在政府机构与私营组织之间来回任职。

  王小丰表示,从创立之初至今,CrowdStrike 高管团队中有大量原联邦调查局(FBI)及军方官员,他们在政府任职期间曾参与了高层网络政策制定、网络力量以及网络活动溯源等活动,可为该公司与美政府的深入合作铺路。

  CrowdStrike 现为美国联邦政府、美国国防部等机构的主要安全供应商之一,是美国土安全部网络安全与基础设施安全局(CISA)组织的联合网络防御合作计划(JCDC)首批成员,是美国防部受控非机密信息(CUI)最高授权级别 IL5 供应商,这项授权允许美国防部、情报界和其他联邦机构部署 CrowdStrike 产品保护最关键的非机密资产,构建零信任架构。

  从资本方面来看,CrowdStrike 也是在美政府背景资本扶植下成长起来的。CrowdStrike 从 2011 年成立到 2019 年 6 月在纳斯达克上市,华平投资集团(Warburg Pincus)一直是最大股东,参与了多轮融资。投资 CrowdStrike 决策期间时任华平投资集团董事长曾担任美财政部长,极力污蔑“中国窃取美国知识产权”。

  CrowdStrike 拥有先进的威胁情报、事件响应和持续监控能力,这些能力对于美全球推行“向前防御”(Defend Forward)行动至关重要。CrowdStrike 服务于美霸权战略。其创始人、前首席技术官德米特里·阿尔佩罗维奇(Dmitri Alperovitch)更曾长期从事针对中国的“网络调查”CrowdStrike 多次发布在网络安全问题上抹黑中国的分析报告,是美方构陷抹黑中国的急先锋厂商。

  “尽管 CrowdStrike 曾反复参与抹黑中国的活动,在面对本次重大全球事件中也显示出冷漠和傲慢,这都让我们对其有很大的反感。但我们必须客观承认,CrowdStrike 拥有超强的产品研发和运营服务实力,依然是国际最优秀的安全企业之一。对于 CrowdStrike 彰显的出的技术实力和运行模式等,我国的网络安全产业界需要对其研究、对标、及超越,强化我们自己的先进系统侧安全能力和威胁对抗运营体系。”王小丰说道。

  国内安全行业应该学到什么?

  在中国市场,国内主要相关外资企业、部分使用微软数据中心的企业、还有一部分为国外用户作外包的软件公司(因境外客户对供应链的统一安全要求),会使用 Falcon,而这些厂商也已经开始做两手准备。

  国内的另外一些外资企业,出于价格的原因相当一部分会选择其他美国厂商(如 Palo Alto Network)的替代产品 XDR,故国内影响范围比较小。据悉,CrowdStrike 的产品价格在去年翻了三倍。

  张福提到,短期内一批客户已经在准备替换 CrowdStrike,另外微软有自己的终端安全产品(Microsoft Defender for Endpoint),和 CrowdStrike 是完全竞争关系,CrowdStrike 最大的对手可能是微软自己,企业客户对微软的可靠性和兼容性的认可要更高一些。

  王小丰也表示,Windows 自切换到 NT 架构后,微软兼并了多个安全公司,组建了可信计算和应急响应部门,一直在将操作系统的安全能力内置化,同时微软也在应对安全问题上界定自己的合理边界,至少微软很难去解决其他 OS 场景的安全问题,如 Linux、Android 等。

  “这里涉及到技术能力,涉及到基础信息产品厂商和安全厂商的分工问题。但微软自身安全能力的强化、生态的构建,是非常值得我国操作系统厂商对标学习的。”他说。

  Raymond 表示,本次事件凸显了当前全球 IT 系统的脆弱性风险,主要包括大型机构对单一供应商高依赖的脆弱性、Windows 系统自身的脆弱性、网络安全产品架构的脆弱性。

  企业和机构应通过构建多种操作系统服务器资源、多地部署业务等方式,保障在应急时能快速恢复;同时应要求供应商提供的产品具备灰度更新的机制,任何变更类操作均限制在企业和机构内部是逐步覆盖;

  他也认为,本次蓝屏虽然主因是 CrowdStrike 软件内核驱动更新引发,但微软作为 Windows 操作系统开发方,可以提供更健壮的 windows 系统保护机制。比如在蓝屏反复出现场景下,能自动屏蔽引发蓝屏的根源模块,保障系统能正常运行;安全厂商应考虑在产品架构模式上进行调整,减少在内核层的工作逻辑占比,从而降低蓝屏等严重故障的风险。

  在本次微软蓝屏事件中,国内安全行业也在反思己身,CrowdStrike 所暴露的问题,国内安全行业也普遍存在,不过由于独立部署等原因,并没有引起大规模的 IT 故障。

  一位行业专家表示,“国内终端安全产品能力参差不齐,多数产品在海量终端管理运营结构、内核态的检测技术、自主的恶意代码检测引擎技术、敏捷运营和规则体系方面,不仅和 CrowdStrike 差距很大,也不及 CrowdStrike 的主要国际竞品。”

  近年来国内安全行业陷入行业发展的调整期,行业的沉疴旧疾也得到了大家的重视和讨论。

  王小丰认为,国内需求场景、和品类赛道高度碎片化、对客群关系依赖严重,反过来导致研发投入耐心不够、炒作概念包装潜源创新。规模性安全企业由于基本都是品类横向生长的结果,难以达成科技行业必须的边际成本递减效应。这些都是国内企业必须直面的现状。

  张福表示,“国内安全行业陷入到低效内卷的价格战,以投标为例,对参数的细节和复杂要求已经超过应有的水平,各个厂商为了在测试上有优势,往里面塞大量的没什么意义的指标。”

  他还提到,最低价中标导致厂商缺乏合理利润,研发资源投入不足,产品质量和服务无法满足客户需求。厂商追求低价中标后,忽视后续技术支持和升级,造成恶性循环。

  “海外头部厂商的安全产品不超过 20 个,国内头部厂商的产品超过 200 个,大家变着花创造概念、发布新产品,但这些产品其实价值很低,也没有什么太大的作用。国内厂商营收要做大就要不断发布新产品,市场产品碎片化严重,过度依赖新品开发而非提升产品质量和效率,导致内部成本高并最终转嫁给客户,双方利益都会受损。”张福说。

  张福感慨道,“现在做安全的代价是非常高的,效率是很低的。但是,没有哪个产业会拒绝生产力的进步,随着时代的发展,尤其是中国网安行业有大量优秀的年轻人涌入,他们会推动行业往正确的方向走,也许不久的将来我们就会达到和美国网络安全行业一样的水平。”

  (本文首发于钛媒体 APP,作者张帅,编辑盖虹达)