过去几百年,7月19日都是没什么历史大事发生的一天,唯 一记录在册的,是1870年这天,法国向普鲁士宣战,普法战争爆发,就此给44年后第 一次世界大战的剧变埋下引线。
那时的电报还需要架电缆使用,6年之后贝尔才发明电话,26年之后,人类才实现史上首次无线电通信,100年以后,手机才诞生。世界缓慢进入第二次工业革命的电气时代,主要的信息传递还要依靠纸质的信件和公开发表的报刊文章。那时的人类对于通讯这件事还非常耐心,一切消息都经得起漫长的等待。
154年后的7月19日,世界多地的Windows系统,因为一个名叫Falcon的安全平台的更新故障而出现了大规模的蓝屏。这句话很拗口,154年前的电报员恐怕永远无法理解,这场赛博时代的“千里之堤,溃于蚁穴。”
一块蓝屏停住半个地球
这天的蓝屏被称作史上最 大的IT故障,甚至有人认为,这场事故是在预演潜藏在AI技术和IT行业里的崩溃风险。
2024年的北京时间7月19日,世界各处有超过850万台电脑卡在了同一个蓝色界面。
图源自网络
中国的许多外企员工在这天实现提前下班,却又在咖啡店遭遇点单故障;
加拿大的Mago因此被取消了出差飞机,久违的在家体验了刷剧、洗衣服和做饭的放松工作日;
Iris在美国加州的旧金山机场遭遇4小时的飞机延误,又在登机2小时后被赶下飞机,在无法取回托运行李的情况下无奈回家;
日本羽田机场的地勤则要在这天为上百名乘客手写登机和行李牌。
全世界的航空、物流、医疗、金融等多个行业都在这场故障中受到影响:
数以千计的航班延误或取消;机场滞留游客和行李出现拥堵;值机手续改为人工办理;铁路的列车位置信息也无法同步;
特斯拉的生产线受阻;万豪、凯悦、希尔顿和洲际等诸多国际连锁酒店集团的网络操作系统停摆;
英国广播公司无法播放早间新闻;多地的自动收银系统受到影响;医院的患者就诊系统瘫痪;就连巴黎奥运会也因系统问题暂停了奥运证件激活服务……
图源自网络
在GPT引领的AI技术变革前夜,还会发生这样一场因为一个bug席卷全球的网络灾难,引起全球各行业的集体宕机,荒诞程度令人错愕。
这不是一场故意为之的网络攻击,而是一场草台班子式的塌房,少数错误代码引发的“血案”。
特别是它发生的时候很不凑巧,更多的人们开始焦虑,在即将到来的AI时代,一个同样不起眼的bug,在AI的放大之下是否会引起更大规模、难以预测的后果?
因此,7月19日这天的停摆更像一种现代技术警示:再专业的安全软件,也可能在设计或更新中出现纰漏。即使是科技巨头,也会被一场小小的失误绊倒。
到底发生了什么?
蓝屏的英文全称是Blue Screen Of Death,缩写为BSOD,一般是由硬件故障、驱动程序问题、软件冲突、系统更新错误等原因引起。这是Windows系统特有的崩溃显示方式。
蓝屏其实是程序员开发工作中的“家常便饭”:“今天蓝屏了,明天再努力吧”也是常有的事。更广泛的领域里, Windows系统在过去几年也曾偶尔出现过一些规模性的蓝屏状况,但从未像这次波及这么多国家。
这次“史上最 大IT事故”的蓝屏现象出现在中国、新西兰、澳大利亚、日本、印度等多国,波及行业之广前所未有。崩溃源头直指网络安全公司CrowdStrike,其在调查之后宣布了造成系统崩溃的技术原因:
2024 年 7 月 19 日 04:09 UTC(国际协调时间),CrowdStrike监测到新的网络攻击技术,于是向自家Windows 系统的Falcon软件发布了传感器配置更新。这并非新操作,自Falcon创建以来,CrowdStrike就一直每日更新策略、技术和程序,传输给自家平台。
但在这次,其中的一个“通道文件”291号出现了逻辑错误,导致软件在运行过程中依据错误规则,越界触碰到了系统中的其他本不该接触到的部分,这就紧急触发了Windows系统的自我保护机制BSOD,即我们看到的世界范围级蓝屏。
事故的责任方CrowdStrike公司成立于2011年,是一家位于美国硅谷的网络安全公司,可以被视作“美国的360”。这家公司以揭露俄罗斯对美国民主党全国委员会的网络攻击而知名,为全球2.9万家客户提供终端安全,包括监测威胁情报、防病毒等在内的产品和服务,于126亿美元的终端保护软件市场中占据18%的份额,早在2019年6月于纳斯达克上市。
就在问题发生的当天下午,公司的首席执行官George Kurtz做出解释,称这次发生的问题并非安全事件或网络攻击。但它还是对公司声誉和客户信任带来了重大打击,公司的市值一夜蒸发百亿美元,股价暴跌。
作为与CrowdStrike紧密合作的科技巨头,7月22日,微软发言人在接受媒体采访时,对此次蓝屏做出补充说明,认为是欧盟的限制性措施引发了这次的全球故障。
2009年,微软与欧盟达成协议,要给所有安全软件开发商与自家软件同等的系统访问权限,让像CrowdStrike这样的第三方安全软件,能轻松通过Windows系统执行极其深入且复杂的操作。这在最初是为了确保安全软件开发商拥有公平的市场竞争环境,但也削弱了Windows系统的安全性和可控性,在15年后间接造成了这场事故。
如果此后欧盟对微软放松了限制措施,也许可以降低这类由第三方软件带来的系统崩溃,但其也将在市场中占据更大的市场份额,未来又会有什么样的风险,还不得而知。市场规范与科技发展的力量相互作用,在一次次网络安全事件后得到冲击与重塑。
重提网络安全险和技术冗余论
2007年,电脑杀毒软件Norton(诺顿)在升级后,将Windows XP系统的两个关键系统文件将作病毒清除,这次“误杀”造成国内数百万台电脑系统崩溃,出现蓝屏、重启的现象,给国内经济造成了难以预估的损失。只是在彼时,由于国内法律在信息安全领域的空白,企业抵抗网络风险、挽回损失和维护权利的路径尚不清晰。
诺顿“误杀门”|图源自网络
到了2024年7月的这次事故,全球已有超过15个国家和地区发布了超过一百部的网络和数据安全法案,立法和监管推动了用于抵御风险的网络安全保险市场的发展。
2019年的一项全球调查报告数据显示,有超过一半的企业选择购买网络安全保险,年收入超过10亿美元企业的投保率更是有57%。
据《2022年全球网络安全保险市场报告》,2022年网络安全保险市场规模约为119亿美元,预计到2027年将达到 292亿美元。索赔频率和严重程度也拉高了保费,2022年第 一季度,仅美国网络保险的定价就上涨了110%。
整体来看,我国企业的网络安全意识和网络安全保险市场都起步较晚。近20年,随着企业数字化转型,越来越多的网络安全问题开始出现。
2017年,一款名为WannaCry(想哭)的蠕虫式勒索病毒就在中国等多个国家的企业、学校、医院等地爆发并蔓延,这种病毒会强力封锁电脑中的文档、图片和程序,索取用户以比特币支付的赎金。多行业因此受到影响。
wannacry蠕虫病毒|图源自网络
类似风险还隐藏在企业员工可能遇到的网络钓鱼链接中,给用户和企业带来诸多如信息泄露、敲诈勒索、窃取资产、干扰业务等网络安全风险。《2022年风险晴雨表》就显示,勒索软件攻击、数据泄露、远程办公导致的IT漏洞和云平台数据供应链中断,已经成为如今企业最担心的4类网络风险。
随着需求的增长,国内网络安全保险业务发展也在提速。《科技日报》报道称,截至2023年7月,我国有37家保险公司(含外资、合资保险公司)提供89款在售网络安全保险产品(含附加险9款)。工信部、国家金融监管总局联合印发了《关于促进网络安全保险规范健康发展的意见》。
这次的蓝屏事件,或许将成为国内网络安全险发展历程的又一个分水岭。
在这次的蓝屏事件中,美国安德森经济集团的首席执行官预测,蓝屏事件造成的损失可能高达10亿美元。更具体的数字至今还难以估计,有预测其将达到15亿甚至上百亿美元。7月24日,马来西亚方官员还公开要求微软和CrowdStrike考虑赔偿全球在蓝屏期间遭受损失的公司。
而保险经纪公司Marsh McLennan称,有超过75家客户可能会因为CrowdStrike全球性崩溃事件而提出网络故障索赔。接下来,随着核心技术问题被逐渐修复,众多损失估算和索赔将陆续被提上议程。
从这场损失巨大的事故追根溯源,可以发现问题核心直指全球企业过于依赖单一产品,缺乏“冗余备案”的盲区。
微软在全球拥有10亿多用户,却将网络安全服务交给全球少数几家公司。而作为占据了一定市场份额的一家龙头安全服务公司,却在临近周末的周五,一次性向全球客户推出了更新内容,连灰度测试也没有。
约翰霍普金斯大学凯瑞商学院的信息系统助理教授Javad Abed(贾瓦德·阿贝德)在接受采访时就说:
“网络安全的基本原则之一就是冗余。CrowdStrike事件清楚地提醒我们,无论供应商的声誉如何,依赖单一的工具都会造成危险的单点故障,与多家供应商一起实施多层级的保护至关重要……
企业所有者不应仅仅将网络安全服务视为一项成本,而应该将其看作对公司未来的一项必要投资。”
在网络安全层面,通俗来说,冗余原则就像是给电脑装上一套自动备胎,当原来的设备出现故障,另一个“轮胎”可以自动补上,保持系统的正常运转。从经济角度考量,它意味着较高的成本投入,但在危急事件发生时,它可能于无形中消除一场灾难。
“我一般会用次新版本或次次新版本的操作系统,稳定压倒一切,不想当厂商的小白鼠。”一位超算师这么说。在大部分企业面临蓝屏危机时,一些使用30年前Windows老系统的企业躲过一劫,也从最极端的角度验证了这种说法。
在技术融合日渐紧密,人们的工作生活愈发依赖互联技术之时,如何在追求先进性的同时确保稳定:要便捷、经济、还要允许适当的原始Plan Z。于灵活和笨拙间维持最起码正常的运转,是一个先进的数字化社会应该、并且迫切需要具备的能力。