|
这个周末,全球IT行业“很忙”。由于网络安全公司CrowdStrike技术更新中的“bug”,导致“微软蓝屏”并引发了全球宕机事故,多地基础设施、服务业遭到严重影响——数千航班被取消、部分金融交易被中断、多个城市医疗服务延迟、特斯拉等大型企业生产线停工…… r& s: m& w8 V0 }+ ?
或许是因为万物互联时代“牵一发而动全身”,抑或是微软拥有庞大的客户群体,业界将此事形容为“史上最大规模IT宕机”,甚至堪称“千年虫事件”的加强版。为什么CrowdStrike能凭“一己之力”造成如此大规模影响?此事暴露了哪些安全风险隐患?给我国互联网行业发展带来哪些启示?6 G: n% g% r7 a& a* c9 ?
* t# l g" ]6 [
“可与WannaCry蠕虫事件相提并论”
3 U! e3 N4 O2 S9 r 从北京时间2024年7月19日(周五)下午2点多开始,全球大量Windows用户出现电脑崩溃、蓝屏死机、无法重启等情况。事发后,网络安全公司CrowdStrike称,收到大量关于Windows电脑出现蓝屏报告,公司工程部已确定该问题与“内容部署”有关。2 X' N x+ Y1 Y& q1 { d0 J* a
7月21日凌晨,CrowdStrike就全球IT故障发布最新声明称,已了解问题是如何发生的,正在进行彻底的根源分析,以确定逻辑缺陷是如何出现的。CrowdStrike的首席执行官乔治·库尔茨也在社交媒体上表示,此事并非安全事件或网络攻击。4 h7 m/ h9 Y; n/ i' E; R4 S0 o: Q
据央视新闻报道,该事件已致美国超2000架次航班停飞。美国联合包裹运送服务公司和联邦快递也表示,尽管其航空公司在正常运营,但由于电脑系统故障,快递仍有可能会出现延误。: q }* A" E1 u) `1 x
此外,伦敦等地几家主要石油、天然气交易部门因网络故障难以执行交易;澳大利亚的国民银行、电信公司Telstra等都出现了无法登录或交易情况;特斯拉、星巴克、埃克森美孚等企业均表示受到影响。! c H. H9 ]8 c) |7 |( F$ P
据了解,CrowdStrike公司成立于2011年,是全球知名的下一代终端安全厂商。在世界500强企业中,有271家是CrowdStrike的客户,包括微软、亚马逊等,以及美国不少政府机构都使用其软件。此事也给CrowdStrike的股价带来了重创,当地时间7月19日,其美股收跌11%,市值一夜蒸发近百亿美元,创下2022年以来最差单日表现。: y& A+ d" C; J, B- @. j
“此事发生时,亚太地区是白天,欧美地区是夜晚,最初社交媒体上的反馈主要是日本、澳大利亚等地,但后面大批欧美用户也出现了服务中断反馈,很多受影响的企业不得不‘提前放假’。”奇安信安全专家汪列军说。, ^! |+ K. y* H0 z% T! u
“从给全球带来的影响看,这次可以‘直追’2017年的‘WannaCry’勒索蠕虫事件,也暴露出了全球安全领域存在因软件更新机制不规范,导致业务停滞等系统性风险。”安恒信息研究院院长王欣这样说。
" W* Q, F9 C. V. j- F" w. h 汪列军也认为,本次IT系统中断事件的影响,一定会被记入“史册”,可以与“WannaCry”勒索蠕虫事件“相提并论”。6 y# s. E# {# }$ s
9 Q1 t& t2 j) m/ e
本次安全事故对我国影响不大
/ k2 ? g8 B5 g, |0 } “技术越进步,社会越发展,可能衍生的风险越大。‘一行代码’导致的重大损失事件历史上时有发生。”数世咨询创始人、中国网络空间安全协会专家李少鹏表示,在数字化转型过程中,互联网普及率越来越高,伴生安全相关事件的几率也会随之增长。
$ W1 L( c8 l j) s3 v% E 事实上,蓝屏事件在微软曾多次出现:在1998年发布Windows 98测试版时,就发生过蓝屏事件;后续随着Windows XP系统发布,蓝屏情况更加频繁;2015年Windows 10发布之初,部分用户也有报告过蓝屏情况。相比之下,以往情况更加“局部”“小范围”,且产生的影响也不能和本次同日而语。* |4 P9 I( h# g; \! Y* f6 ]6 }
虽然这两天“蓝屏”登上国内社交媒体热搜榜,并成为全网热议的话题。但庆幸的是,从目前情况来看,我国所受的影响并不大。
0 w' ?+ @7 P8 W3 _ 汪列军透露,从奇安信的应急响应情况及数据来看,国内CrowdStrike软件装机量在十万级到百万级之间,用户主要集中在北、上、广、深等一线城市。受影响的主要是外企或外企在中国的分支机构,对于国内的政府部门、央国企以及大部分的大型民企影响不大。
+ ~0 r4 R* N7 `% M0 J “CrowdStrike的EDR/XDR工具能力很不错,但其在中国没有可以给客户交付服务的能力,因此很难在中国发展客户。”亚信安全首席研发官吴湘宁解释说,国内的软件环境与国外大不相同,操作系统方面有很多是国产化系统。此外,在应用软件层面,类似WPS、企业微信、钉钉等企业推出的软件也与国外不同,CrowdStrike等海外安全产品对我国企业应用没有很深入理解,很难给我国客户提供有效解决解决方案。
6 U5 b" n/ ]% T" j5 e. K 核心驱动“惹祸”,导致系统性风险
. ^( b. n: A8 Z) H 事发后的第二天,汪列军所在研究团队很快推出了一份详实的《CrowdStrike导致全球性IT基础设施中断事件分析报告》。文中指出,导致本次事故的“祸首”是CrowdStrike公司的核心产品——Falcon平台核心组件驱动程序部分功能。, d+ w. t5 |5 h) P( j
Falcon平台是完全基于云端部署的SaaS模型。平台通过一个轻量级的代理架构,实现快速且可扩展的部署,并提供高级别的保护和性能。此外,Falcon平台还集成了多种功能,比如,文件完整性监控、云安全、身份保护等。
) ]! c; ~: t; Q' {- H e+ F7 L “从Falcon软件的安装量初步估计,已导致难以计数的Windows系统不可用,电脑只要启动就会蓝屏,且没有自动化措施可以执行批量集中修复,只能一台台的手工操作解决问题。所以,恢复过程会很消耗时间,预计完全恢复需要以周来计。”汪列军说。
" i; B9 t7 y$ }9 _ 吴湘宁也提到,“蓝屏”恢复过程中,面临着不少挑战——受攻击设备需要逐一手动修复,不但效率低下,而且有些场景恢复需要特殊密钥,这个过程更加复杂;此外,一些受影响的设备直接关联了关键性行业和基础设施,比如,政府部门、银行、医疗机构等,后续衍生、连带了不少问题。
x# B! _( Y7 F5 H" P2 n 以上汪列军、吴湘宁的分析,一定程度上也解释了这个“忙碌周末”的缘故。在突如其来的危机中,CrowdStrike内核驱动问题暴露了在安全解决方案选择上的潜在风险。
7 d( e5 x+ S# j0 | “在网络安全领域,内核驱动方案一旦出现问题,后果可能是灾难性的!我们必须选择经过严格测试、拥有高可靠性的安全解决方案。” 全国信息安全标准化技术委员会专家、青藤云安全COO程度介绍,此次事件主要是CrowdStrike的驱动程序和Windows操作系统出现了冲突导致的问题,背后原因可能是因为不兼容、驱动程序之间有冲突、驱动程序可能触发内核“bug”等。( _& P t2 s0 B: H. }
除了关注驱动的“bug”,汪列军认为,还要重视产品的测试发布流程。此事件在发布测试流程上也存在很大问题,其一次性全部更新到用户设备上,就直接导致了“蓝屏”。
' Z$ E/ F$ q) \$ J+ _ “安全!安全!安全!必须是重中之重”/ V" @9 w+ g* ~4 ]) y
看似是因为技术故障引发的一场“全球混乱”,实际却突显了现代社会对于信息技术的依赖性及其相应的脆弱性。“因此,在操作系统层面,应该设计得更加健壮,以便可以更好应对此类问题。”王欣说。. o6 W4 Q8 o) P+ w
“一定要明确,安全是重中之重!网络安全是每个组织不可或缺的一部分,尤其数字时代,安全不仅仅是一个技术问题,更是一个业务问题。” 程度认为,选择正确的技术解决方案,是确保安全的第一步。3 S" j F' B$ v' ]( W9 Q, K' |7 Q
比如,在安全产品技术路线选择上,通常软件开发包括内核态和用户态,前者拥有更高的系统权限,可以直接访问硬件,但劣势在于错误的驱动可能危及整个系统的稳定性、安全性。从目前情况来看,CrowdStrike应该是在内核态下导致的问题,如果采用非内核态的形式,出现这类问题的概率会低很多。
8 n. V( w% C8 s0 q O8 c9 _8 o: [ “即使是非常成熟的技术平台,也可能遭遇意外故障。由此可见,业务稳定和网络安全既是技术问题,更是管理、战略问题,需全面综合考虑各种因素。”汪列军提到了行业里那句老话——“能力越大,责任也越大”。
& ~6 G: T& ^ |4 \! b- T5 m% b 对于安全厂商而言,涉及系统稳定性的软件厂商需要对产品有更严格的质量管理;还要做好升级策略,在升级过程中要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保“灰度升级”,控制放量节奏。
. t+ U( Y5 C' ]- z 对于安全产品使用者而言,要选择有实力、有信用的安全厂商;在部署终端安全软件过程中,要对资产做好分类、分级,对于关键资产设置单独的管理单元,并设置“灰度”或延迟更新的策略。
# L' b3 Y1 j" M. ^0 e B1 m 持续推进国产化与自主创新
7 s6 q Z2 N5 j9 o6 S$ K: X& }5 N 在全球化的今天,网络空间已成为国家战略竞争的新高地。在这一波及全球事件中,我国受影响较小,恰恰凸显了在网络安全领域选择可靠的国产化技术,以及提升网络安全自主可控能力的重要性。
4 e8 o' w4 `* @- ] “我们不断加强国产化和自主可控的网络安全产品的研发和应用,不仅是提升国家网络安全自主可控能力的重要途径,也是解决‘卡脖子’问题的关键。”在程度看来,政府应加大对国产网络安全产品的研发和推广的支持力度,通过提供政策和资金支持,鼓励企业技术创新;加强高校、科研机构与企业的合作,推动科研成果的转化,促进技术进步和产品创新;不断完善网络安全相关的法律法规,为国产网络安全产品的研发和应用提供法律保障。/ V& \7 E. Q/ H* u, C9 w2 ?
汪列军也呼吁,在持续推进国产化过程中,安全软件工具平台与操作系统一样有着特殊的意义,必须确保自主可控;使用面巨大的软件时,应该将其作为与关键信息基础设施一样的重点关注目标。1 _& u+ G. H9 X( ?1 w
“在推动国产化的道路上,需要政府、厂商、用户等多方联合发力。” 李少鹏表示,我们要一起做好一件事——“风险认知前移”。也就是说,不能等到事情发生后再亡羊补牢,应该对数字风险有一定的认知,做到未雨绸缪,从而当风险变成现实威胁时,才能更好地响应。! S# \2 G0 u c, t; |
在这个周末里,有人忙着修复电脑,有人在推进追责,有人在分析反思。随着这次技术问题得到逐步解决,蓝屏等情况也在慢慢缓解。一个小小“bug”,竟能让这么多全球业务停摆,深刻说明了数字时代的脆弱与风险,也再次提醒了我们安全的重要性。(光明网记者 李政葳、李飞、曾震宇)
' |6 v* ` V" ?: j; Q$ P/ n. m [ 责编:刘昊 ] |
|