|
这个周末,全球IT行业“很忙”。由于网络安全公司CrowdStrike技术更新中的“bug”,导致“微软蓝屏”并引发了全球宕机事故,多地基础设施、服务业遭到严重影响——数千航班被取消、部分金融交易被中断、多个城市医疗服务延迟、特斯拉等大型企业生产线停工……1 Y+ Y" ]! M1 ]4 H; a' n( S% x
或许是因为万物互联时代“牵一发而动全身”,抑或是微软拥有庞大的客户群体,业界将此事形容为“史上最大规模IT宕机”,甚至堪称“千年虫事件”的加强版。为什么CrowdStrike能凭“一己之力”造成如此大规模影响?此事暴露了哪些安全风险隐患?给我国互联网行业发展带来哪些启示?$ k) w* b7 ` w7 n4 n7 r
# X9 i# _5 J/ O E* F& C6 m
“可与WannaCry蠕虫事件相提并论”
% @# J: i' a4 `# X- F# [/ ?; @ 从北京时间2024年7月19日(周五)下午2点多开始,全球大量Windows用户出现电脑崩溃、蓝屏死机、无法重启等情况。事发后,网络安全公司CrowdStrike称,收到大量关于Windows电脑出现蓝屏报告,公司工程部已确定该问题与“内容部署”有关。" P- G) P4 O; V# e A( f# E
7月21日凌晨,CrowdStrike就全球IT故障发布最新声明称,已了解问题是如何发生的,正在进行彻底的根源分析,以确定逻辑缺陷是如何出现的。CrowdStrike的首席执行官乔治·库尔茨也在社交媒体上表示,此事并非安全事件或网络攻击。
$ K5 r. j, I# m! B5 w) l# z o 据央视新闻报道,该事件已致美国超2000架次航班停飞。美国联合包裹运送服务公司和联邦快递也表示,尽管其航空公司在正常运营,但由于电脑系统故障,快递仍有可能会出现延误。4 ^2 [ [% c' u# t% @( l; @
此外,伦敦等地几家主要石油、天然气交易部门因网络故障难以执行交易;澳大利亚的国民银行、电信公司Telstra等都出现了无法登录或交易情况;特斯拉、星巴克、埃克森美孚等企业均表示受到影响。1 U9 C8 p3 V2 ~
据了解,CrowdStrike公司成立于2011年,是全球知名的下一代终端安全厂商。在世界500强企业中,有271家是CrowdStrike的客户,包括微软、亚马逊等,以及美国不少政府机构都使用其软件。此事也给CrowdStrike的股价带来了重创,当地时间7月19日,其美股收跌11%,市值一夜蒸发近百亿美元,创下2022年以来最差单日表现。: i8 Q9 N- T4 v" v+ v9 I8 ]
“此事发生时,亚太地区是白天,欧美地区是夜晚,最初社交媒体上的反馈主要是日本、澳大利亚等地,但后面大批欧美用户也出现了服务中断反馈,很多受影响的企业不得不‘提前放假’。”奇安信安全专家汪列军说。
3 |# c- |5 X: _5 s3 `. p! L2 e “从给全球带来的影响看,这次可以‘直追’2017年的‘WannaCry’勒索蠕虫事件,也暴露出了全球安全领域存在因软件更新机制不规范,导致业务停滞等系统性风险。”安恒信息研究院院长王欣这样说。' s a O) o) R. n- R
汪列军也认为,本次IT系统中断事件的影响,一定会被记入“史册”,可以与“WannaCry”勒索蠕虫事件“相提并论”。4 i6 O8 W+ M$ D3 @0 ]
+ G# m; O0 L% s! R5 [3 a# i% r
5 Z( b* m, v: Y0 B 本次安全事故对我国影响不大( B: x7 c) f+ V" b' j& y/ b; x
“技术越进步,社会越发展,可能衍生的风险越大。‘一行代码’导致的重大损失事件历史上时有发生。”数世咨询创始人、中国网络空间安全协会专家李少鹏表示,在数字化转型过程中,互联网普及率越来越高,伴生安全相关事件的几率也会随之增长。
1 [$ ^* R+ S; y7 { 事实上,蓝屏事件在微软曾多次出现:在1998年发布Windows 98测试版时,就发生过蓝屏事件;后续随着Windows XP系统发布,蓝屏情况更加频繁;2015年Windows 10发布之初,部分用户也有报告过蓝屏情况。相比之下,以往情况更加“局部”“小范围”,且产生的影响也不能和本次同日而语。
* F0 B ^% @3 Z* t+ N) `# Y1 z 虽然这两天“蓝屏”登上国内社交媒体热搜榜,并成为全网热议的话题。但庆幸的是,从目前情况来看,我国所受的影响并不大。+ m, ~8 {7 x+ i, S3 K
汪列军透露,从奇安信的应急响应情况及数据来看,国内CrowdStrike软件装机量在十万级到百万级之间,用户主要集中在北、上、广、深等一线城市。受影响的主要是外企或外企在中国的分支机构,对于国内的政府部门、央国企以及大部分的大型民企影响不大。' t4 g9 _- A5 h" L' |) m
“CrowdStrike的EDR/XDR工具能力很不错,但其在中国没有可以给客户交付服务的能力,因此很难在中国发展客户。”亚信安全首席研发官吴湘宁解释说,国内的软件环境与国外大不相同,操作系统方面有很多是国产化系统。此外,在应用软件层面,类似WPS、企业微信、钉钉等企业推出的软件也与国外不同,CrowdStrike等海外安全产品对我国企业应用没有很深入理解,很难给我国客户提供有效解决解决方案。! A7 W2 u6 Z% W) R5 O4 K
核心驱动“惹祸”,导致系统性风险
' s; X; i4 q+ c5 j- u9 t: K! d" p3 b6 |. v 事发后的第二天,汪列军所在研究团队很快推出了一份详实的《CrowdStrike导致全球性IT基础设施中断事件分析报告》。文中指出,导致本次事故的“祸首”是CrowdStrike公司的核心产品——Falcon平台核心组件驱动程序部分功能。4 F- ^+ X+ }* D+ ^6 J( J* M
Falcon平台是完全基于云端部署的SaaS模型。平台通过一个轻量级的代理架构,实现快速且可扩展的部署,并提供高级别的保护和性能。此外,Falcon平台还集成了多种功能,比如,文件完整性监控、云安全、身份保护等。
* x* t, x& A5 T4 I+ a- q% ^: I x “从Falcon软件的安装量初步估计,已导致难以计数的Windows系统不可用,电脑只要启动就会蓝屏,且没有自动化措施可以执行批量集中修复,只能一台台的手工操作解决问题。所以,恢复过程会很消耗时间,预计完全恢复需要以周来计。”汪列军说。1 v. N# p! |$ ~- C& X1 L
吴湘宁也提到,“蓝屏”恢复过程中,面临着不少挑战——受攻击设备需要逐一手动修复,不但效率低下,而且有些场景恢复需要特殊密钥,这个过程更加复杂;此外,一些受影响的设备直接关联了关键性行业和基础设施,比如,政府部门、银行、医疗机构等,后续衍生、连带了不少问题。* v/ M6 b! t2 I. U- U1 `+ W6 z
以上汪列军、吴湘宁的分析,一定程度上也解释了这个“忙碌周末”的缘故。在突如其来的危机中,CrowdStrike内核驱动问题暴露了在安全解决方案选择上的潜在风险。( r$ V. W- M( I! y+ a# [
“在网络安全领域,内核驱动方案一旦出现问题,后果可能是灾难性的!我们必须选择经过严格测试、拥有高可靠性的安全解决方案。” 全国信息安全标准化技术委员会专家、青藤云安全COO程度介绍,此次事件主要是CrowdStrike的驱动程序和Windows操作系统出现了冲突导致的问题,背后原因可能是因为不兼容、驱动程序之间有冲突、驱动程序可能触发内核“bug”等。
1 E1 ~1 ]# p7 B+ K5 `, C 除了关注驱动的“bug”,汪列军认为,还要重视产品的测试发布流程。此事件在发布测试流程上也存在很大问题,其一次性全部更新到用户设备上,就直接导致了“蓝屏”。9 u& r$ r3 M9 n1 I
“安全!安全!安全!必须是重中之重”
6 }% d! C2 f( g3 n 看似是因为技术故障引发的一场“全球混乱”,实际却突显了现代社会对于信息技术的依赖性及其相应的脆弱性。“因此,在操作系统层面,应该设计得更加健壮,以便可以更好应对此类问题。”王欣说。! w2 X4 Z1 M! }$ x: ^
“一定要明确,安全是重中之重!网络安全是每个组织不可或缺的一部分,尤其数字时代,安全不仅仅是一个技术问题,更是一个业务问题。” 程度认为,选择正确的技术解决方案,是确保安全的第一步。! J B. c$ C; V5 w! K( K ^
比如,在安全产品技术路线选择上,通常软件开发包括内核态和用户态,前者拥有更高的系统权限,可以直接访问硬件,但劣势在于错误的驱动可能危及整个系统的稳定性、安全性。从目前情况来看,CrowdStrike应该是在内核态下导致的问题,如果采用非内核态的形式,出现这类问题的概率会低很多。
- G0 ?- U& _0 }% m; [" D! d# C5 Y “即使是非常成熟的技术平台,也可能遭遇意外故障。由此可见,业务稳定和网络安全既是技术问题,更是管理、战略问题,需全面综合考虑各种因素。”汪列军提到了行业里那句老话——“能力越大,责任也越大”。# ] _9 ` O0 S% r
对于安全厂商而言,涉及系统稳定性的软件厂商需要对产品有更严格的质量管理;还要做好升级策略,在升级过程中要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保“灰度升级”,控制放量节奏。' h! V8 C5 { W' K' t& a
对于安全产品使用者而言,要选择有实力、有信用的安全厂商;在部署终端安全软件过程中,要对资产做好分类、分级,对于关键资产设置单独的管理单元,并设置“灰度”或延迟更新的策略。7 A+ h* E' F' h5 O0 n. r
持续推进国产化与自主创新! @' C' L" |( f7 a! c0 @6 h8 r
在全球化的今天,网络空间已成为国家战略竞争的新高地。在这一波及全球事件中,我国受影响较小,恰恰凸显了在网络安全领域选择可靠的国产化技术,以及提升网络安全自主可控能力的重要性。2 _* a: d% w; X
“我们不断加强国产化和自主可控的网络安全产品的研发和应用,不仅是提升国家网络安全自主可控能力的重要途径,也是解决‘卡脖子’问题的关键。”在程度看来,政府应加大对国产网络安全产品的研发和推广的支持力度,通过提供政策和资金支持,鼓励企业技术创新;加强高校、科研机构与企业的合作,推动科研成果的转化,促进技术进步和产品创新;不断完善网络安全相关的法律法规,为国产网络安全产品的研发和应用提供法律保障。$ v* v7 `6 e5 a
汪列军也呼吁,在持续推进国产化过程中,安全软件工具平台与操作系统一样有着特殊的意义,必须确保自主可控;使用面巨大的软件时,应该将其作为与关键信息基础设施一样的重点关注目标。
5 F0 F& ?: t* J$ f; N( m* [ “在推动国产化的道路上,需要政府、厂商、用户等多方联合发力。” 李少鹏表示,我们要一起做好一件事——“风险认知前移”。也就是说,不能等到事情发生后再亡羊补牢,应该对数字风险有一定的认知,做到未雨绸缪,从而当风险变成现实威胁时,才能更好地响应。% E+ l0 `8 D/ p2 {6 t3 a
在这个周末里,有人忙着修复电脑,有人在推进追责,有人在分析反思。随着这次技术问题得到逐步解决,蓝屏等情况也在慢慢缓解。一个小小“bug”,竟能让这么多全球业务停摆,深刻说明了数字时代的脆弱与风险,也再次提醒了我们安全的重要性。(光明网记者 李政葳、李飞、曾震宇)( R5 n. ]/ J/ ~9 w X$ `# \
[ 责编:刘昊 ] |
|