|
这个周末,全球IT行业“很忙”。由于网络安全公司CrowdStrike技术更新中的“bug”,导致“微软蓝屏”并引发了全球宕机事故,多地基础设施、服务业遭到严重影响——数千航班被取消、部分金融交易被中断、多个城市医疗服务延迟、特斯拉等大型企业生产线停工……
) Q! O' | G1 w6 g% |' t 或许是因为万物互联时代“牵一发而动全身”,抑或是微软拥有庞大的客户群体,业界将此事形容为“史上最大规模IT宕机”,甚至堪称“千年虫事件”的加强版。为什么CrowdStrike能凭“一己之力”造成如此大规模影响?此事暴露了哪些安全风险隐患?给我国互联网行业发展带来哪些启示?
" o. W% x, G2 O' S; D8 u; i8 V, {. W' q) D5 r; k' y/ G3 G
0 y% w; L- q, o! }" S5 M2 r4 O* U “可与WannaCry蠕虫事件相提并论”
3 M1 i; z6 C' H: J 从北京时间2024年7月19日(周五)下午2点多开始,全球大量Windows用户出现电脑崩溃、蓝屏死机、无法重启等情况。事发后,网络安全公司CrowdStrike称,收到大量关于Windows电脑出现蓝屏报告,公司工程部已确定该问题与“内容部署”有关。) h+ Q# Z6 [5 L
7月21日凌晨,CrowdStrike就全球IT故障发布最新声明称,已了解问题是如何发生的,正在进行彻底的根源分析,以确定逻辑缺陷是如何出现的。CrowdStrike的首席执行官乔治·库尔茨也在社交媒体上表示,此事并非安全事件或网络攻击。! n7 q6 U6 z7 [2 l
据央视新闻报道,该事件已致美国超2000架次航班停飞。美国联合包裹运送服务公司和联邦快递也表示,尽管其航空公司在正常运营,但由于电脑系统故障,快递仍有可能会出现延误。
8 R3 I. L. G+ M1 Z L: ~ 此外,伦敦等地几家主要石油、天然气交易部门因网络故障难以执行交易;澳大利亚的国民银行、电信公司Telstra等都出现了无法登录或交易情况;特斯拉、星巴克、埃克森美孚等企业均表示受到影响。. j- c" m( G+ C. M
据了解,CrowdStrike公司成立于2011年,是全球知名的下一代终端安全厂商。在世界500强企业中,有271家是CrowdStrike的客户,包括微软、亚马逊等,以及美国不少政府机构都使用其软件。此事也给CrowdStrike的股价带来了重创,当地时间7月19日,其美股收跌11%,市值一夜蒸发近百亿美元,创下2022年以来最差单日表现。
. e! q/ d' ]% J z4 _ “此事发生时,亚太地区是白天,欧美地区是夜晚,最初社交媒体上的反馈主要是日本、澳大利亚等地,但后面大批欧美用户也出现了服务中断反馈,很多受影响的企业不得不‘提前放假’。”奇安信安全专家汪列军说。. T% Q4 o5 L/ I2 Y" A1 m. E7 V) |
“从给全球带来的影响看,这次可以‘直追’2017年的‘WannaCry’勒索蠕虫事件,也暴露出了全球安全领域存在因软件更新机制不规范,导致业务停滞等系统性风险。”安恒信息研究院院长王欣这样说。
4 h; Z2 A# s0 Q5 o' B5 M* L7 S 汪列军也认为,本次IT系统中断事件的影响,一定会被记入“史册”,可以与“WannaCry”勒索蠕虫事件“相提并论”。
: k/ k9 l& g$ \) t* ~5 x! M+ C r" v/ {0 y: A1 S) ^
本次安全事故对我国影响不大- x2 |7 w3 R- Q* P+ ]
“技术越进步,社会越发展,可能衍生的风险越大。‘一行代码’导致的重大损失事件历史上时有发生。”数世咨询创始人、中国网络空间安全协会专家李少鹏表示,在数字化转型过程中,互联网普及率越来越高,伴生安全相关事件的几率也会随之增长。, n5 M8 j4 }; G$ s3 w
事实上,蓝屏事件在微软曾多次出现:在1998年发布Windows 98测试版时,就发生过蓝屏事件;后续随着Windows XP系统发布,蓝屏情况更加频繁;2015年Windows 10发布之初,部分用户也有报告过蓝屏情况。相比之下,以往情况更加“局部”“小范围”,且产生的影响也不能和本次同日而语。
' a9 g5 a2 t! G" J9 h; m 虽然这两天“蓝屏”登上国内社交媒体热搜榜,并成为全网热议的话题。但庆幸的是,从目前情况来看,我国所受的影响并不大。$ h$ G' |5 N8 }1 Q9 o4 W% T
汪列军透露,从奇安信的应急响应情况及数据来看,国内CrowdStrike软件装机量在十万级到百万级之间,用户主要集中在北、上、广、深等一线城市。受影响的主要是外企或外企在中国的分支机构,对于国内的政府部门、央国企以及大部分的大型民企影响不大。
5 H, q4 f: D S$ ]2 Z$ M “CrowdStrike的EDR/XDR工具能力很不错,但其在中国没有可以给客户交付服务的能力,因此很难在中国发展客户。”亚信安全首席研发官吴湘宁解释说,国内的软件环境与国外大不相同,操作系统方面有很多是国产化系统。此外,在应用软件层面,类似WPS、企业微信、钉钉等企业推出的软件也与国外不同,CrowdStrike等海外安全产品对我国企业应用没有很深入理解,很难给我国客户提供有效解决解决方案。! z$ G; V+ N5 S' H) }& [: }1 h
核心驱动“惹祸”,导致系统性风险# A4 |# b$ l) y4 b6 `0 p
事发后的第二天,汪列军所在研究团队很快推出了一份详实的《CrowdStrike导致全球性IT基础设施中断事件分析报告》。文中指出,导致本次事故的“祸首”是CrowdStrike公司的核心产品——Falcon平台核心组件驱动程序部分功能。* G1 H: V& L* X% x/ h4 A3 H- j2 l
Falcon平台是完全基于云端部署的SaaS模型。平台通过一个轻量级的代理架构,实现快速且可扩展的部署,并提供高级别的保护和性能。此外,Falcon平台还集成了多种功能,比如,文件完整性监控、云安全、身份保护等。
" u; f, ]6 B0 r- n" u “从Falcon软件的安装量初步估计,已导致难以计数的Windows系统不可用,电脑只要启动就会蓝屏,且没有自动化措施可以执行批量集中修复,只能一台台的手工操作解决问题。所以,恢复过程会很消耗时间,预计完全恢复需要以周来计。”汪列军说。
5 \9 x( k6 v9 _% q6 y# r$ V/ ]+ A 吴湘宁也提到,“蓝屏”恢复过程中,面临着不少挑战——受攻击设备需要逐一手动修复,不但效率低下,而且有些场景恢复需要特殊密钥,这个过程更加复杂;此外,一些受影响的设备直接关联了关键性行业和基础设施,比如,政府部门、银行、医疗机构等,后续衍生、连带了不少问题。- w- c5 h) ~0 P- `7 R6 P
以上汪列军、吴湘宁的分析,一定程度上也解释了这个“忙碌周末”的缘故。在突如其来的危机中,CrowdStrike内核驱动问题暴露了在安全解决方案选择上的潜在风险。
) k7 z' J6 l2 x3 { “在网络安全领域,内核驱动方案一旦出现问题,后果可能是灾难性的!我们必须选择经过严格测试、拥有高可靠性的安全解决方案。” 全国信息安全标准化技术委员会专家、青藤云安全COO程度介绍,此次事件主要是CrowdStrike的驱动程序和Windows操作系统出现了冲突导致的问题,背后原因可能是因为不兼容、驱动程序之间有冲突、驱动程序可能触发内核“bug”等。
. S! L! X9 P) `9 f9 c: e* h 除了关注驱动的“bug”,汪列军认为,还要重视产品的测试发布流程。此事件在发布测试流程上也存在很大问题,其一次性全部更新到用户设备上,就直接导致了“蓝屏”。
* A2 B$ ]( H+ ^ “安全!安全!安全!必须是重中之重”" m4 C: K) D4 D6 ?/ Y1 p5 W0 d
看似是因为技术故障引发的一场“全球混乱”,实际却突显了现代社会对于信息技术的依赖性及其相应的脆弱性。“因此,在操作系统层面,应该设计得更加健壮,以便可以更好应对此类问题。”王欣说。7 Y& e9 Z4 Z2 T/ R! |% G! ?
“一定要明确,安全是重中之重!网络安全是每个组织不可或缺的一部分,尤其数字时代,安全不仅仅是一个技术问题,更是一个业务问题。” 程度认为,选择正确的技术解决方案,是确保安全的第一步。
) E. ^9 ]5 `6 T& e8 z1 Y9 ^2 d; G 比如,在安全产品技术路线选择上,通常软件开发包括内核态和用户态,前者拥有更高的系统权限,可以直接访问硬件,但劣势在于错误的驱动可能危及整个系统的稳定性、安全性。从目前情况来看,CrowdStrike应该是在内核态下导致的问题,如果采用非内核态的形式,出现这类问题的概率会低很多。
! P3 g) K r1 o& N* `* M5 u “即使是非常成熟的技术平台,也可能遭遇意外故障。由此可见,业务稳定和网络安全既是技术问题,更是管理、战略问题,需全面综合考虑各种因素。”汪列军提到了行业里那句老话——“能力越大,责任也越大”。* p+ P& j2 Y) \: A8 l
对于安全厂商而言,涉及系统稳定性的软件厂商需要对产品有更严格的质量管理;还要做好升级策略,在升级过程中要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保“灰度升级”,控制放量节奏。
0 L# b, v5 r: W, c7 z 对于安全产品使用者而言,要选择有实力、有信用的安全厂商;在部署终端安全软件过程中,要对资产做好分类、分级,对于关键资产设置单独的管理单元,并设置“灰度”或延迟更新的策略。
4 c& d1 c- {; w% d- j: f 持续推进国产化与自主创新0 T& H% U# s* s9 u5 p/ w3 W
在全球化的今天,网络空间已成为国家战略竞争的新高地。在这一波及全球事件中,我国受影响较小,恰恰凸显了在网络安全领域选择可靠的国产化技术,以及提升网络安全自主可控能力的重要性。
1 s6 o+ }- i+ i# n- V( d8 X% `7 @+ a; b% h “我们不断加强国产化和自主可控的网络安全产品的研发和应用,不仅是提升国家网络安全自主可控能力的重要途径,也是解决‘卡脖子’问题的关键。”在程度看来,政府应加大对国产网络安全产品的研发和推广的支持力度,通过提供政策和资金支持,鼓励企业技术创新;加强高校、科研机构与企业的合作,推动科研成果的转化,促进技术进步和产品创新;不断完善网络安全相关的法律法规,为国产网络安全产品的研发和应用提供法律保障。
$ q d: Z9 S+ d/ D2 J& p+ w+ N 汪列军也呼吁,在持续推进国产化过程中,安全软件工具平台与操作系统一样有着特殊的意义,必须确保自主可控;使用面巨大的软件时,应该将其作为与关键信息基础设施一样的重点关注目标。 Y2 `4 H0 \& i
“在推动国产化的道路上,需要政府、厂商、用户等多方联合发力。” 李少鹏表示,我们要一起做好一件事——“风险认知前移”。也就是说,不能等到事情发生后再亡羊补牢,应该对数字风险有一定的认知,做到未雨绸缪,从而当风险变成现实威胁时,才能更好地响应。$ X7 F. e0 a% G4 _6 w/ }/ k
在这个周末里,有人忙着修复电脑,有人在推进追责,有人在分析反思。随着这次技术问题得到逐步解决,蓝屏等情况也在慢慢缓解。一个小小“bug”,竟能让这么多全球业务停摆,深刻说明了数字时代的脆弱与风险,也再次提醒了我们安全的重要性。(光明网记者 李政葳、李飞、曾震宇)
# W! K! x) J2 ]( X [ 责编:刘昊 ] |
|