|
, _3 B" t! r$ y! R2 V( d& T( T s- W/ M% I) B: ~
. ?) D: t4 y) j" @6 s3 C" q0 v
" }1 J( k8 x: y" f
& j) o6 _" i& j5 @
近年来,美方持续升级相关AI芯片的对华出口,即便是AI芯片龙头英伟达推出符合要求的针对中国市场的“特供版”产品,也是一再遭到限制。5 [2 ~' z ~8 p F0 }% U5 P
早在2022年10月,美国首次正式推出限制AI芯片对华出口的政策,要求ECCN 3A090、4A090类目下的高性能计算设备、芯片及组件,如果“同时满足以下两个条件的即为受管制的高性能计算芯片:(1)芯片的I/O带宽传输速率大于或等于600 Gbyte/s;(2)数字处理单元/原始计算单元每次操作的比特长度乘以TOPS 计算出的算力之和大于或等于4800TOPS。”
9 \: N( ]- T7 P7 ^, s. J( \/ e \此举,直接导致了英伟达的A100、H100等高性能AI芯片无法对华出口。随后,英伟达为了挽回中国市场,针对中国市场推出了符合美国限制政策的AI芯片:A100和A800,主要是降低了互联速率。
$ T" i4 @7 ~' e1 b; l! v2 N但是,在2023年10月17日,美国政府又推出了新的限制规则,进一步收紧了限制范围:
- I, K t7 o9 Y& c(1)ECCN 3A090a针对最高性能芯片,集成电路中包含一个或多个处理单元达到以下任一标准:a) 综合运算性能(Total Processing Performance,TPP)达到4800,或b) 综合运算性能达到1600,同时“性能密度”(Performance Density,PD)达到5.92。$ B) z/ o) K( t4 V% d) B$ Q
2)ECCN 3A090b针对次高性能芯片,集成电路中包含一个或多个处理单元达到以下任一标准:a) 综合运算性能达到2400但低于4800,性能密度达到1.6但低于5.92;b) 综合运算性能达到1600,性能密度达到3.2但低于5.92。, O9 L$ T0 G \% ?5 S
但凡只要在上述两项性能标准范围内的美国芯片都将会受到限制。这也直接导致了英伟达针对中国市场推出的A100和A800芯片的对华出口受限,英伟达在A100和A800这两款芯片上的投资也是损失不小。此外,英伟达L40S、高端显卡RTX 4090等产品也受到了限制。/ n( @$ d0 S3 E3 i7 w3 h8 |
不过,英伟达依旧不甘心放弃中国这个庞大的AI芯片市场。于是在去年四季度,英伟达又针对中国市场开发出了符合美国最新限制政策的四款AI芯片,包括 HGX H20、L20 PCle 和 L2 PCle。同时还开发了符合新规的高端显卡RTX 4090 D。* _1 w# v3 o; {6 ?& n p! w! k1 }/ y
6 l8 Z& W6 E8 ]: {. u
1 N9 z) i1 K! q+ c+ _- X d8 s
/ D$ D$ m7 M/ x4 k3 S1 \' p; j) R- B, g* u+ ?
, r- v7 j- o8 W: h! b2 ?! g# N
从公布的参数来看,其中最强的H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数则相较于之前的L40、L40S分别下降约1/3、2/3。此前NVIDIA内部人士在访谈中也承认,H20单卡算力仅有H100的20%,相比某国产芯片,其性能也只有其60%多。# v- A' s8 l2 |/ b' p
此外,RTX 4090 D的核心数量相较RTX 4090也减少约11%,整体性能或降低了10%!% @5 R. H" |" ?, i; W% k
显然,英伟达这些最新针对中国市场定制的产品性能被大幅阉割,使得市场大多对其性能表现、性价比持悲观或怀疑态度。; E. D5 Y& ^) Y' K# S7 i
不过,即便如此,美国方面似乎还是不放心。
/ |6 f1 }6 X: T' u2 c7 Y" _+ a" a近日,美国又公布了将于今年4月4日生效的新的限制规则,4A003类目下 “数字计算机”、“电子组件”及其相关设备和“组件”,对于所有目的地(除EAR第740部分第1号补充文件国家组E:1或E:2中的国家外),“调整后峰值性能”(“APP”)超过70 Weighted TeraFLOPS(WT,每秒计算万亿次浮点运算,主要针对GPU性能,CPU和NPU主要提供定点/整数算力)的计算机和4A003.c中所述的“电子组件”都需要许可证(NLR)。' W$ ~8 p v3 t" a7 j6 n% K
5 J5 E8 @. S3 m
! S. y# V: R' n, l6 {) t6 M) z0 Q
$ U' l% b; F0 X: r- h5 @
3 \6 K: N% p. M$ l7 i0 s* y这里需要补充说明的是,在AI训练方面,通常使用浮点格式FP16和FP32,因为它们具有足够高的精度。而在AI推理方面则通常使用整数数据格式INT8和INT4。9 c1 k- X& |$ G0 e k) W5 _0 ?
也就是说,现有的美国厂商的计算机产品或组件,如果其综合浮点算力超过70 TFLOPS,则需要申请许可证才能出口。而这似乎是针对的是英伟达此前针对中国市场新推出的RTX 4090-D以及H20。数据显示,RTX 4090-D的FP16/FP32算力为74TFLOPS,H20的TF32算力为74 TFLOPS(L20的FP32/16算力为60TFLOPS不到)。这也意味着,英伟达RTX 4090-D以及H20对华出口可能需要申请许可,至于是否能够获批,则可能需要“逐案审查”(case-by-case review)。" g' t/ g: T% b* `8 x% w, _) s
虽然也有国内媒体报道称,该政策可能将会限制到高性能的AI PC产品。但是,芯智讯认为,目前AMD、英特尔、高通、苹果等厂商所推出的集成了AI内核的面向AI PC的处理器,其浮点运算能力目前仍比较有限,更多还是提升整数运算能力,并不会受到新规限制。比如英特尔在去年底推出的Meteor Lake芯片(Core Ultra) 基于其AI引擎、NPU、CPU和GPU,可提供34TOPS(注意不是FLOPS)的算力。; T& A2 S |' q! `9 X) a4 P
不过,以上只是笔者对于该规则的解读。目前英伟达官方面尚未有相关信息公布。芯智讯也有咨询英伟达中国区相关负责人,但对方并未对此进行回应。4 x2 I+ I- W4 S1 B" L- |) Q
值得注意的是,美国商务部长雷蒙多在12月2日举办的“里根国防论坛”(Reagan National Defense Forum)上曾表示,即便会让企业难做,美国政府仍将持续修改(change constantly)先进芯片的出口管制,因为“科技会变、对手也会变,我们必须跟上”。
# c9 Q/ G( ^6 W* j7 j( F雷蒙多指出,就算业者重新设计出一款能规避现有法令的芯片,只要被关注国家将之用来发展AI,“我第二天就会立刻出手控管”(I’m going to control it the very next day)。
9 [, O7 d' ^% J: o0 L/ K& b针对雷蒙多发言,英伟达CEO黄仁勋(Jensen Huang)曾于12月6日在新加坡召开的记者会上表示,英伟达一直都在积极配合美国政府,打造符合法规的产品。“我们打算继续配合美国政府,开发符合新规定的全新系列产品”。
5 F, Q. W% h: j; Q( l( F& i9 e. f; R黄仁勋之前还曾表示,美国对华半导体出口的限制,也进一步刺激了中国努力发展半导体产业的决心,中国大陆目前已有数十家公司正在开发可与英伟达产品竞争的技术,这对英伟达在中国市场的发展也很不利。过去多年来,中国市场约占英伟达营收的20%。. K8 q6 J( {# u& Q5 G# f, R
编辑:芯智讯-浪客剑
% @- e8 u2 I D& f/ s
' a; [2 p% N! m* J$ f( B. N1 w3 A1 F3 } l1 V2 ^5 m
. a% n3 s9 }3 r0 o3 q$ g# ]
% _/ g* k/ Y& @8 D4 P, q
5 k/ M& k# k H9 u* H& P3 G6 k! p, n
/ s) e: i# Y9 i
+ J; |/ Q G7 Y4 v; A# X; h8 Z
6 G i3 X/ w% t2 H1 ^0 [, Z7 j" Y' @5 B9 k' P
& A- x' }7 b0 ~
- [- [! W f, T1 y, L y4 K4 K
, _( A7 T6 F ?8 V$ F0 t: B: z4 B9 n9 w2 i* p
* V% J: l9 x, g4 X4 i# `9 J8 ?9 \
, i$ L$ { k, ?, w6 \
- {1 i+ c4 A8 z
! j3 i! ^4 n9 X, K) N3 ]/ N5 {查看原图 126K . ] g) U% ~0 Z& [
, o! R3 @8 ]! p+ Y* Z3 H- B
: R0 O7 K' [: ?) M( J
8 ~+ Z% G [$ v9 s2 y0 p+ \- F
6 `& |# q# I$ m. H! k# z |
|