a – 为什么NPU比GPU更适合AI加速计算


今天咱们聊聊NPU。

大家对于CPU、GPU这些常见计算单元已经比较了解,但是对于NPU却可能并不清楚它的工作原理和具体作用。

为什么NPU比GPU更适合AI加速计算

NPUNeural Network Processing Unit,也就是神经网络处理器,从命名就可以看出它是专门应用于AI领域的计算单元。因此相对于CPU、GPU这些通用计算单元而言,NPU理论上是一种无需通用化的特型计算单元,也就是只做好“AI加速”这一件事情就可以了。

虽然目前对于NPU的开发和利用还处于极为初级的阶段,应用方面也只是摄像头背景虚化、降噪等少数一些功能会用到。但实际上NPU自身的计算架构设计特性,决定了它具备比GPU更快的AI计算加速能力。

要理解这一点,首先肯定是要了解NPU究竟是如何从硬件层面对神经网络实现加速的?

Meteor Lake,也就是第一代酷睿Ultra,是英特尔首个集成NPU的处理器。从NPU架构设计可以看到,它的核心是两个神经计算引擎,而核心中的核心是两组MAC阵列(Multiplier and Accumulation)

为什么NPU比GPU更适合AI加速计算

我们都知道,AI大模型推理计算简单来说就是在反复做矩阵乘法与加法,其计算结果率先生成预测数据,并通过不断计算让预测数据与真实数据实现最大程度的拟合,以缩小预测数据与真实数据之间的差异,进而最终推理出结果并在用户侧生成所谓的答案。MAC阵列就是为此而生,因此MAC阵列越多乘法与加法计算的速度就越快计算速度越快拟合的过程就会不断提速,最终反映在应用端的就是AI大模型的生成速度加快。

最新的Lunar Lake,也就是第二代酷睿Ultra处理器,NPU中的神经计算引擎增加到了6个MAC阵列也随之扩充到了6组,理论算力提升3倍。但由于目前大模型推理的主要负载都在GPU上,所以NPU的加速优势暂时无法得到体现。

为什么NPU比GPU更适合AI加速计算

那么为什么NPU更适合做AI计算加速呢?

我们先来看看GPU是如何做矩阵计算的。

以简单的4×4矩阵乘法为例,矩阵中的每一行每一列的每一个数都要进行16次乘法,所以总计需要进行16×4=64次乘法计算,同时,每一行每一列的每一个数乘完之后都要做一次加法,所以总计算需要进行16×3=48次加法计算。而GPU和NPU计算加速,本质上就是想办法去提升这64次乘法和48次加法计算的速度。

为什么NPU比GPU更适合AI加速计算

那么GPU与NPU在计算时有何不同呢?

首先GPU最擅长的就是做并行计算。其内部有多个可以同时工作的乘法与加法计算单元。虽然并行计算速度非常快,且能够同时完成多个计算任务,但每一次计算之前,都需要先把数据加载到缓存内之后GPU控制器会从缓存中把数据取出来放入乘法计算器计算出结果然后再把结果放回缓存中之后控制器再把计算结果放入加法计算器中求和之后再将结果放回缓存最后再将前面求出的和放到加法计算器中求和,这个结果才是一次乘加计算的最终结果。

为什么NPU比GPU更适合AI加速计算

举个例子,如果想要计算a11=3×2+2×2+4×1+5×4这个算式,首先需要把这些数读入上图所示意的缓存中,之后读取到乘法器中,分别计算3×2、2×2、4×1以及5×4这四个乘法的结果,再将其结果6、4、4、20四个数放回缓存。我们将这一过程的指令定义为【指令1:乘法】

为什么NPU比GPU更适合AI加速计算

之后将6、4、4、20四个数放入加法计算器,求出6+4、4+20的和,并将10和24放回缓存。这一过程的指令为【指令2:加法】

最后将10和24放入加法计算器,求出10+24的和34,这一过程的指令为【指令3:加法】

那么如果想要完成4×4矩阵计算,就需要把上述过程再“复制”15次,就可以完成这一矩阵计算任务。也就是说用GPU计算4×4矩阵的话,只需要3条指令即可完成,速度其实已经非常快了。

但从描述中可以看到,想要进行一次简单的4×4乘法与加法矩阵计算,就需要经历:缓存-乘法计算器-缓存-加法计算器-缓存-加法计算器这一系列计算步骤。如果是更大矩阵的计算,那么速度变慢是必然的。比如满血DeepSeek-R1的参数量达到了671B,也就是6710亿参数,想要在如此庞大的数据参数量里做矩阵乘法与加法,硬件性能压力可想而知。

那么有没有比“3条指令”更快的方法呢?

其实聪明的朋友一定发现了,GPU每次计算都要在计算器与缓存器之间将数据来回搬运,如果简化这个步骤,那么速度岂不是就加快了?

没错,NPU的计算架构思路就简化了每次计算都要存取缓存的设计。

如下图所示,NPU的计算阵列利用新建的管道(橙色示意),将乘法器和加法器直接相连,此时乘法器计算完的中间结果就会通过管道直接流入加法器进行加法计算,之后再将结果流入加法器进行最终的加法计算,这样只需要一条指令,即可完成整个乘法到加法的计算过程。

为什么NPU比GPU更适合AI加速计算

当然,GPU和NPU的计算架构设计并无严格意义上的优劣之分。

GPU是通用计算单元,其计算器设计思路能够满足计算公式的自由构建。

NPU是专用计算单元不需要那么高的灵活性,所以人为加入管道之后,只做特定公式计算就可以。

比如,GPU可以做a×b+c×d×e×f或a×b+c×d×e+f等等这样不同的公式计算,但NPU大都只能计算a×b+c×d+e×f这种公式。

当然,英特尔、AMD、苹果设计的NPU可能会有不同的计算器架构,如乘-加-乘或乘-加乘-加乘等等,排列组合方式不同决定了内部数据流动的方式有所差异。另外不同的计算架构设计、不同规模的计算矩阵也会决定其擅长计算哪种数据类型。比如我们常提到的FP16、INT8、INT4等,计算速度就与乘加计算器架构的设计和矩阵规模直接关联。

如下图所示,同样是FP16精度的计算,A100矩阵规模远小于H100,所以后者的计算速度自然就更快。

为什么NPU比GPU更适合AI加速计算

此外,AI时代的GPU与NPU等计算单元已经与传统意义上的GPU、NPU有所区隔。比如N卡中的TensorCore,实际上就是专用于AI计算的矩阵单元。而某些NPU计算单元除了包含专用于AI计算的矩阵阵列之外,还会融合向量、标量计算单元甚至CPU核心,从而可以更好地满足AI计算时不同的算子需求。

本文属于原创文章,如若转载,请注明来源:为什么NPU比GPU更适合AI加速计算https://nb.zol.com.cn/976/9769370.html





nb.zol.com.cn
true

https://nb.zol.com.cn/976/9769370.html
report
4454
今天咱们聊聊NPU。大家对于CPU、GPU这些常见计算单元已经比较了解,但是对于NPU却可能并不清楚它的工作原理和具体作用。NPU即Neural Network Processing Unit,也就是神经网络处理器,从命名就可以看出它是专门应用于AI领域的计算单元。因此相对于CPU、GPU这些通用计算单…

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

a – 一文看懂 Win11到底需不需要第三方优化软件

【ZOL中关村在线原创技巧应用】不少朋友使用电脑都有一个习惯,那就是到手后先安装第三方的优化软件,比如某某安全卫士、某某电脑管家等。而这些软件存在一定的弊端,比如诱导用户安装其他软件,很容易出现静默安全全家桶软件等问题。那么,对于Windows 11用户而言,有没有必要安装第三方优化软件。今天,看完这篇文章,相信你就有答案了。 我们简单分析一下,用户为什么安装第三方优化软件。个人觉得主要有三个原因:第一,使用第三方软件的杀毒功能;第二,为了清理系统垃圾;第三,为了给系统提速,更进一步就是,禁止第三方软件自启动。下面我们看一下,Windows 11自身是否具备这些能力。 可以这么说,Windows 11具备这些能力,但不完全具备。 首先,Windows 11自带的Windows安全中心,其杀毒能力已经很不错了,应对日常使用完全足够。甚至一些破解软件的文件也会被当做病毒被拦截。从安全性的角度来看,Windows安全中心的防护能力,确实不比第三方优化软件差。所以杀毒这一点,Windows 11是不需要第三方优化软件的。 其次,Windows 11确实能够清理一些系统垃圾,但清理的范围不如第三方优化软件那么全面。在Windows 11的设置—系统—存储设置中,提供了清理临时文件等功能,而且开启存储感知之后,Windows 11还能够自动清理。不过清理项目过少,不如第三方软件。 不过,使用最新Windows 11的朋友可能发现,系统中多了一个电脑管家,这是微软第一方提供的系统优化程序,功能类似于第三方优化软件,可以提供文件清理等功能,算是弥补了Windows 11自身缺失的文件清理功能。 除此之外,电脑关键也提供了拦截应用弹窗的功能,算是与时俱进。 不过,电脑管家存在一些问题,它经常会引导用户将部分设置还原成Windows 11默认设置,比如任务栏修复等。它还会引导用户下载微软自家的软件,算是广告植入的另一种方式。个人感觉这些建议很鸡肋。 最后,Windows 11是支持用户禁用软件自启动功能。用户打开任务管理器,切换至启动应用栏,就能够看到已启用或禁止的启动项,用户可以自行决定禁用哪些软件自启动。从这一点来看,确实不需要第三方优化软件。 除此之外,前面提到的电脑管家也支持禁用应用启动项的功能,不过相比任务管理器,它列出的启动项偏少。不过界面设计要不任务管理器好看不少。 相信看到这里,习惯安装第三方优化软件的朋友应该能明白,第三方优化软件的部分功能,比如杀毒、清理垃圾、禁用启动项等功能,Windows 11以及微软官方推出的电脑管家,是可以支持的。个人建议优先使用Windows 11内置的功能,再考虑电脑管家。毕竟Windows 11内置的这些功能,不会引导用户安装其他的软件,电脑管家的设计也算干净,即使有其他软件的推广链接,也不会诱导用户安装,不会出现全家桶的情况。 总结, 如果你使用第三方优化软件,看重的是杀毒、清理垃圾、禁用启动项这些基础功能的话,那么没有必要安装第三方优化软件,Windows 11可以提供类似的功能,再加上电脑管家,可以完美替代第三方优化软件。 本文属于原创文章,如若转载,请注明来源:一文看懂 Win11到底需不需要第三方优化软件https://nb.zol.com.cn/994/9944961.html 纠错与问题建议标签:操作系统 https://nb.zol.com.cn/994/9944961.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/994/9944961.html report 2404 【ZOL中关村在线原创技巧应用】不少朋友使用电脑都有一个习惯,那就是到手后先安装第三方的优化软件,比如某某安全卫士、某某电脑管家等。而这些软件存在一定的弊端,比如诱导用户安装其他软件,很容易出现静默安全全家桶软件等问题。那么,对于Windows 11用户而言,有没…

a – 别花冤枉钱 不推荐笔记本加装PCIe5.0 SSD

【ZOL中关村在线原创技巧应用】目前消费级最快的固态硬盘,就是PCIe5.0固态硬盘了,最高读取速度超过10000MB/s,非常恐怖。人人都想要更快的速度,那么买一条PCIe5.0固态硬盘,加装到笔记本中,是不是可以?当然可以,但我不建议这么做。PCIe5.0固态硬盘虽好,但也有一些特点,不太适合加装到笔记本中。 首先,支持PCIe5.0固态硬盘的笔记本偏少,目前也就新推出的几款旗舰型号支持PCIe5.0固态硬盘。如果你的笔记本不支持PCIe5.0固态硬盘的话,安装之后仍然是可以用的,但速度会受限。这取决于你的笔记本的M.2接口的最高速度。如果是这样的话,为什么不直接入手对应PCIe规格的固态硬盘呢? 对于支持PCIe5.0固态硬盘的新款旗舰游戏本来说,这类游戏本往往会给到比较可观的硬盘容量,更换的动力并不大。而且要明确的是,即使是支持PCIe5.0固态硬盘的机型,其第二个M.2接口是否支持PCIe5.0固态硬盘,这一点还再次确定。很有可能新款笔记本的两个M.2插槽,仅预装硬盘的M.2支持PCIe5.0固态硬盘,另一个只支持PCIe4.0固态硬盘。 其次,PCIe5.0固态硬盘的发热量比较大,其温度在工作中很容易来到70℃以上。而且考虑到笔记本内部空间拥挤,更不会专门为PCIe5.0固态硬盘配备散热片,这使得PCIe5.0固态硬盘在工作的时候,温度会进一步提高。目前大家购买PCIe5.0固态硬盘的话,一般会有配套的散热片,正是为了解决PCIe5.0固态硬盘过热的情况。用在台式机中还好,但在笔记本中并不合适。 最后,PCIe5.0固态硬盘的售价相对较高。以京东平台价格为参考,目前2TB版本的PCIe5.0固态硬盘,其售价普遍在1299元以上,普遍集中在1400元左右。1TB版本的性价比更低,基本在1000元左右。反观旗舰PCIe4.0固态硬盘,2TB的版本在800元左右,1TB的版本在450元左右,价格相差非常明显。 难道PCIe5.0固态硬盘就一无是处吗?当然不是,现阶段正是PCIe5.0固态硬盘刚刚兴起的阶段,这个阶段下,PCIe5.0固态硬盘的问题比较明显,包括发热严重、售价过高等。事实上在PCIe4.0固态硬盘刚刚兴起的时候,其也经过了这个阶段。随着技术成熟,发热问题没有那么明显了,价格也下来了。 所以,现阶段不建议大家给笔记本加装PCIe5.0固态硬盘。 如果你真的需要给笔记本加装固态硬盘的话,那应该如何选择了。首先是要避开PCIe5.0固态硬盘,其次要了解自己笔记本内部空余的M.2接口,最高支持的PCIe规格,这一点需要大家自己确认,最好找官方客服咨询,以获得更准确的答案。只要是近两三年入手的笔记本,只要内部有2个M.2硬盘位,空余的M.2接口基本都支持PCIe4.0。 另外还需要注意的是,有些轻薄本虽然有2个M.2插槽,但可能因为空间的问题,第二个M.2插槽仅支持2242长度的固态硬盘,这就需要大家购买对应长度的版本。如果买到的是2280的话,那也是装不上的。这一点同样在咨询官方客服的时候问清楚。 另外,自行更换需要拆机,介意的朋友可以购买固态硬盘之后,前往售后进行更换,可能会有对应的手工费用。 本文属于原创文章,如若转载,请注明来源:别花冤枉钱 不推荐笔记本加装PCIe5.0 SSDhttps://nb.zol.com.cn/979/9791614.html 纠错与问题建议标签:固态硬盘 https://nb.zol.com.cn/979/9791614.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/979/9791614.html report 2365 【ZOL中关村在线原创技巧应用】目前消费级最快的固态硬盘,就是PCIe5.0固态硬盘了,最高读取速度超过10000MB/s,非常恐怖。人人都想要更快的速度,那么买一条PCIe5.0固态硬盘,加装到笔记本中,是不是可以?当然可以,但我不建议这么做。PCIe5.0固态硬盘虽好,但也有一些…

a – 游戏本内吹散热是什么技术 提升在哪

【ZOL中关村在线技术解析】最近关注游戏本的朋友,有没有发现散热部分的宣传和之前有一些不同。好像采用内吹式散热设计的游戏本越来越多,而且都在着重宣传。那么内吹散热到底是什么意思,相比传统的散热方式,它到底有哪些优点,有没有必要选购一款采用内吹散热设计的游戏本?这些问题我们本篇文章将会全部解答。 首先我们需要明白,内吹是什么意思。目前绝大多数笔记本的散热方式,都是底部进风(部分机型键盘区域辅助进风),通过风扇向后侧将空气排出,很多游戏本还会增加两侧的出风口,进一步提高出风效率。内吹当然不是反过来,它的过程依旧是底部进风、后侧出风,只不过原本两侧出风的设计,其将出风口有朝外改为了朝内,即两侧不再出风,而是吹向内部,空气再从后侧排出。由于是吹向内部的设计,所以被称作内吹。 传统散热设计 由于采用了这种设计,所以使用内吹设计的游戏本,在外观上会有两个比较明显的特点。第一,机身两侧不会有出风口,毕竟气流走内部,两侧开出风口完全没必要;第二,后侧出风口不再仅仅局限在两端,而是除了中央的接口外,其余可能都是出风口设计,后侧会有大面积的开孔。 内吹散热设计 那么,为什么要采用内吹设计? 让我们再次回到传统的散热设计上。两侧出风设计可以增大气流交换,从而提高散热效率。不过两侧出风设计有三个弊端。第一,无论是习惯使用右手还是左右的用户,两侧出风可能会吹到正在使用鼠标操作的手,可能会影响到体验;第二,对于热交换效率的提升幅度有限,如果进风口的进风量是整体风量的瓶颈,那么出风口再多,对于散热的提升也不大;第三,无法照顾到内部散热,游戏本内部除了处理器和显卡之外,像内存、PCH、网卡等设备,特别是PCH,同样在发热,而且随着频率的不断提升,发热量也逐渐增大。外吹设计并不能照顾到这一点。 笔记本热源不止处理器和显卡 内吹设计正好可以解决以上这些问题。首先,内吹设计不存在两侧出风口,不会影响到日常操作。内吹设计的气流可以经过覆盖处理器、显卡的散热模块,带走部分热量,从而提高散热效率。不过内吹设计可能不会吹到PCH,所以一些机型会增加小风扇设计,或者直接将散热模组设计为全覆盖式,也就是覆盖PCH、硬盘等,这样就可以将这些组件的热量传导到散热模组上,通过内吹设计加速热量传递。 单独的小风扇 知道了内吹设计的好处,那么是不是选择游戏本的时候,一定要选采用内吹设计的产品。答案是不一定的。 目前内吹设计依旧是成本相对较高的设计,这意味着这种设计会出现在高端产品上,并不会在中低端产品中普及,最起码从目前已发布的产品中看是这样的,不排除后续某个品牌决定加速产业发展,在中低端产品中普及这种设计。所以这意味着,现阶段一台采用内吹设计的游戏本,其售价是偏高的,普遍在万元以上,这对于大家的预算有一定要求。 此外,内吹设计确实提升了整体的散热效率,但如果硬件本身的发热并没有那么大的话,其实从最终的散热结果来看,内吹设计可能带来的提升并不是特别大。采用发热量较小的硬件,这种情况经常出现在低端游戏本中,考虑到其售价,目前采用内吹设计的可能性也不大。 所以,是否选择采用内吹设计的游戏本,大家还是先根据自己的预算进行考量。如果想要一台低端游戏本的话,那基本不太可能会有采用内吹设计的游戏本可供选择。 本文属于原创文章,如若转载,请注明来源:游戏本内吹散热是什么技术 提升在哪https://nb.zol.com.cn/979/9791605.html 纠错与问题建议标签:笔记本电脑 https://nb.zol.com.cn/979/9791605.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/979/9791605.html report 2643 【ZOL中关村在线技术解析】最近关注游戏本的朋友,有没有发现散热部分的宣传和之前有一些不同。好像采用内吹式散热设计的游戏本越来越多,而且都在着重宣传。那么内吹散热到底是什么意思,相比传统的散热方式,它到底有哪些优点,有没有必要选购一款采用内吹散热设计的游…