(原标题:ASIC恒盈配资,大救星!)
公众号记得加星标??,第一时间看推送不会错过。
不断增长的人工智能(AI)需求暴露出一个严峻的“计算危机”,其特点是能源消耗不可持续、训练成本过高以及传统互补式金属氧化物半导体(CMOS)微缩技术接近极限。「基于物理的专用集成电路(ASIC)」提供了一种变革性的范式,它直接利用固有的物理动力学进行计算,而不是耗费资源来强制实现理想化的数字抽象。
通过放宽传统ASIC所需的约束,例如强制无状态性、单向性、确定性和同步性,这些设备旨在作为物理过程的精确实现而运行,从而在能源效率和计算吞吐量方面获得显著提升。这种方法能够实现新颖的协同设计策略,使算法需求与物理系统固有的计算原语相吻合。
基于物理的ASIC可以加速关键的AI应用,例如扩散模型、采样、优化和神经网络推理,以及材料和分子科学模拟等传统计算负载。最终,这一愿景指向了一个异构、高度专业化的计算平台未来,它能够克服当前的扩展瓶颈,并开启计算能力和效率的新前沿。
一、引言:计算危机
在过去十年中,人工智能(AI)应用的快速扩展显著增加了对计算基础设施的需求,暴露了基础硬件范式中的关键限制。支撑AI模型的基础设施从未考虑到今天的规模、复杂性或能源需求。因此,当前的计算堆栈导致了当前硬件系统中固有的物理计算能力的严重低效利用。
传统的扩展正面临多方面的极限:
1.AI的能源需求正在不可持续地增加,如图1(a)所示。数据中心是AI操作的核心,2023年消耗了大约200太瓦时(TWh)的电力。预测表明,到2026年,这一数字可能会增至260太瓦时,占美国总电力需求的约6%。
图 1. 预计的计算能耗与计算能力供需情况。虽然“计算危机”有多重面向,但两个关键方面是:(a)计算能耗的不断上升;(b)计算能力供需差距的不断扩大(此处以 AI 模型训练为例)。过去几年中,这两个问题在很大程度上都是由 AI 革命所驱动的。图中(a)和(b)分别改编自参考文献 3 和 4。
2. 计算成本急剧上升,集中化了访问。前沿AI模型的发展使得训练成本大幅增加,预计到2027年,最大规模的训练运行成本将超过10亿美元。这与图1(b)所示的供需差距自然相关。
3. 随着晶体管尺寸缩小到纳米级,长期以来的扩展定律——摩尔定律和丹纳德定律——正在达到其极限。诸如随机性、漏电流和可变性等微型化效应使得在这些尺度下实现可靠操作变得困难。我们无法再像过去那样按比例减少阈值电压,从而导致更高的功率密度,进而导致加热,限制了时钟速度和运行时间。
这些限制不仅妨碍了性能的提升,还揭示了更深层次的低效:今天的通用架构未能充分利用硬件本身的物理潜力。为管理复杂性而设计的抽象层如今成为了瓶颈,尤其是在能源效率和计算吞吐量方面。如果不改变计算范式,我们面临创新停滞、能源成本上升,并且AI能力可能集中在少数大型公司和政府机构手中的风险。
基于物理的应用特定集成电路(ASIC)通过利用物理现象进行计算,而非压制它们,提供了一种变革性的方法。通过将硬件设计与物理系统的内在属性对齐,这些ASIC可以提高效率、降低能耗,并使AI和计算资源的获取更加普及。
二、什么是基于物理的ASIC?
A. 动机
如果我们想提高计算效率(例如,减少能耗或缩短时间),我们可以为理想化的通用硬件设计更高效的算法,创建更快或更高效的硬件(无论是通用的还是专用的),或者联合设计算法和硬件,旨在最大化所获得的有效计算。虽然在当代计算机科学和工程的研究领域中有许多例外,但在过去五十年左右,明确致力于改善计算的努力主要集中在前两条途径上,即通用计算硬件和高度抽象的软件开发策略,这种策略使得不断扩展的软件应用和现代数字经济得以实现。
然而,更多专用硬件,如GPU,仍然成为计算领域最近进展的关键推动力,硬件的隐性算法偏好长期以来一直是算法成功的指导力量。
机器学习中最流行的算法恰好主要涉及矩阵乘法运算,而GPU在这一操作上特别高效,这难道是巧合吗?当然不是:这些算法在软件与硬件之间实现了出色的匹配,使得它们能够很好地扩展,取得比那些未能有效利用GPU的算法更好的结果。这种普遍趋势,即算法的共同优化在无意识中受到现有硬件特性引导,被称为“硬件彩票5”。硬件彩票的突出性表明,软件和硬件的协同设计是不可避免的,无论是有意识的还是无意识的。
基于物理的ASIC的思想本质上是将这一主要无意的趋势转变为完全有意且有原则的做法:它旨在故意将算法和硬件从可用、可扩展的硬件基础设施的最低物理层面开始进行协同设计。类似于变换器(Transformers)中密集的矩阵乘法巧妙地适应了GPU的偏好,我们是否可以类似地设计算法和电子芯片,利用硅电子电路物理学中更深层的偏好(进而解锁更大的可扩展性)?
当然,这不是免费的午餐:它将需要开发新的算法和硬件,而这些算法和硬件与大多数现代计算机科学家设计的不同,必须考虑到彼此的细节。但另一方面,这条道路可能使我们能够比今天更高效地利用现代计算硬件。效率能提高多少?这很难说,但我们可以通过考虑一个相关问题来得到一些线索,即抽象如何影响数字模拟电路的成本。例如,执行简单CMOS非门的物理设备在被抽象为二进制逻辑门时,每个时钟周期执行一个二进制操作,但如果我们改为模拟组成它的电路的瞬态(和模拟)动态,典型的数值方法(例如,在SPICE中使用的)可能需要数百万次浮动点操作。如果我们将每个晶体管细致地建模(正如在设计阶段经常做的那样),我们必然要解决3+1维的偏微分方程系统,要求数十亿甚至数万亿次浮动点操作(仅仅对于一个时钟周期)。显然,我们抽象一个物理系统的物理层次可能会影响它等价于多少次数字逻辑门操作。然而,这只是挑战的一部分:仅仅因为在某个抽象层次上对物理系统的模拟是昂贵的,并不一定意味着我们可以使用相同的物理系统和抽象来执行其他有趣的计算。这就是基于物理的ASIC的核心挑战:设计抽象、算法和硬件架构,通过更好地尊重基础硬件的物理规律,使我们能够有效地、更加充分地利用今天高度可扩展的电子电路所提供的物理计算能力。
B. 定义
宽泛地说,基于物理的ASIC是依赖于系统自然物理动态来执行数据上的非平凡操作的ASIC。这个定义有些模糊;因为所有电路都是遵循物理定律的,所以所有计算在某种意义上都是通过计算系统的自然演化来完成的。
然而,传统的ASIC设计有意压制或抽象掉某些物理效应,以实现理想化的、符号化的计算模型。通过这样做,它依赖于一组近似,这些近似允许从简单、理想化的组件中构建复杂系统。
最重要的近似之一是:
1. 无状态性:在传统的ASIC中,通常存在一个明确的分离,即内存和计算由不同位置的独立组件处理。不负责存储信息的组件被假定为其输出仅依赖于当前输入,而不依赖于先前的历史。例如,一个NOT门应该反转其输入的当前值,而不管过去的值如何。
2. 单向性:传统ASIC的基本组件被设计成在单一方向上传播信息;它们有指定的输入和输出端口。例如,一个NOT门应该响应输入端的变化,但它的输出不应该影响输入。正因为如此,在传统的ASIC中创建反馈回路需要显式地将某个模块的输出连接到其输入。
3. 决定性:在相同的输入和初始条件下,电路预期每次都产生相同的输出。
4. 同步:通常,传统ASIC中不同部分的信号是根据一个集中的时钟相互同步的。
这些属性在严格意义上是无法在物理上实现的:实际组件会表现出记忆效应、反馈、噪声和热波动。强制实现这些理想行为会带来能量、延迟或复杂性的成本,并且随着近似的精确度提高,这些成本也会增加。
基于物理的ASIC则被设计为在不依赖这些属性(或至少不依赖其中某些属性)的情况下运作。与传统ASIC不同,这些设备被设计成利用(或至少容忍)有状态性、双向性、非决定性和异步性,如图2所示。因此,基于物理的ASIC上的计算不是对非物理过程的近似,而是物理过程的实现。
图 2. 传统ASIC 与基于物理的ASIC。 如图所示,传统ASIC将存储与计算分离,假定计算组件是无状态的。单个逻辑门以单向方式传递信息,具有专用的输入和输出端,要构建反馈回路必须显式地将输出接回输入。基于物理的ASIC则可能包含有状态的计算组件,并且在耦合之间具有双向的信息流动。
由于缺乏传统ASIC中存在的简化假设,基于物理的ASIC的行为通常更加复杂,且更难以分析。然而,基于物理的ASIC中的电路组件执行操作时也有更广泛的可能性。因此,基于物理的ASIC通常能够用更少的组件完成显著更多的计算。例如,传统ASIC中的标量乘法可能需要几十到几百个晶体管,而在基于物理的ASIC中只需要少量组件。
C. 平台恒盈配资
许多现有的非常规计算范式可以看作是基于物理的ASIC的例子。尽管这些不同方法之间存在很大多样性,但基于物理的ASIC与其他基于物理的平台(例如,用肥皂泡进行计算6)的区别在于它们的可扩展性。可扩展性和可制造性是这个激动人心的新领域的关键要素。现在我们给出这些可扩展平台的一些例子,其中一些已在图3中示出。
图 3. 基于物理的ASIC的常见构建模块。 虽然并非详尽无遗,但图中展示了几种可用作基于物理的ASIC构建模块的基本物理结构。对于每一种组件,其所遵循的物理定律都可映射为某种计算原语操作。
如前所述,基于物理的ASIC与传统ASIC的不同之处在于它们放宽了通常应当大致满足的某些要求,包括无状态性、单向性、决定性和同步性。在基于物理的ASIC中,我们可以大致根据这些要求的子集来对设备进行分类。
已经提出了一些范式,其中ASIC中的电路组件故意被设计为有状态的,有时依赖于较长时间内的历史。例如,使用忆阻器的电路就是一个典型的例子,其电阻依赖于通过它们的电荷量。其他组件在用于模拟电路时也可能表现出记忆效应,从而去除了无状态性的假设。
双向耦合在实现Ising机(包括数字和模拟)的ASIC中很常见,在设计用来解决线性和非线性代数及(可能是随机的)微分方程问题的模拟设备中也是如此。物理自由度之间的相互作用也被用于基于非线性光子学的平台和自调整电阻网络。
由于抑制有状态行为和双向信息流需要耗散,我们可以预期,当这些要求被放宽时,可能会实现更高的能效。如果把这个想法推向极致,可逆计算试图通过避免任何信息擦除来显著减少能量损耗。值得注意的是,量子计算作为可逆计算的一个子集,表现出交互的量子比特之间的信息双向流动。
近年来,对非决定性ASIC(包括模拟和数字)的兴趣也在不断增长。在数字情况下,已有大量关于p比特的研究,这些比特是经历连续时间马尔可夫过程(CTMC)的二进制变量。磁隧道结(MTJ)在电压中表现出双稳态的随机行为,可用作模拟或数字随机性的来源。类似地,热力学计算机使用模拟电路采用连续变量的随机动力学(即布朗运动)。
在一些基于物理的ASIC技术中,包括p比特,采用了无中央时钟的设计,单个设备中的不同信号将异步变化。也有一些ASIC利用多同步时钟设计,其中并非使用单一的中央时钟,而是多个本地时钟,这些时钟之间并不完全同步。
D. 性能优势的直觉
如前所述,传统的ASIC会产生与确保无状态性、单向性、决定性和同步性要求大致满足相关的时间和能量成本。一般来说,这些成本通常是值得的,因为它们允许计算系统以非常模块化的方式设计,可以用于各种用途。然而,对于特定类型的问题,通常存在一些算法或解决方法,这些方法不依赖于这些属性。在这种情况下,设计一个ASIC来解决该特定类型的问题,并放宽与确保无状态性、单向性和/或决定性相关的设计约束,可能会更为有利。
从实际角度来看,这可能表现为提高时钟频率,超过了可以依赖无状态或决定性行为的范围。同样,降低供电电压,也会产生非决定性行为,以换取更低的功耗。事实上,基于物理的ASIC的一个常见特点是,它们通常通过放宽上述约束来节省功率和能量成本。
有趣的是,我们还常常观察到,当系统的自然动态在计算中被利用时,许多操作可以融合成一个操作。也就是说,我们可以看到,在某种意义上,物理动态“自动”地执行部分计算(例如,求解线性代数或优化问题)。这为时间和能量节省的可能来源提供了一些直觉。
尽管在将各种基于物理的ASIC方法进行扩展方面仍然有很多工作要做,但已有迹象表明,在时间和能量成本上存在显著优势的潜力。
三、设计策略
A. 自上而下 vs. 自下而上
设计基于物理的ASIC是具有挑战性的。一种有原则的策略通常涉及考虑自上而下与自下而上视角之间的交集,如图4所示。在自上而下的方法中,从一个具有广泛兴趣或重大影响的关键应用A开始(例如,图像或材料的生成AI)。然后将这个应用映射到算法空间,即列出一组可能运行该应用的算法L(A)(例如,扩散模型、变换器等)。
图 4. 基于物理的ASIC设计。 自上而下方法给出可运行目标应用 A 的一组算法 L(A)。自下而上方法给出可在某种物理结构 S 上高效运行的一组算法 L(S)。基本设计原则是最大化这两组算法之间的重叠。
或者,在自下而上的方法中,从基本的物理结构S开始,如图3中展示的某个结构。然后确定可以使用这些结构高效计算的数学原语P(S)。接着,从这些原语中形成算法,找到可以高效运行的算法集合L(S)。目标是最大化L(A)和L(S)这两个集合之间的重叠。通常,这需要考虑多个不同的候选结构S,然后选择那个在算法空间中与目标应用A最佳匹配的结构。
不同领域可能会从这种策略中受益。例如,在量子计算中,通常采用自下而上的视角,专注于物理结构(例如离子、原子、超导电路等)。同时,将量子计算视为基于物理的ASIC的特例也是合理的。因此,在量子背景下使用上述框架可能是设计量子ASIC的一种有用视角,前提是要牢记希望与目标应用A相交的算法集合L(A)。
B. 性能指标
我们可以通过使策略更具量化性来完善这一策略。即,我们必须澄清算法在某些硬件上“高效”运行意味着什么。虽然有多种潜在的性能指标,但两个关键指标是运行时间和能量消耗。对于给定的算法?,确定?是否属于L(S)可以通过比较?在两种硬件上的运行时间和能量消耗来实现:最先进的(SOTA)数字硬件(通常是GPU)和由结构S构建的硬件。
为此,我们定义了以下比率:
将算法?纳入集合L(S)的合理标准是,RT(?)或RE(?)中的任意一个大于1。另一方面,如果这两个比率都小于1,则算法?不被认为在硬件S上高效。
需要考虑的一个警告是,时间和能量可以相互交换。这就是为什么需要同时考虑这两个比率,因为通常可以通过牺牲一个比率来提高另一个比率。为了解决这个问题,可以考虑一个更严格的标准,即当这两个比率都大于1时,算法?才被认为在硬件S上高效。
C. 阿姆达尔法则
在实践中,算法由多个步骤组成,算法中的一部分计算可以在基于物理的ASIC上高效运行。例如,在卡尔曼滤波算法中,有矩阵求逆和矩阵-向量乘法(MVM),可能希望使用ASIC来处理矩阵求逆,而GPU用于处理矩阵-向量乘法。在这种情况下,阿姆达尔法则对使用ASIC所能获得的性能提升设定了限制。设x为算法运行时间T中可以在ASIC上加速的计算所占的比例。那么,(1 ? x)T是通过使用ASIC可以达到的最小运行时间,因此最大加速比仅为1/(1 ? x)。对于能效的最大提升也可以进行类似的推理。
D. 算法协同设计
由于阿姆达尔法则,需要仔细思考如何为给定的硬件范式设计算法。举个例子,关于今天AI应用中的SOTA算法,采取以下视角非常有趣。这些算法隐式地被协同设计用于特定的硬件平台,即GPU。例如,变换器(Transformers)理想地与GPU匹配,因为它们执行大量可并行化的矩阵运算,而GPU专门为并行矩阵运算而设计。从这个意义上讲,GPU得益于一个庞大的研究者社区,他们为GPU平台共同设计了算法。
同样,基于物理的ASIC也将受益于学术界在算法协同设计方面的研究。对于给定的算法框架,有超参数允许将复杂度从一个子程序推送到另一个子程序(例如,从采样到优化,或从神经网络的复杂性到动态系统的时间演化)。关键在于通过某种方式推动复杂度的转移,从而增加阿姆达尔法则中出现的比例x。因此,必须将算法?(h)视为仅在其超参数h的范围内定义。此外,仅仅因为某些算法?(h)在硬件S上未表现出性能优势,并不排除通过调整复杂度来获得修改后的算法?(h′),从而获得性能优势的可能性。因此,值得将方程式(1)和(2)中的性能指标替换为R?T(?) = maxh RT(?(h))和R?E(?) = maxh RE(?(h)),它们表示对所有协同设计算法?与硬件S的努力进行最大化。
E. 物理机器学习
一种算法与硬件协同设计的方法是直接在硬件层面上进行机器学习——我们称之为“物理机器学习”(PML)。PML通常涉及一个监督学习过程,其中通过直接优化硬件的可调物理参数(例如,可调导电性)来学习给定硬件所执行的计算,从而使得数据通过物理硬件的端到端转换最佳匹配训练数据集。在数学上,硬件的输入数据x?通过某些可编程参数的子集进行编码(例如,应用于硬件某部分的电压,如输入电流源),经过一段时间后,硬件物理自由度的(通常是不同的)子集被测量(例如,离开一组定义输出线的电流),以产生输出向量y?。物理机器学习的过程涉及使用优化算法来设置硬件的可控参数θ?,影响从x?到y?的有效计算,即y? = fp(x?, θ?),其中fp表示硬件时间演化所导致的输入和输出之间的转换。
例如,可调参数可以是施加在输入和输出电流之间晶体管上的电压,这些电压改变电流在硬件中的流动方式。在许多形式的PML中恒盈配资,可调参数可能以数字预处理或后处理的形式进行编码。例如,在物理水库计算中——PML的开创性概念——物理转化是(在最简单的非递归情况下),y? = W (θ?)fp(x?)。其中,W (θ?)是一个线性矩阵,通过线性回归学习得到。通过适当优化W的权重,所需的非线性函数可以通过“特征”(即输入x?的函数)的线性组合来近似,这些特征是由物理硬件自然计算出来的(在物理水库计算中被描述为“水库”)。其他形式的PML学习物理硬件的参数,而不是(或除了)这种数字后处理,例如物理神经网络、变分量子算法和“材料中”计算。
一方面,PML为硬件和软件的联合优化提供了一种潜在的优雅解决方案,因为算法实际上是直接从硬件本身提供的计算空间中学习的。然而,迄今为止,PML学习到的算法通常相当简单,要么是因为优化参数的过程非常困难,要么是因为物理硬件本身的表达能力有限。PML中的优化之所以困难,部分原因是,与现代人工神经网络不同,后者经过系统工程设计,能够在应用随机梯度下降法学习其参数时表现良好(例如,通过像残差连接这样的架构创新),物理硬件学习的工程工作较少,因此许多硬件假设(即fp的具体形式)呈现出更加具有挑战性的优化景观,表现出例如贫瘠的平坦区域,使得梯度下降法变得无效。此外,直接优化物理硬件会遇到困难,因为硬件通常与任何理想化的仿真不同——这种“仿真到现实”的差距意味着,仅通过仿真硬件来执行优化往往会失败。
由于这些挑战,PML子领域的一个重要开放问题是开发有效的学习算法,这些算法可以用在一个单独的处理器中来高效配置θ?,或者——理想情况下——直接使用物理硬件来实现这一目的,即物理学习。
F. 物理学习
PML最强大的形式是同时在物理硬件中进行推理(即物理计算y? = fp(x?, θ?))和学习(即确定参数θ?的最佳选择)。与仅执行推理的硬件相比,显然设计可扩展硬件(以及可扩展学习算法)使得这两个功能都能实现要更加困难。但克服这个困难无疑是值得的:解决物理驱动学习的挑战可以实现令人瞩目的可扩展基于物理的ASIC,这些ASIC可以直接学习执行所需的计算,甚至无需数字计算机的监督。这将允许紧凑、高效的神经网络计算,具有比现代数字系统更多的可训练参数。
对于电子硬件中的物理驱动学习,通常需要有局部规则来更新边缘,就像大脑中的神经元根据局部条件自我更新,而不需要知道其他所有神经元的状态一样。这样规则的一个重要类别已经为电子、流体或机械网络开发出来,这些网络根据优化原则进行平衡。在实验室中的电子网络上,每个边缘上都已建立电路,实现局部学习规则以调整其电导。在训练完成后,后续的计算(推理)仅通过提供输入电压来物理地完成,让系统平衡,并读取输出电压。设计问题然后涉及硬件和可调边缘的选择、学习电路、网络架构,以及——重要的是——如何在芯片上大规模实现。物理学习还可以在各种其他系统中完成。
四、应用
图5展示了基于物理的ASIC将影响的一些应用。这些设备天生适合受物理世界启发或基于物理世界的应用。
图 5. 基于物理的ASIC应用。 部分应用受物理启发(如采样和优化)。其他应用则基于物理原理(如科学模拟和模拟数据分析)。在数学领域的抽象应用也同样相关。
A. 物理启发的应用
许多算法受到物理启发。这很可能是因为开发这些算法的人对物理有很强的直觉,并且历史上物理学曾是早期的应用重点。尽管现代应用如AI和金融更加抽象,但它们在实践中往往仍然使用物理启发的算法。
1.人工神经网络
2024年诺贝尔物理学奖授予了Hopfield和Hinton,以表彰他们为使人工神经网络(ANNs)机器学习奠定基础的工作。尽管关于人工神经网络是否受到物理启发或生物学启发存在争议,但早期的ANN,如Hopfield网络和玻尔兹曼机,确实源自自旋系统的统计物理学。
尽管用于主流机器学习的人工神经网络与大脑中的生物神经网络差异巨大,但它们仍然非常适合在嘈杂的模拟硬件上进行计算。首先,现代的人工神经网络在很大程度上依赖于一组有限的操作,这些操作会重复多次,如矩阵-矩阵和矩阵-向量乘法。这意味着,基于物理的ASIC可以加速这一类别中的有限计算,从而在神经网络推理或训练中提供显著优势。其次,虽然现代ANN通常在高精度数字计算机中实现,但它们已被证明对噪声具有极强的抗性——ANNs通常可以被训练以非常低的(甚至是二进制的)精度权重和激活值进行操作,并且几乎没有性能损失,同时训练中常常使用噪声(例如,采用dropout形式)来提高泛化能力,并使学习到的神经网络对抗攻击更加鲁棒。最后,随着更多计算资源的投入,ANNs表现出显著的改进,例如通过增加可学习的参数数量(以及每次推理的计算量)、延长训练时间或通过其他方法提高计算利用率。这些特性的结合使得ANNs特别适合通过专用的嘈杂模拟硬件加速,而它们快速扩展的应用表明,进行这种加速具有强大的商业驱动力。
2. 扩散模型
最明显的物理启发算法之一是扩散模型。关于这一主题的原始工作指出了与非平衡热力学的深刻联系。由于随机过程的时间反转在随机热力学中经常被考虑,人们意识到相同的形式主义可以用来逆转向数据添加噪声的过程,从而形成生成模型。在过去几年中,扩散模型已经成为一种生成图像、视频、分子结构和材料的最先进方法。硅中自然发生的随机性使得基于物理的ASIC非常适合运行扩散模型。此外,扩散模型允许我们放宽确定性操作的限制,以便通过基于物理的ASIC实现更高效的性能。
3. 采样
更广泛地说,从期望概率分布中进行采样的问题可以通过使用物理启发的算法来解决。像气体或磁自旋这样的物理系统自然地向平衡演化,其中微观状态遵循玻尔兹曼分布,且一个状态的可能性会被其能量指数级地抑制。现代的采样方法模仿这一行为,从非物理领域(如机器学习或贝叶斯推断)中的复杂分布中生成样本。像马尔可夫链蒙特卡洛(MCMC)及其变种的算法模拟了物理系统中粒子的随机游走,并能够在高维空间中高效地采样。基于物理的ASIC有望使离散和连续变量的采样更加高效,实际上是通过将采样算法还原到其根源来实现。也就是说,这些ASIC使用实际的物理系统,其动力学(例如,热力学放松)实现了Langevin蒙特卡洛、贝叶斯推断或其他采样协议。使用Ising机的概率计算和使用随机电路的热力学计算都是有前景的采样应用方法。
4. 优化
优化也深受物理学启发,因为物理系统自然地执行优化。热力学系统朝向最小化自由能的配置演化,推动了相变,如晶体形成和蛋白质折叠。自由能最小化的原则与搜索成本或损失函数全局最小值的优化算法相似,类似于物理系统稳定到其最稳定状态的过程。例如,模拟退火明确模拟了金属的冷却过程,这一过程消除了原子级缺陷。一些基于物理的ASIC可以执行这种退火算法,其中一个抽象的损失函数被编码为物理能量函数。类似地,Langevin动力学可以视为Wasserstein梯度流。基于物理的ASIC在Langevin动力学下演化,实际上是在Wasserstein空间(即概率密度函数的度量空间)中执行梯度下降,因此可以用于在概率分布上进行优化。组合优化,涉及从离散可能性的集合中找到最佳解决方案,可以通过与Ising模型的关联视为物理启发。即,二次无约束二进制优化(QUBO)问题可以映射到Ising模型的能量函数。Ising机器利用这一深刻的联系高效地解决QUBO问题,并且可以扩展到混合变量优化。最后,基尔霍夫的电子电路定律可以解释为一个优化问题,其中系统自然最小化能量耗散(受限于约束)。这一点已经被用来通过电阻网络解决优化问题,电阻网络作为一个基于物理的ASIC,既可以自我训练,又可以执行所需的计算。
B. 基于物理的应用
1. 科学模拟
基于物理的ASIC最直观的应用之一是模拟物理世界。设计新材料并预测其性能是一项令人兴奋的任务,但对当前的计算硬件来说颇具挑战。基于物理的ASIC可通过物理启发的生成式AI(如扩散模型)和通过动态模拟强化材料特性表征,加速材料发现。分子动力学(MD)模拟方法已广泛应用于工业,例如在氨合成催化剂设计和环境保护中。费曼曾指出,我们应使用物理系统来模拟物理,而MD正是一个例子,基于物理的ASIC可加速分子和材料的动力学模拟。这包括加速Langevin动力学、伞形采样以及跃迁路径采样等原语。我们还强调常被忽视的介观模拟领域,在此量子效应消失,经典随机热力学成为合适框架。基于物理的ASIC将在介观模拟中发挥关键作用(如纳米结构材料的自组装和非牛顿流体的流变学),很可能作为复杂工程过程多尺度建模的一个组成部分。在更深层次上,介观层面还存在未解的科学问题,如生命的起源。基于物理的ASIC可用于验证例如England的耗散驱动适应理论和基于物理的自我复制出现等机制,以解释地球上生命的起源。
2. 模拟数据分析
基于物理的神经网络在处理本质上为模拟形式的数据方面展现了希望。例如,光学神经网络可自然地分析光学数据,对音频数据或模拟电信号同样适用。基于物理的神经网络通过直接在模拟域执行分析,避免了将模拟信号转换到数字域的开销。随着AI变得更加多模态并更多地与物理世界(如机器人技术)结合,这些应用将变得尤为重要。
五、路线图与挑战
我们预计基于物理的ASIC的采用将分为三个阶段。第一阶段,各研究团队将利用概念验证硬件展示其基于物理的ASIC架构在性能上优于在CPU和GPU上运行的最先进方法。接下来,需要解决关键的可扩展性问题,使基于物理的ASIC能够处理与现有硬件解决方案相当规模和复杂度的问题。最后,这些扩展后的基于物理的ASIC需要集成到系统中,并设计软件抽象,以便轻松运行关键计算工作负载。
阶段一:展示领域特定优势
基于物理的ASIC采用的最重要驱动力是其在运行关键计算工作负载时的性能和能效。因此,任何基于物理的ASIC项目的首要目标之一,应当是展示在某个关键工作负载上优于传统CPU或GPU方法的可行路径。
关键应用的加速
对于某些问题,规模相对较小的基于物理的ASIC原型能够表现出优于CPU或GPU求解器的性能。例如,对于具有1440个Ising自旋的问题,基于锁存器的Ising机在最小化Ising哈密顿量方面,比CPU求解器快1000倍以上。然而,对于更大规模的问题,由于将数据加载到物理ASIC以及从中读取的成本,这些原型往往无法达到同样的加速效果。这凸显了内存带宽和可扩展性是原型系统的关键瓶颈。
另一种证明潜在加速的方法是展示关键的规模优势。例如,基于耦合振荡器的模拟Ising机预计在约150个自旋或更大规模时就能超过GPU求解器的性能。同样,与最先进的数字方法相比,热力学计算在线性代数和贝叶斯推断任务上具有更优的渐近复杂度,这些复杂度优势亦可延伸到神经网络训练等更高层次的应用,而后者在GPU上计算成本极高。
尽管如此,过去摩尔定律的进展主要来自于缩小规模前置因子,而并非改变渐近复杂度。因此,旨在优化前置因子的传统工程创新仍然至关重要。
能效
基于物理的ASIC由于可将某些应用更自然地映射到物理硬件,因此在能效方面也有望远超GPU求解器。研究表明,光学神经网络在执行每次标量乘法时探测的光子数不到一个,这比基于数字电路的传统方法具有根本性的能量优势。同样,一种带有全连通耦合振荡器的模拟Ising机在解决组合优化问题时,其能耗比在CPU上运行的最先进算法低1–2个数量级。此外,在由自调整电阻构成的模拟电子网络中进行物理计算,相较于数字计算,能效节省潜力可达百万倍。
阶段二:构建可扩展物理基底
文献中展示的大多数基于物理的ASIC规模相对较小,尤其与传统数字硬件相比。这些工作对于证明基于物理的ASIC概念的可行性非常宝贵,但仍需额外工作,将这些设计扩展到能够解决具有工业意义的现实问题的程度。
基于tile的ASIC设计
例如,提出了“可现场编程的Ising阵列”,利用基于tile的层级结构来实现更高的效率和可重构性。每个tile包含密集的全连通模拟耦合,而tile间的连接则完全由数字通道组成且较稀疏。这限制了模拟耦合电路的规模,从而防止了寄生效应和噪声对其性能的显著退化。基于tile的架构以及其他层级架构在物理实现方面也具有实际优势。tile设计可以独立于其他tile进行设计、综合和布线,然后置于片上网络(NoC)中与其他tile通信。当每个tile包含模拟或混合信号组件时,这一点尤为重要;如果没有层级架构,要在GPU规模和复杂度上设计并仿真混合信号芯片将极其困难。
可重构交互项
许多基于物理的ASIC也难以支持密集型问题。它们通常只能支持固定的图拓扑,需要软件将任意问题映射到该固定拓扑。这一过程称为次要嵌入,其计算开销高昂,并且可能在大规模或复杂问题上失败。显然,需要更好的硬件支持来应对不同稀疏模式的图结构。
为此,提出了一种p比特计算架构,使用可重构的主图来支持不同稀疏模式的图。这种方法保留了稀疏连接的可扩展优势:每个p比特的邻居数量保持不变,因此硬件利用率随规模线性扩展,且随着p比特数量增加,最大工作频率保持大致恒定。
通过利用模块化、可tile化的计算单元和可重构耦合,基于物理的ASIC有望扩大到与GPU相当的规模,同时支持多种不同稀疏模式的问题。
阶段三:集成到混合系统
一旦展示出大规模的基于物理的ASIC,就需要从硬件和软件两方面将其集成到实用的大规模系统中。
异构硬件平台
由于基于物理的ASIC专门用于解决某些类型的计算问题,我们预计它们将部署在所谓的异构系统中,与传统GPU和CPU协同工作。例如,曾提出一种超级计算系统,结合了多台网络化的概率处理器、传统GPU和量子处理器。这样的系统能够高效加速能量基模型(EBM),使用GPU处理大型矩阵?向量运算(如嵌入计算和梯度计算),同时使用概率处理器模拟神经元的随机操作。
标准软件抽象
为了使基于物理的ASIC获得广泛采纳,它们需要对不熟悉底层物理过程的软件工程师友好。实际上,这意味着基于物理的ASIC应利用用户已熟悉的标准软件抽象,如PyTorch和JAX。例如,已经为电学和光子Ising机开发了基于Python的编程模型。为了让用户在基于物理的ASIC上运行更复杂的工作负载,可能需要一个编译层。我们的愿景是,用户只需在PyTorch或JAX中编写一个程序,即可自动编译并在由CPU、GPU和基于物理的ASIC组成的混合系统上运行,使每种芯片都用于其最擅长的工作负载部分。
六、结论
A. 领域愿景
随着传统扩展进入平台期,基于物理的ASIC不仅提供了一种可行的替代方案,更是计算方式的必要演进。这个新兴领域利用自然的物理过程,而不是对抗它们。标准计算为了满足抽象出硅物理特性的假设,消耗了大量能源。通过放宽这些假设,我们的领域旨在解决当今计算硬件中的不可持续能耗。此外,我们致力于加速那些制约AI工作负载的关键应用:采样、生成式AI、优化、神经网络训练与推理,甚至其他物理系统的模拟。
未来的道路不会由单一架构或通用解决方案定义。可以想象,高性能计算(HPC)平台将由多个基于物理的ASIC组成,每个ASIC专注于不同角色。例如,多尺度物理建模的HPC平台可以集成在原子级、微观、介观和宏观四个层次上运行的ASIC,每个层次的硬件都针对其物理范畴进行优化。同样,面向模型的强化学习HPC平台也可由异构计算堆栈构成,针对特定应用进行性能优化,不同ASIC分别负责采样、优化和物理仿真等子程序。
能量和时间在物理学中具有基础性作用,在计算中亦然。这并非巧合,因为物理为评估计算性能提供了统一框架。例如,能量?时间权衡(更广义的能量?时间?精度权衡)在基于物理的ASIC中自然而然地出现,同样也适用于理解标准数字计算的复杂性。这暗示了对计算复杂性进行统一处理的可能性,这将是平等比较不同计算范式的关键。
基于物理的ASIC为超越传统扩展极限的计算提供了新途径。在未来两年内,我们预计会看到越来越多的实验证明基于物理的ASIC相较于标准硬件具备性能优势。初期的验证或将展示在相同性能水平下的巨大能效提升,而后续演示可能解锁标准硬件无法实现的新功能。这些新功能或包括可扩展的无近似贝叶斯推断以支持可靠的AI预测、大规模高精度分子动力学模拟,或在边缘设备中实现对模拟物理数据的快速分析。
B. 行动呼吁
实现这一愿景将受益于一个活跃、不断壮大的热情开发者社区。我们重点指出了以下几个需要采取行动的关键领域:
识别一组GPU不擅长的应用。 GPU擅长并行计算,但不一定擅长顺序计算。例如,模拟物理动力学应用在时间上是顺序的,对GPU而言具有挑战性。虽然许多物理模拟可以在子系统(如单个粒子)之间并行化,但仅靠并行处理所能获得的性能优势是有限的;总体运行时间始终受限于最长顺序步骤链长度与单步延迟的乘积。因此,在高度并行的场景中,性能最终将受制于仿真步骤的时延,而非总计算吞吐量。
为基于物理的ASIC协同设计算法。 变换器已与GPU共同设计。我们的领域同样需要算法与应用社区的广泛参与,开发新算法,并在已有算法中重新分配复杂度,以提升基于物理的ASIC的性能优势。
构建基于物理的ASIC全栈。 这一新硬件需要编译器和用户界面,以获得社区的广泛采用。开源软件可能是推广应用的关键要素。此外,为基于物理的ASIC开发模拟器将有助于普及这一领域。
以无需物理或电气工程背景也能理解的方式阐释我们的目标与方法,降低与计算机科学家之间开展有意义交流的门槛。
C. 领域的紧迫性
最后,我们认为,社会面临的与计算相关的危机——从AI能源危机到计算成本危机,再到关键扩展定律的终结——赋予了我们这一领域紧迫性。多重危机可通过单一技术来应对,这为我们提供了独特的机遇。此外,这一技术也受到AI异常快速崛起的推动。显然,AI已成为催生基于物理的ASIC这一新领域的经济驱动力,因此这两个领域密切相关。随着AI不断向物理世界靠近,基于物理的ASIC未来有望为AI提供物理化身。
「致谢本文作者」
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4100期内容,欢迎关注。
加星标??第一时间看推送,小号防走丢
求推荐
恒盈配资
博盈配资提示:文章来自网络,不代表本站观点。