大模型加速奔向边缘端,AI Chiplet成部署新选择

大模型带来边缘侧九大算力挑战,AI Chiplet助SoC拓展大模型边缘端应用。

 

2023全球AI芯片峰会(GACS 2023)在深圳南山圆满举行。在首日开幕式上,原粒半导体联合创始人原钢分享了题为《AI Chiplet:加速大模型在边缘端多场景落地的新思路》的主题演讲。

 

由于大模型蒸馏技术得到了充分发展,超大模型可以生成一系列适合边缘端的小模型,取得接近于大模型的效果。而说到大模型边缘端部署,一定离不开芯片的支持。面对大模型,当下的边缘端芯片面临挑战,涉及模型演进、存储容量、带宽、互连、功耗、方案成本、多变需求、研发成本、研发周期等多个方面。

 

对此,原粒半导体的思路是用AI Chiplet的方法应对,把SoC算力跟NPU(神经网络处理器)的AI算力解绑,再灵活组合出边缘端芯片,以适配边缘端大模型的推理要求。目前,原粒半导体已研发出多模态算力核心CalCore技术,支持企业将大模型部署在端侧;以及自适应算力融合CalFusion技术,自动分配芯粒以捆绑不同的算力。

 

1. 大模型奔向边缘端AI芯片面临九大挑战

 

第一部分,边缘大模型AI芯片机遇和挑战。就在几个月之前,基本上大家谈到大模型还是大语言模型,无论是ChatGPT,还是百度文心一言,以及阿里、腾讯、科大迅飞的(大模型),大家都是在云端做大模型的推理。然而在云端推理,并不适合每一个场景,有很多场景需要在边端推理。 

 

这里有四个典型问题:

 

  • 当用户的数目激增时,在云端服务器上的部署成本和运营成本都会得到巨大的提升。根据CNBC报道,微软在Bing里已集成ChatGPT的引擎,若想满足所有Bing客户的请求,以得到一个很好的响应,大概要部署16万块A100,投资40亿美元。显然不是每一个创业公司都有能力去覆盖这部分的投入。

 

  • 大模型对网络要求非常强。很多场景不可能时时刻刻都能够联网,车就是典型的例子。也许在市内开车并没有问题,但一旦在郊区、无人区等地驾驶,网络时有时无的概率大大增加,甚至也许会直接没有网络。无论是座舱还是自动驾驶,显然在车领域高度依赖云端推理是不太适合的。

 

  • 云端无论是因为算力的涨落还是因为网络延迟,总会造成控制网络的延迟。比如谷歌演示的通过大模型演示机械手,如果依赖云端的推理,很可能在机械手操作过程中出现卡顿,甚至出现更多的错误,这对于机械手来说是绝对不能接受的。

 

  • 云端安全问题。例如医院的病历,对于医院来说这是非常高的精密数据,医院大概不会选择将数据上传云端做推理。大模型的应用是对已有文档进行推理或归纳,从而产生一些新的报告,例如让它阅读以往的文件而产生综述或者分析以往病历去推理出诊断。在这种情况下如果把之前积攒的模型全部放到云端,这对很多特殊场合是无法接受的。

 

最近两三个月以来,整个大模型在加速地奔向边缘端。这是由于目前大模型蒸馏技术已经得到充分的发展,改进一些原来预训练超大模型的办法,生成一系列适合边端的小模型,这样就可取得接近于大模型的效果。

 

类似于Meta已经推出7B、13B、70B,最早是3B。如果这种模型量化成INT4后,它很适合在边缘端设备上部署。这里有一些例子说明:最近两个月,无论是高通还是苹果,都已经尝试在他们的手机上部署大模型。下图中的“大模型”跑的就是7B模型,达到了相对较好的结果。当然跟云端ChatGPT没法比,但是对一些垂直领域的应用来说,不需要回答一些哲学问题,只是回答简单的问题还是高度可用的。

 

 

既然大模型要到边缘端,那么芯片是必不可少的。目前边缘端大模型芯片以SoC为主。以下总结了当下边缘端推理部署芯片的困境以及需要考虑到的问题:

 

  • 模型演进。整个大模型的演进复杂度远超原来CNN算法复杂度,而且算法是不断迭代的。包括Transformer本身,有可能在不久的将来最基础的结构也会被替换。这样在芯片设计(如AI IP)时,不能针对某一个模型做优化,很有可能当芯片完成之后不能够支持最新的算法。

 

  • 存储容量。大模型的容量远远超过之前传统CNN的模型。哪怕是3B这样最小的大模型,如果不进行量化,大概也需要3GB容量,已经超过很多经典SoC能支撑的容量。

 

  • 带宽。如果拿大模型做语音推理,基本上每吐出一个字/词就要把整个模型完整地Round一遍。假若一秒钟吐出10个词,用一个3GB模型那么整个SoC带宽至少要30GB才能够支持推理。

 

  • 互联。一个芯片可能无法完成一个大模型的推理,所以大家可能会选择用多个芯粒或多个芯片去完成推理。但对于“大模型如何拆分?”、“拆分之后如何分配?”、“算力如何部署?”等等一系列问题都需要很复杂的考量。

 

  • 功耗,边缘端最看重功耗。在云端,功耗问题只是成本问题,无非是采用不同的散热方法。英伟达最新的H100可能已经到700W功耗,这对数据中心来说并不是什么大问题。但是在边缘端,基本功耗超过10W就需要加风扇。加风扇一会带来噪音问题,二是风扇可靠性会有问题。所以边缘端,功耗是非常重要的因素。

 

  • 整个方案的成本。若要搭配不同的算力,成本是决定大模型在边缘端能不能真正大批量铺开一个非常关键的因素。对于很多应用来说,大模型本身是做一个赋能,如果成本太高,是不利于去做市场推广的。

 

  • 需求多变。大模型可能既有不到3B的尺寸,又有超过10B甚至100B的尺寸,这就意味着在不同场景需要部署不同尺寸的大模型。所以很难用统一标准的规格SoC去覆盖这一系列模型,如果给每一个算法或者模型尺寸专门配SoC,这对于研发来说成本是无法接受的。

 

最后两项:一个是研发成本,一个是研发周期。现在一个12nm的SoC,成本基本在1000万到2000万美元之间。从前端验证到后端再到整个软件开发,研发周期基本在18个月。如果想开发多个规格的SoC,无论是周期还是成本,都是一般公司很难承受的。

 

2. AI Chiplet:边缘端大模型部署新选择

 

对于以上九个问题,原粒半导体的思路是用AI Chiplet的方法进行应对。

 

拿桌面游戏的PC举例,如果你是资深的电脑游戏玩家要去配一台游戏电脑,CPU没什么太多可选的。就用一颗i5 13500或者i7 13700,就能满足绝大部分的需求,主要成本就花在显卡上。玩一些网游显卡需要两千,主流游戏可能要三千到四千,骨灰级游戏可能要一万多,比如英伟达的4090。依此类推,基本上CPU跟主板变化是非常小的。所以对游戏来说,CPU都不是瓶颈,真正瓶颈在显卡。

 

由此拓展到边缘端,现在很多边缘端应用例如SoC或者是Arm,它们的能力都足够覆盖大模型处理需求,而真正的差别在于NPU本身。参照PC端情况把SoC和NPU进行解绑,也就是对应左边三个显卡,也是列出三种NPU Die的组合。

 

例如拿一个SoC配合轻量级NPU,它就能够处理一些比较轻量级的AI任务。拿SoC配一颗中量级的NPU Die,就可以处理稍微复杂的工作。把同样一个SoC去配两颗NPU Die的组合,就可以处理非常重的任务。这样就可以灵活使用各种方案适配边缘端大模型推理的要求。

 

原粒半导体就是用NPU、用芯粒来解决问题,至于怎么去做,说起来简单,但有很多问题要考虑,尤其是成本。由成本又引入了互连、存储、扩展三个方面。

 

  • 互连。现在NPU基本是基于MR总线或者基于其他的总线进行连接,它是很宽的一个并行接口。如果简单把它移到片外,相当于要应对几千条很高速的连接才能跟CPU进行连接。这对于封装甚至最高级的封装是不能接受的,所以必须把接口进行转换。但是转换就会产生很多不同的选项,包括USB也有很多不同的选项。不同的选项意味着不同的成本,其中包括方案:“2D封装还是2.5D封装?”、“一个基板,到底是5美金还是20美金?”这会产生非常大的差异。目前市场中的SoC设计没有专用的die-to-die结构,还是依靠通用的PCIe或者USB接口。如果把NPU从CPU中剥离,倘若使用通用结构,则整个设计都要重来。当芯粒和SoC互联时可以用USB或者PCIe接口,跟主芯片进行互连,这样可以很快地得到一个全新的设计。

 

  • 存储。主要问题在于AI Chiplet是自带DRAM还是与SoC共享DRAM,现在多数主流SoC本身DRAM的位宽不够,最大可以支持7B的大模型。如果选择用共享做DRAM,优势在于成本。整个方案可能只用同一个DRAM,但是劣势在于它会抢主SoC带宽。如果用在大模型推理,这会对原来的功能形成冲击。所以到底RAM是放在主芯片通过总线共享,还是每个AI芯粒要自带一个DRAM?这是需要去平衡考量的。 

 

  • 扩展。扩展主要指为了把AI芯粒拆分出来,是从头重新设计一颗,还是尽量借由现有的SoC设计只去迭代推出一个方案?AI Chiplet面临多芯粒互联的问题,芯粒最大的好处是堆叠不同数目、不同种类的Die来实现迅速的新方案,所以互联也是难以避免的话题。

 

03. 原粒AI Chiplet,助力SoC厂商拓展大模型边缘端应用

 

原粒半导体于2023年4月成立,是一家创新的AI Chiplet供应商。凭借领先的多模态AI处理器设计技术和Chiplet设计方法学,为多模态大模型部署提供灵活的算力支持。核心团队来自于国际半导体巨头,AI芯片产业经验丰富,深耕AI加速器架构与芯片设计多年,熟悉各类AI业务场景,深刻理解AI业务底层优化策略。

 

原粒半导体主要提供以下四类产品:

 

  • 具备自适应互联能力的多模态AI芯粒。
  • 公司基于自有单颗或多颗AI芯粒构成的AI协处理器芯片。此类产品面向的是没有封装设备能力的客户。
  • 原粒半导体提供定制化AI Chiplet封装。定制方向主要在AI Chiplet规格以及根据客户所需算力搭配不同数目的AI Die,为客户提供选择
  • AI应用开发软件栈。对于原粒半导体来说,本身是一个异构的AI处理器,所以肯定需要配套的软件开发栈完成客户的设计。

 

原粒半导体两个核心技术:多模态算力核心CalCoreTM和自适应算力融合技术CalFusionTM

 

  1. 多模态算力核心CalCoreTM是重中之重。无论是对于传统CNN算法,还是对于目前大模型、未来多模态算法,它都能提供很好的支持。它为了支持未来的算法尽可量的提高了兼容性,做了从INT4、INT8、FP8等全精度的支持,便于客户把它在显卡上所训练好的模型直接部署到芯片中。

 

  1. 接下来是与AI Chiplet紧密结合的自适应算力融合技术CalFusionTM,它也与芯粒概念息息相关、紧密捆绑。原粒半导体独有的CalFusionTM支持多层次灵活透明的计算核心融合和扩展,用户可以轻松利用多颗芯粒或芯片在封装基板层面以及PCB层面进行堆叠和扩展,构建不同算力的AI解决方案,满足不同规格和成本需求的AI应用场景。软件层面,CalFusionTM技术使得不同数目的AI芯粒/芯片呈现为单一AI处理器,透明统一的编程接口使得用户无需为每个AI芯粒/芯片分别编程,极大地降低了用户的开发难度,提高了AI模型部署效率和灵活性。

 

在这里对自适应算力融合技术CalFusionTM进行进一步具体阐述:

 

当由4个芯粒组成的系统,怎么动态分配它的连接和算力?左下图是基于Tranformer大模型的一段,这个模型非常大,无论它的容量还是算力都不足以被一颗算力所支撑,那么可以将它拆成两段,把它放在两个芯粒中。当然,这些工作都是由编译器、运行时自动完成的。

 

再看右边经典的CV视觉任务案例。当一个芯粒能处理超过一个模型的时候,会把输出数据最合理地分配到不同的芯粒之间,实现一个更高的效果。CalFusionTM支持通过分景模型、分景任务,自动分配。无论是对于模型还是任务进行切分都是能完成的。

 

此外值得强调的是,目前看到的一些新的应用或者新的场景,都是对于本地大模型微调的需求。以后大模型更多是垂直领域,无论是律所还是医院,甚至更加小众的,也许他们的模式是去下载预训练大模型,结合本地一些数据,然后做微调与匹配,在本地进行更符合本地业务的推理,这也是未来大模型非常典型的应用。

 

传统的做法通常是拿大模型在云端或在大服务器上,针对本地的数据进行微调。因为芯粒支持多精度计算,CalFusionTM是支持在边缘端针对本地采集的数据进行微调。原粒半导体把大模型微调的位置从服务器或者从客户中心转移到边缘端设备,这未来一定会创造很多新的应用场景。

 

基本上芯片都会有配合AI Chiplet的一套软件。无论算力是多少,一定会有一个配置。如果要求客户根据硬件连接做特殊编程,一定会有非常差的体验。CalFusionTM从供应链、运行时的角度,能够根据客户的配置、算力、任务需求自动分配,完全是透明的,用户看到的就是算力大了很多。

 

 

为了加快产品落地,也是为了尽量重用市场现有SoC厂商的产品,原粒半导体为一些成熟SoC产品做优化。主要有以下几个方面:

 

  • 原粒半导体使用标准的接口搭配现在已成熟的SoC,支持无论是市场现已有的还是未来的发布,大多数可能具备PCIe或者USB接口的产品。

 

  • 芯粒互连,原粒半导体采用多模态die-to-die接口。多模态指的是既支持在同一个封装上进行多模态集成,也支持多个芯片在PCB上进行互连。这样的优势在于可通过最大的灵活性满足用户要求。现有技术来看,从设计到打样、量产,再包括调测程序等等,重做一个封装至少所需6个月。但是重做一个PCB,最快一个月时间可以完成一个生产。为了能够满足尽量多样化配置和规格需求,也尽量缩短研发时间,我们采用了既支持多Die统一封装形式,也支持PCB级扩展的模式。

 

  • 此外,原粒半导体放了很多异构核心,主要考量我们想尽量降低对主芯片算力的需求,采用最低端的CPU也可以通过配合AI芯粒完成大模型的推理。

 

  • 原粒半导体也可支持一些可选非易失性存储器接口。主要是考虑到配合低端CPU的情况,其可能不具备高速的Flash接口。除此之外会在芯粒内部支持加载,变相减轻了对主CPU的需求,并且还是采用2D封装,尽量满足成本需求。

 

原粒半导体目前的产品规划:

 

原粒半导体第一代产品规划:单芯粒数+TOPS INT8等效算力,支持多芯粒扩展数十至数百TOPS INT8等效算力;支持FP32/FP16/BF16/FP8/INT8/INT4等AI精度;支持高效训推一体架构,支持通用算子及自定义算子。

 

在互连方面,原粒半导体支持die-to-die方式,也支持通过PCIe和USB等方式互连。支持不同位宽不同数目的位置,满足不同场景的需求。原粒半导体所推出的标准封装片产品,包括封了1个Die、2个Die,还有4个Die的。

 

以下列出了一些现在主流上能买到的SoC规格,至少是A53、A55起。原粒半导体认为这些SoC跑大模型足够强,它们有足够数目的视频接口,也有足够规格的硬件接口,是跑编程大模型一个很完美的CPU配置。只要去搭配原粒现有的AI Chiplet,很快可以实现边缘端大模型推理方案。

 

原粒半导体秉持“聚智融合,共创智能未来”的愿景,聚焦高性价比、多模态通用AI Chiplet研发。致力于配合现有SoC厂商,一起合作共赢推出大模型边缘端方案,做一个最全面AI算力基础设施供应商。

 

公司新闻