原粒半导体:AI Chiplet引领SoC算力融合新纪元
8月26日,原粒半导体联合创始人原钢在第二届中国Chiplet开发者大会作了主题为《基于AI Chiplet的AI SoC算力融合技术》的分享报告。
以下为原钢分享内容概要:
AI Chiplet是指具备完整且独立AI计算加速功能的Chiplet产品,原粒半导体的核心产品就是为大模型推理进行专项优化的AI Chiplet。产品能够与CPU或者SoC等其他类型的Chiplet进行封装集成,快速为云、边、端市场提供完整的大模型AI算力解决方案。
图一 基于Chiplet的新型SoC概念图
1. 生成式AI快速演进推动云端算力需求持续增长
自2022年底ChatGPT推出以来,大模型的参数量(尺寸)几乎每1-2年会翻十倍左右,同时大模型的用户数量也呈现出快速增长的趋势,这直接导致了云端大模型推理算力的需求量持续攀升。此外,自2023年起,大模型推理的计算场景正逐步从云端向边缘端拓展。例如,包括Intel、AMD、苹果以及高通等在内的众多国际巨头纷纷推出边缘端的大模型AI推理算力解决方案,旨在减少对云端推理算力的依赖。根据Gartner的数据预测,2025年边缘端AI推理的占比将超过云端推理,达到55%。在边缘端进行大模型本地推理计算,其优势在于能够消除对网络和云端算力的依赖、降低延迟以提升用户体验,以及更有效地保护本地数据与用户隐私等。
图二 大模型参数量变化数据
2. 边缘端场景大模型推理对AI SoC的要求
在边缘端实施大模型的本地推理,AI SoC的选择或研发至关重要,以下的几个核心方面需要深思熟虑:
- 灵活的CPU配置:鉴于边缘端应用场景的多样性,这 对CPU的规格、计算能力需求存在显著差异,涵盖不同处理器架构(如ARM、RISC-V、x86等)、计算能力指标(如DMIPS等)、功耗水平及成本控制等要素,均需纳入选择考量范围。
- 丰富的AI算力支持选项:边缘端部署的大模型规模广泛,从2B到60B不等, 各应用场景对大模型性能的需求各不相同。因此, 单一算力的大模型推理AI硬件难以满足所有边 缘场景的最优性价比需求,要么算力过剩造成浪费,要么算力不足影响体验。
- 模型演进鉴于AI大模型算法持续演进,无论是自然语言处理(NLP)还是多模态领域,新模型层出不穷。AI SoC需具备快速适应模型迭代的能力,以确保持续提供高性能支持。 :
- 成本优化:边缘端应用对成本高度敏感,大模型本地推理亦不例外。在定价策略中,成本或最终产品价格是用户接受度的重要考量。鉴于垂直应用场景的多样性及市场容量的差异,为各场景提供量身定制、性价比最优的硬件解决方案,是产品成功的关键。
综上所述,要满足上述所有要求,单一或少数几款固定AI算力的AI SoC显然力有不逮。相反,可能需要开发一系列拥有不同CPU配置、外设接口及AI算力的芯片,以实现全面覆盖。这一策略对产品研发周期和研发NRE提出了严峻挑战。
3. 用AI Chiplet解绑SoC构建灵活算力配置
为了应对边缘端多样化的AI大模 型推理算力需求,我们提出了一种创新的解决方案:利用AI Chiplet技术来解绑CPU、SoC和NPU,从而构建高度灵活的算力配置方案 。
类比一个广受欢迎的情境,就像近期备受瞩目的中国单机游戏《黑神话:悟空》,游戏科学工作室为玩家精心设计了三款配置推荐:基础配置采用CPU搭配低端显卡,确保在1080P分辨率下享受中等画质;进阶配置则结合了CPU与中端显卡,支持4K分辨率下的中等画质体验;至于顶级配置,则是CPU携手高端显卡,不仅能够实现4K超高清画质,还能开启全景光线追踪技术,带来极致视觉享受。这样的设计允许玩家根据个人预算及对画面质量的不同追求,灵活选择配置方案。更有趣的是,即便玩家初期选择了中低配置,若后续对画质不满意,也无需更换主板和CPU,只需升级至如4090级别的显卡,即可显著提升游戏画质,实现画质的飞跃性提升。
图三 PC显卡配置与SoC算力配置
这实际上与边缘端应用场景中的大模型推理非常相似。当我们将负责AI推理计算的NPU从SoC中独立出来,成为单独的Chiplet时,它能够为不同垂直领域的大模型推理应用提供极为灵活的算力配置,从而在满足性能需求的同时,实现最佳的性价比。用户可以根据各自对性能、成本、功耗等方面的具体需求,灵活选择SoC Chiplet与AI Chiplet进行集成,快速构建出性价比最优的大模型推理计算硬件组合。在当前边缘端的大模型推理应用中,只要专用的 AI处理器性能足够强大,对CPU的依赖度往往并不高。因此,我们完全可以基于市场需求,选用性能适中的SoC,并搭配适宜规格和数量的AI Chiplet,以满足多样化的推理计算场景需求。
4. 基于AI Chiplet构建异构计算方案
此外,基于AI Chiplet技术,我们还可以构建创新的异构计算解决方案, 通过将AI Chiplet、SoC Chiplet及FPGA Chiplet等有机结合,来应对那些传统方案难以有效解决的复杂问题,推动异构计算技术的创新应用。
图四 激光雷达的感知计算
以激光雷达的数据处理流程为例,该流程大致可划分为三个主要部分:首先是数据的前处理与滤波算法等,这些环节非常适用于采用灵活且高效的可编程逻辑实现,即FPGA来承担;其次是控制、协议层处理及数据组帧等任务,这些更适合使用标量处理器,即CPU来处理;最后,基于深度学习算法的目标检 测与感知等高级算法,则正是NPU(即AI处理器)的专长所在。
为了优化整体方案,我们可以创造性地采用一颗CPU Chiplet、一颗AI Chiplet以及FPGA Chiplet,通过先进的封装技术将它们整合为一个高度紧凑的单芯片解决方案。这样的设计不仅显著减小了系统的体积与功耗,还降低了成本,使得该方案在市场中更具竞争力。
5. 原粒半导体:做领先的AI Chiplet供应商
原粒半导体是一家创新的以AI Chiplet研发为核心的公司,凭借多模态AI处理器设计技术和Chiplet算力融合技术,采用创新的积木式算力设计打造新一代算力芯片,提供生成式大模型、具身智能等云边端新兴应用落地的关键AI算力加速技术和产品。公司提供包括通用AI Chiplet、AI芯片、AI加速模组、AI加速卡等系列产品的一站式大模型算力解决方案,覆盖多样化需求和多种场景。
原粒半导体两大核心技术:多模态算力核心CalCore™和自适应算力融合CalFusion™。
图五 原粒半导体核心技术
多模态算力核心CalCore™:多模态AI处理器设计,能够适应不同的AI算法,包括传统的CNN模型和新型的多模态大模型。这项技术提供了原生算力扩展接口,并且支持各种推理计算精度,以提高算法兼容性,适应算法的快速演进。
自适应算力融合CalFusion™:这是原粒开发的一套自动化多Chiplet die间互联的机制,包含了从底层硬件到上层软件的完整组件。用户可以使用此项技术灵活地使用多个AI Chiplet实现适应不同场景的最合适的并行加速方式。
原粒半导体应用以上两项技术的第一款AI Chiplet产品将于明年问世,它将具备高速的Die-to-die互联接口以及通用host处理器连接接口,便于与SoC、CPU、FPGA等各种Chiplet或芯片互联,实现高集成度的高性能大模型推理解决方案,可以覆盖云边端等各种应用场景。
图六 原粒半导体AI芯粒产品
总结
AI SoC是边缘端进行大模型AI推 理的关键芯片,采用Chiplet技术构建的AI SoC不仅具备高性能、高灵活性,还实现了超 高性价比,并显著缩短 了产品的上市时 间。 原 粒半导体推出的通用AI Chiplet产品,为多模态AI大模型推理提供了兼具高性能、低功耗以及优异性价比的解决方案。通过结合原粒半导 体的AI Chiplet与第三方合作伙伴的成熟SoC产品,用户可以快速构建高性能的AI SoC,助力多 模态大模型在多样化场景下的广泛应用与落地。