性价比捷径!中央计算架构时代,舱驾玩家突围的抓手是什么?

 

2023年8月24日,原粒半导体市场营销总监刘菲在电动汽车智能底盘大会(WSCE 2023)开放式高峰论坛上发表题为“AI芯粒产品助力智能汽车SoC芯片创新发展”的演讲。这次演讲不仅分享了原粒半导体全球领先的AI chiplet架构,还突显了原粒半导体为主机厂和SoC厂家提供最优性价比解决方案的使命。刘菲曾任职于国际顶级半导体公司,有近13年汽车芯片行业工作经验,职责覆盖芯片销售,芯片产品及方案市场营销,AI解决方案市场营销及面向汽车行业主机厂和各级供应商的芯片商务拓展。

 

 

在国家政策、企业战略和市场的有力推动下,AI技术已经成为智能汽车电子电气架构(EEA)演进的引领者。从最初的机器学习,到2010年代的深度学习,再到如今2020年代AIGC,助力单车智能EEA从分布式电子控制单元(Distributed ECU)到域控制器(Domain Controllers)、(跨)域融合(Domain Fusion),再到中央计算架构 (Centralized Computing)。而新一轮AI大模型的涌现能力将助力智能汽车行业具备更强劲的发展力量。本文将以汽车端侧SoC玩家为例,讨论在AI大模型的浪潮下如何手执性价比捷径手杖,来突出重围赢得终端市场的认可,助力智能汽车行业汽车制造商,零部件供应商的技术创新与销量业绩双重胜利!

 

一、智能汽车SoC芯片创新发展的挑战及突破剖析

 

1)AI SoC和汽车EEA创新发展的推动力

 

我国从国家、部委和地方政府层面都出台了一系列支持人工智能和智能汽车发展的政策措施(图1)。国家层面有全国性的战略规划和通知文件,部委层面有关于智能网联汽车的发展计划,地方层面各城市也在制定措施,如提供算力资源、推动大模型创新等,以促进人工智能在智能汽车产业的发展。这些政策为中国的智能汽车科技创新和产业升级提供了有力支持。

 

图1:政策措施主要文件

 

预计到2025年,我国新能源和智能网联汽车的渗透率都将达到约50%左右。然而,从AI芯片的市场结构来看,云端推理占据32%的市场份额,而终端推理则占据了高达51%的市场份额。因此,端侧AI的硬件平台和解决方案将成为新技术成功应用的关键因素。这意味着在新能源和智能网联汽车领域,端侧AI的硬件和技术方案将扮演重要角色,对于实现AI技术的革新和应用至关重要。

 

2)智能汽车电子电气架构设计与AI SoC架构设计的挑战

 

在智能汽车电子电气架构的演进中,分布式ECU的系统复杂度要求较低,通常使用MCU作为处理芯片,每个ECU通常只负责单一功能单元,彼此独立运行,并通过通信协议如CAN、LIN、FlexRay等进行信息交互。然而,随着ECU数量的逐步增加和扩展性的不足,域控系统和域集中式SoC的硬件架构出现,以满足更复杂的任务操作系统、算法和应用需求。尽管如此,这些架构仍然存在应用和算法更新可能导致SoC算力不足或配置过高等问题。

 

 

具体到智能汽车中央计算的功能应用,主要分为安全,网联,信息娱乐与智能驾驶几大功能,安全涉及到仪表盘、驾驶员检测、环视等,网联主要为OTA和信息安全,信息娱乐涵盖个性化语音系统、生成式AI服务、多模态场景控制系统等,智能驾驶包含传感器融合,预测及规划控制的端到端自动驾驶等功能。这些逐步扩展的计算挑战和迭代频繁的模型挑战对于SoC制造商来讲,面临这严峻的生命周期挑战,底层架构适配性挑战和硬件系统性能优化等挑战。

 

 

3)算力规格可配置是玩家突围之路

 

纵观智能汽车端侧算力SoC平台的发展,国产AI SoC从10Tops以下到100Tops以上均有产品布局,而OEM在内卷传感器堆叠和算力堆叠后,逐渐回归理智选型的当下(2021-2023),SoC产品规划中最合适切割的算力定义仍居于摇摆状态.. 然而此时,国际级芯片巨头Nvidia和Qualcomm已经发布了1000Tops以上的芯片产品,这两家厂商同时占据了智能驾驶和智能座舱的头把交椅。国产SoC发展的过程中亟需高效算力伴侣形态的方法,补足SoC规划未定义完善的AI算力,以供OEM和最终用户选取性价比最优的算力配置平台。

 

图2:SoC芯片创新发展高性价比方案示意

 

 

二、AI Chiplets 技术赋能汽车EEA高效迭代

 

1)Chiplets技术解析

 

Chiplets(芯粒)是一种创新的芯片设计理念,它将不同工艺和功能的小规模硅片,就像拼接乐高积木一样,整合到一个封装后的芯片中。这个技术的原理在于用户可以根据实际需求选择适用的工艺,而不必将所有功能集成在单一芯片上。这带来了几个重要优势:

 

降低成本:通过选择适当的工艺,芯粒技术降低了先进工艺研发的投入成本,减小了单个芯粒的面积,提高了制造良率,从而大幅降低了制造成本。

提高性能:通过将不同芯片堆叠在一起,芯粒技术可以在有限的封装空间内提供更多的计算能力,突破了传统芯片面积设计的限制,提高了性能。

快速迭代:对于需要快速高效迭代的应用场景,芯粒技术可以根据目标场景快速定制生产,进行局部迭代和扩展,避免了重新设计整个芯片所带来的高研发成本、高制造成本以及长研发周期。

 

在成熟度方面,AMD,Apple是芯粒技术的领先者。他们成功地利用芯粒技术在高性能CPU产品中实现了性能和成本的优势,取得了市场突破。在FPGA产品领域,他们也利用芯粒技术实现了领先的容量。全球芯片公司的多个产品线中已广泛应用芯粒技术,包括AI领域。国内的芯片品牌,如华为等,也在积极采用基于芯粒技术的设计方法,这表明芯粒技术在提高硬件性能和降低制造成本方面已经得到了广泛认可和采用。

 

AI大模型时代,算法计算、调度复杂度及多芯片互联等需求更为复杂,如模型分解映射、分布式并行、互联带宽规格、动态拓扑等机制和不同尺寸模型的参数微调等边缘端处理。基于Chiplet的创新AI芯片架构,利用分布式计算资源设计和灵活的通信机制,天然具有高计算弹性能力和高算法适应性的特点,满足不同场景下大模型部署的算力及成本需求。

 

2)计算配置解耦方案

 

智能汽车的中央计算电子电气架构将承担车舱内外的智能计算工作,不同的数据模态在硬件平台上均有AI处理的需求,如点云,视觉,触觉,语音,文字等。而单一模态或多模态的算法在大模型浪潮下,学术界及产业界对模型的优化和发布的频率越来越高,这无疑对硬件平台的通用性和未来模型的支持兼容性提出了更高的要求。

 

而功能性模块是可解耦的,如深入研究每个SoC的框架设计,其微系统的子模块或子系统均可解耦出来,如CPUs,GPUs,ISPs,Video Codecs, Transceivers, DDRs, I/Os… ,因此,AI计算部分 (NN) 同样可以解耦,并且按照Chiplet的设计理念,AI Chiplet可以进行更细力度的解耦。也就是说AI的算力可以按照几十到数百Tops的范围叠加规格,即配置单个或多个AI Chiplets便可满足从低配车型,中配车型,高配车型不同车舱内外的AI计算工作。对于汽车SoC厂商,AI Chiplets对外的接口和软件的API均为标准协议如UCIe/PCIe/USB/I2C/I2S等支持的单一的外围计算设备,插拔类AI计算配置将赋能汽车SoC和OEM在应对大模型边缘端部署。

 

基于计算配置解耦方案,单车的最优算力中央计算架构将更易扩展到V2X的车路云边端的交互联动系统中,不受自车计算能力限制,同时赋予行业更易协同的离线或在线的计算资源。

 

3)资源和时间成本的优化解析

 

尽管多家芯片厂商在布局汽车AI SoC产品,各大车企也已经开展或正在调研AI SoC的自研,但从资源的投入上,每次流片或芯片架构的更迭均需投入数亿人民币的资金,数百/千人员的架构及软硬件研发,巨额的数据,算法和训练服务器显卡设施。随着AI大模型的持续演进和优化,如此庞大规模的资源投入仍面临着不可控的数据,算法,算力等频繁变更需求。

 

功能池IP复用和计算池算力解耦配置(图3)为单车AI计算智能底座的资源结构带来了汽车智能系统性价比捷径,这为OEM和AI SoC供应商带来了高效产品化,成本可控和增量智能等多重优势。

 

图3:功能池IP复用和计算力解耦配置

 

另一方面,SoC处理器从设计流片,车规级认证系统方案开发,车型导入和测试验证,到最终量产部署需要36-54个月左右的时间,而这很难满足国内传统车企和新势力每年竞相发布创新功能车型的步伐,在生成式AI爆发的未来,拥有中央计算平台架构和可插拔配置计算的单车计算智能底座,其车型交互功能发布和迭代必定是行业创新的领先者。

 

三、AI“老将”原粒

 

原粒半导体是AI Chiplet新锐,创始团队自2015年起便开始AI芯片的研发并成功流片,其后被FPGA龙头赛灵思并购并成为AMD的AI团队。团队从2010年代深度学习爆发阶段就位于AI芯片头部玩家地位,可称为是国内AI“老将”。

 

凭借强大和深耕的AI Chiplets架构设计经验,原粒半导体致力于为AI SoC,车企及软硬件系统零部件供应商的边缘端多模态大模型部署需求提供灵活的算力支持,提供高能效、低成本的通用AI Chiplet组件与工具链,允许客户根据实际业务需求灵活快速地配置出不同规格的AI SoC,满足超大规模多模态模型的推理及边缘端训练微调需求。 

 

原粒的核心芯片架构包含算法通用性和计算效率的平衡统一的多模态AI计算核心 CalCore™,支持多层次灵活透明的计算核心融合和扩展的AI算力融合架构 CalFusion™和高效易用的AI算法部署框架和软件开发环境的快速AI算法部署框架 CalSpeed™

 

1)多模态AI计算核心 CalCore™

CalCore技术灵活适应当前多样性的AI算法发展趋势,除了能高效支持传统的神经网络算法,特别针对多模态大模型等新型应用进行优化,并能不断扩充对未来新型AI算子的支持。

 

CalCore技术支持主流的AI推理计算精度(如FP32, FP16, BF16, FP8, INT8, INT4等),极大提高了边缘端AI模型部署的兼容性,缩短了部署时间。

 

CalCore技术还具有先进的训推一体计算架构设计,支持在边缘端的模型训练和微调,从而实现全新的AI算法演进范式,满足在数据隐私要求下的模型演进需求,并降低数据中心的数据传输及计算负荷。

 

 

2)AI算力融合架构 CalFusion™

 

原粒半导体独有的AI算力融合技术CalFusion支持多层次灵活透明的计算核心融合和扩展,用户可以轻松利用多颗CalCore芯粒或芯片在封装基板层面以及PCB层面进行堆叠和扩展,构建不同算力的AI解决方案,满足不同规格和成本需求的AI应用场景。

 

软件层面,CalFusion技术使得不同数目的AI芯粒/芯片呈现为单一AI处理器,透明统一的编程接口使得用户无需为每个AI芯粒/芯片分别编程,极大地降低了用户的开发难度,提高了AI模型部署效率和灵活性。

 

 

3)快速AI算法部署框架 CalSpeed™

 

CalSpeed框架除了提供必备的优化器、编译器、驱动和运行时组件、性能评估器、跟踪调试器等常规组件外,针对原粒半导体的可扩展多模态计算核心提供了独有的自适应算力切分技术,可以根据AI算法类型、芯粒的连接拓扑以及性能目标自动完成多芯粒系统的算力/任务切分。

 

CalSpeed支持多种操作系统和部署环境,用户既可在x86系统的流行AI框架内直接通过标准框架API使用AI加速单元,也可在嵌入式环境内通过我们提供的统一API来使用AI加速单元。

 

总结:中央计算架构下的电子电气架构,原粒半导体的AI Chiplets将成为计算平台的抓手,助力汽车SoC实现可扩展AI能力的性价比捷径,为主机厂和零部件供应商提供边缘端可灵活部署多模态大模型的自适应算力基座,AI chiplets增量智能将成为汽车电子电气架构的最优芯片配置选择。

 

聚智融合,一起创造智能未来!

公司新闻