对此,Cerebras直言不讳的对英伟达评价道:“它不是真正的AI大芯片”。
众所周知,随着AI浪潮的兴起,芯片成为行业关键推手。作为GPU巨头,英伟达凭借高性能GPU占据AI芯片市场的主导地位,跟英特尔、AMD等厂商一样,都是采用将大片晶圆切分成小型芯片的方式,然后将众多GPU或加速器互联起来打造成性能强劲的AI处理器集群。
与此同时,业界还有一种直接在整片晶圆上做AI大芯片架构的厂商。其中,Cerebras就是后者的典型代表之一,旨在以不同设计规范和架构的AI大芯片,领跑“后AI时代”。
首先以芯片巨头英伟达为例,来看看这种通过小芯片集群架构来设计AI芯片的方式。
进入AI大模型时代, 因为单芯片算力和内存有限,无法承载大模型,单个GPU训练AI模型早已成为历史。通过多种互连技术将多颗GPU算力芯片互连在一起提供大规模的算力、内存,成为行业趋势。
可以看到,随着AI算力需求一直增长,多GPU并行成为一种趋势,可以支撑大模型的训练和推理。
对于多GPU系统而言,一个关键的挑战是怎么来实现GPU之间的高速数据传输和协同工作。然而,传统的PCIe总线由于带宽限制和延迟问题,已经没办法满足GPU之间通信的需求。
对此,英伟达推出了NVLink、NVSwitch等互连技术,通过更高的带宽和更低的延迟,为多GPU系统提供更高的性能和效率,支持GPU 之间的高速数据传输和协同工作,提高通信速度,加速计算过程等。
NVLink用于连接多个GPU之间或连接GPU与别的设备(如CPU、内存等)之间的通信。它允许GPU之间以点对点方式来进行通信,具有比传统的 PCIe 总线更高的带宽和更低的延迟,为多GPU系统提供更高的性能和效率。
NVSwitch旨在解决单服务器中多个GPU之间的全连接问题,允许单个服务器节点中多达16个GPU实现全互联,这在某种程度上预示着每个GPU都可以与其他GPU直接通信,无需通过CPU或其他中介。
2022年,英伟达将NVSwitch芯片独立出来,并制作成NVLink交换机,可以在单个机架内和多个机架间连接成NVLink网络,能解决GPU之间的高速通信带宽和效率问题。
能够看到,随着每一代NVLink的更新,其每个GPU的互联带宽都是在不断的提升,其中NVLink之间能够互联的GPU数,也从第一代的4路到第四代/第五代的18路。每个NVLink链路的速度也由第一代的20Gb/s提升至目前的1800Gb/s。
NVLink和NVSwitch等技术的引入,为GPU集群和深度学习系统等应用场景带来了更高的通信带宽和更低的延迟,从而提升了系统的整体性能和效率。
在2025年CES上,英伟达新推出GeForce RTX 5090与GB10芯片,代表着英伟达在计算架构和技术路线上的再一次跨越。
Blackwell架构采用了最新一代的CUDA核心和Tensor核心,特别优化了AI计算的效率。NVLink72作为一种高速互联技术,允许多达72个Blackwell GPU 互联,构建出极为强大的计算集群。此外,作为集群的一部分,2592个Grace CPU核心也为GPU提供了强大的协同计算能力,能够更好地管理和调度任务。
GB10是一款SoC芯片,基于Grace架构CPU和Blackwell GPU的组合,Grace GPU部分基于Arm架构,具有20个高效率节约能源核心,Blackwell GPU部分则支持高达1PFlops(每秒一千万亿次)的FP4 AI性能,可运行2000亿参数的大模型。GB10还采用了NVLink-C2C芯片间互联技术,将GPU与CPU之间的通信效率提升到新的高度,为本地AI模型的开发、推理和测试提供强大的支持。
据介绍,这台AI超算还集成了128GB LPDDR5X内存和高达4TB的NVMe存储,使研发人员可处理许多要求苛刻的AI工作负载。
除此之外,Project DIGITS还配备了一颗独立的NVIDIA ConnectX互联芯片,它可以让“GB10”超级芯片内部的GPU兼容多种不同的互联技术标准,这中间还包括NCCL、RDMA、GPUDirect等,从而使得这颗“大核显”可以被各种开发软件和AI应用直接访问,允许用户运行具有多达4050亿个参数的大模型。
这意味着,在分布式系统中,除了单卡和多卡互连外,服务器之间的多机互联也能够使用InfiniBand、以太网、GPUDirect等新的互联技术。
在硬件和互联技术之外,英伟达还开发了以CUDA为核心的软件架构,与其硬件进行配套使用,从而更好地发挥硬件的性能。英伟达凭借其在系统和网络、硬件和软件的全方位布局,使其在AI生态牢牢占据主导地位。
实际上,行业芯片大厂都在互联技术上积极布局。除了英特尔2001年提出的PCIe(PCI-Express)协议,AMD也推出了与英伟达NVLink相似的Infinity Fabric技术。
与此同时,AMD、博通、思科、Google、惠普、英特尔、Meta和微软在内的八家公司组建了新的联盟,为AI数据中心的网络制定了新的互联技术UALink(Ultra Accelerator Link)。
据了解,UALink提议的第一个标准版本UALink 1.0,将连接多达1024个GPU AI加速器,组成一个计算“集群”,基于包括AMD的Infinity Fabric在内的“开放标准”,UALink 1.0将允许AI加速器所附带的内存之间的直接加载和存储,共同完成大规模计算任务。
与现有互连规范相比,UALink 1.0总体上将提高速度,同时降低数据传输延迟。
UALink联盟旨在创建一个开放的行业标准,允许多家公司为整个生态系统增加价值,从而避免技术垄断。
GPU集群的规模和有效算力,很大程度上取决于GPU集群网络配置和使用的交换机设备,连接标准的带宽也限制了计算网络的带宽。
从PCIe到NVLink、Infinity Fabric再到InfiniBand、以太网和UALink,尽管这些技术不断迭代升级,通过高带宽、低延迟的数据传输,实现了GPU或AI服务器之间的高速互联,在提升深度学习模型的效率和计算性能方面发挥了重要作用。
但能够预见到是,随着未来计算数据的爆炸式增长、神经网络复杂性持续不断的增加,以及AI技术的加速演进,对更高带宽的需求还在继续增长。
互联技术仍不可避免的成为行业中的瓶颈挑战,限制了GPU和AI芯片的最大性能释放。
众所周知,冯·诺依曼架构面临的一个核心挑战是CPU/GPU等处理器的计算速度与内存访问加载速度之间的不匹配,尤其是与存储设备的速度相比更是天壤之别。这就是业界著名的“内存墙”,其不均衡的发展速度对日渐增长的高性能计算形成了极大制约,成为训练大规模AI模型的瓶颈。
当前在AI、机器学习和大数据的推动下,数据量呈现出指数级的增长,存储技术必须紧随其后,才能确保数据处理的效率和速度。对于当前的内存行业来说,高带宽内存(HBM)慢慢的变成了焦点,尤其是在AI大模型训练和推理所需的GPU芯片中,HBM几乎慢慢的变成了标配。
尽管以HBM为代表的存储技术带来了显著的存算带宽提升,在某些特定的程度上缓解了带宽压力,但并未从根本上改变计算和存储分离的架构设计。与GPU等计算芯片的快速发展相比,仍面临内存受限、存储空间的数据吞吐能力容易跟不上计算单元需求量的挑战。
存储技术滞后于计算芯片发展的现象,显然慢慢的变成了现代计算系统中的一大瓶颈。存储技术的滞后会给高性能计算带来多重挑战:
然而,在AI模型规模持续扩大、推理任务逐渐提升的过程中,GPU架构的局限性逐渐显现,大量数据的传输和存储可能成为瓶颈,进而影响AI大模型训练和推理的速度和效率。
面对上述挑战,Cerebras推出的Wafer-Scale引擎成为了革命性的解决方案。
过去70年中,没有一点公司成功克服制造大型芯片的复杂性,即便是Intel和Nvidia这样行业巨头也未能解决这一挑战。尽管在与诸多曾尝试构建大型芯片的专家讨论后,许多人认为制造如此大的芯片不可能实现,但Cerebras依然充满信心。
2019年,Cerebras公开展示了WSE-1芯片,这一芯片比当时最大的GPU大了56.7倍,包含超过1.2万亿个晶体管,而当时最大的GPU只有211亿个晶体管;2022年,在湾区的计算历史博物馆展示了WSE-2芯片,WSE-2将晶体管数量提升到2.6万亿,并在更小的空间和功耗下提供了更强的计算性能,标志着计算历史上的一个重要里程碑。
2024年,Cerebras推出的WSE-3包含4万亿个晶体管和90万个计算核心,其性能可以训练比OpenAI的GPT-4大13倍的AI模型。
传统芯片在晶圆上以网格模式打印,然后切割成数百个小型芯片,而Cerebras的晶圆级集成则跳过了这种切割步骤,直接将整个晶圆设计成一个单一的超大芯片,因此称为“晶圆级”引擎。该方案通过将海量的计算资源和存储资源集中在单一的超大规模芯片(晶圆)上,优化了数据传输路径,减少了延迟,明显提高了推理速度。
要理解这种设计的必要性,第一步是要了解AI开发中涉及的两大瓶颈:一是处理数百万矩阵乘法运算所需的计算能力(FLOPs);二是通过种种归一化、SoftMax或ReLU操作在模型连接中更新权重所需的内存带宽。
在计算能力部分,虽然其进步遵循摩尔定律,但内存带宽的提升却远远滞后。例如,英伟达从2020年发布的A100到2022年的H100,计算能力增加了约6倍,但内存带宽仅增长了1.7倍。
同时,由于传统的处理器芯片内部内存有限,无法存储用于计算的数据。在处理如LLM模型训练这样的大规模计算任务时,处理器芯片要一直地将数据从芯片外的内存中进出。处理器与内存芯片之间的通信速度远低于处理器计算速度,芯片与芯片之间的通信速度比芯片内部的通信慢100倍以上,导致内存瓶颈问题。
通过设计更大的芯片,能增加处理器和本地内存芯片的空间,利用成千上万的硅线实现两者之间的高速通信,设计避免了像英伟达、AMD在将多个GPU或处理器连接时面临的互联瓶颈和内存带宽问题。
具体来看,在这个超大芯片上,Cerebras将计算单元和内存单元高度集成,形成了一个密集的网格结构。
与传统的冯·诺依曼架构不同,这种存算一体技术将计算单元与存储单元深层次地融合,极大地减少了数据在内存与处理器之间传输的距离和时间,从根本上打破了“存储墙”问题,极大提升了存算交换效率,使得数据能在极短的时间内完成读取和计算,以此来实现超快推理。
得益于芯片尺寸,对比英伟达H100 GPU,Cerebras WSE-3拥有90万个计算核心,是H100的52倍,片上内存是H100的880倍,内存带宽是其7000倍,而通过WSE-3的片上互联技术,核心之间的互连带宽更是做到了214Pbps,是H100系统的3715倍。
然而,这么大尺寸的芯片虽然性能强大,但更容易遭遇缺陷,因为随着芯片面积增大,良率会指数级下降。因此,尽管较大的芯片通常运行速度更快,早期的微处理器为维持可接受的制造良率与利润,通常选择适中的尺寸。
近年来,随着制造工艺和光刻设备的进步,缺陷率得到了控制,且通过标准的内存制造工艺,可以绕过有缺陷的部分,确保整体芯片不被一个缺陷影响。Cerebras在其WSE芯片中添加了冗余核心设计,并通过固件映射来屏蔽制造缺陷,以防止单一缺陷损坏整个芯片。这与传统的芯片制造方法不一样,后者通常会丢弃有缺陷的芯片。
同时,容错率的程度可由缺陷发生时损失的芯片面积来衡量。对于多核心芯片而言,核心越小,容错率越高。如果单个核心足够小,就非常有可能制造非常大的芯片。
据了解,在决定构建晶圆级芯片之前,Cerebras首先设计了一个非常小的核心。Wafer Scale Engine 3中的每个AI 核心约为0.05mm²,仅为H100 SM 核心大小的约1%。这两种核心设计均具备容错能力,这在某种程度上预示着一个WSE 核心的缺陷仅会损失0.05mm²,而H100 则会损失约6mm²。从理论上来看,Cerebras WSE芯片的容错率比GPU高约100倍,考虑的是缺陷对硅面积的影响。
但仅仅拥有小核心还不够。Cerebras还开发了一种精密的路由架构,能够动态重新配置核心之间的连接。当侦测到缺陷时,系统可透过冗余通信路径自动绕过缺陷核心,并利用邻近核心保持芯片的整体运算能力。
该路由系统与小量备用核心协同工作,能够替换受缺陷影响的核心。与以往需要大规模冗余的方法不一样,Cerebras的架构透过智慧型路由实现了以最少备用核心达成高良率。
在商业模式上,Cerebras的核心产品不是单独销售WSE芯片,而是提供与其WSE芯片共同设计和优化的集成计算系统。到目前为止,Cerebras 已经推出了三款计算系统:CS-1(针对WSE-1),CS-2(针对WSE-2),以及最新的CS-3(针对WSE-3)。
每个系统都包含一个“引擎块”,这中间还包括芯片封装、供电系统和一个封闭的内部水循环,用于冷却功耗巨大的WSE芯片。此外,所有的冷却和电源设备都有冗余且支持热插拔。
Cerebras的计算系统通过其SwarmX(网络通信)和MemoryX(存储权重)技术来实现可扩展性。SwarmX技术允许最多192台CS-2系统或2048台CS-3系统连接在一起,实现几乎线性性能增益。例如,三倍数量的CS-3系统能将LLM的训练速度提升三倍。相比之下,英伟达通过收购Mellanox来连接GPU,但性能增益是次线性的。
此外,MemoryX技术为每个计算系统提供最高1.2TB的存储空间,允许每个系统存储24万亿参数,并在训练期间将所有模型参数存储在芯片外,同时提供接近芯片内的性能。一个由2048台CS-3系统组成的集群可以以256 exaFLOPS的AI计算能力,不到一天的时间就能够实现Llama2-70B模型的训练。
Cerebras的系统允许内存和计算能力独立扩展,而GPU的内存和计算能力是固定的。比如,英伟达的H100芯片内存限制为80GB,GPU集群需要将LLM分解成多个小部分,在成千上万的GPU之间分配,增加了模型分布和管理的复杂性。而Cerebras的单个计算系统能容纳和训练一个包含数万亿参数的模型,不需要分布式训练软件,由此减少了开发过程中97%的代码量。
Cerebras的计算系统单台设备的性能已超越传统的GPU机架。2019年发布的CS-1就比GPU快1万倍,且比当时全球排名第181的Joule超级计算机快200倍。CS-2于2021年发布,性能较CS-1提升一倍。而CS-3于2024年推出,性能再翻倍,但功耗和成本未增加。一个CS-3系统的计算能力相当于一整房间服务器中数十到数百个GPU的总和。48台CS-3的集群性能超过了美国的Frontier超级计算机——全球排名第一的超级计算机,但成本便宜了100倍。
2024年8月,Cerebras为CS-3系统启用了AI推理功能,成为全世界最快的AI推理提供商。一个月后,Groq和SambaNova在推理速度上有所进展,但Cerebras迅速夺回了第一的位置。Cerebras的推理能力比Nvidia H100快20倍,成本仅为其五分之一。对需要实时或高吞吐量推理的AI产品开发者,Cerebras的低延迟推理能力将尤为重要。
当前,尽管大多数AI系统已能处理复杂的任务,但推理过程仍然耗时较长。尤其在自然语言处理(NLP)任务中,例如ChatGPT这种大语言模型,系统要逐字生成回答,这使得实时交互变得缓慢且不流畅。
随着AI大模型持续发展,行业重点正在从“训练模型”转向“模型推理”,意味着对推理基础设施的需求呈现上升趋势。例如,无论是OpenAI的o1和o3模型,还是Google的Gemini 2.0 Flash Thinking,均以更高强度的推理策略来提升训练后结果。
巴克莱研报显示,AI推理计算需求在快速提升,预计未来其将占通用AI总计算需求的70%以上,推理计算的需求还可以超过训练计算需求,达到后者的4.5倍。
面对行业趋势,这家成立于2016年的巨型晶圆级芯片公司,展示了AI推理芯片领域创新的巨大潜力。Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计,将赋予开发者构建下一代AI应用的能力,这些应用将涉及复杂、多步骤的实时处理任务。
从其财务数据分析来看,Cerebras呈现出迅速增加的态势。2024年上半年,公司实现销售额1.364亿美元,相比2023年同期的870万美元增长超过15倍。净亏损也从7780万美元收窄至6660万美元。2023年全年,Cerebras净亏损1.272亿美元,营收7870万美元。公司预计2024年全年销售额将达到2.5亿美元,较2022年的8300万美元增长201%。
这种快速地增长无疑印证了Cerebras的核心竞争力,同时增强了其寻求上市的吸引力。
从更宏观的角度来看,Cerebras的IPO反映了AI芯片市场的巨大潜力和激烈竞争。目前,英伟达在这一领域占据约90%的市场占有率,但随着AI技术的普及和应用场景的拓展,市场对高性能AI芯片的需求正在迅速增加。除了Cerebras,包括AMD、英特尔、微软和谷歌在内的科技巨头也都在积极布局AI芯片领域。此外,亚马逊、谷歌和微软等云服务提供商也开始自主开发AI芯片,以减少对第三方供应商的依赖。
当芯片的面积增加,有更多的电流流过晶体管,半导体电阻自然会产生更多的热量。如果热量过高,还会分解芯片及其表面的小部件。英伟达的Blackwell GPU数据中心中,都需要巨型的冷却系统。而Cerebras的巨无霸芯片,更是需要一套庞大的散热系统。专门的、庞大的散热系统也代表着,部署芯片需要额外的配套成本。
英伟达的软件和硬件堆栈在行业中占据主导地位,并被企业广泛采用。在ECO的成熟度、模型支持的广泛性以及市场认知度方面,英伟达仍然占据优势。相比于Cerebra,英伟达拥有更大的用户群体和更丰富的开发者工具和支持。Futurum Group分析师指出,虽然Cerebras的晶圆级系统能够以比英伟达更低的成本提供高性能,但核心问题是企业是否愿意调整其工程流程以适应Cerebras的系统。
招股说明书显示,总部在阿联酋的AI公司Group 42在2023年贡献了Cerebras 83%的收入。这种过度依赖单一客户的情况可能会给公司带来潜在风险,拓宽客户基础、降低对单一客户的依赖,将是Cerebras必须面对的挑战。其次,Cerebras的芯片由台积电生产,公司提醒投资者注意可能的供应链中断风险。
尽管Cerebras在技术上处于领先,但其财务情况却仍是挑战。多个方面数据显示,从2022年到2023年,Cerebras累计收入1亿美元,但净亏损则高达3亿美元。2024年上半年,尽管收入同比增长1480%,达到了1.364亿美元,但净亏损依旧达到6661万美元。这表明,尽管收入增长迅猛,Cerebras仍面临盈利转化的严峻考验。
在当今快速演变的技术生态系统中,多技术协同升级已成为推动新兴技术发展的核心动力。要实现算力的持续增长,GPU、互联、存储等技术必须协调发展。虽然GPU技术已取得了显著进步,但没有更高效的互联技术和更快的存储技术支撑,算力的潜力将无法完全释放。
对于英伟达等科技巨头而言,如何继续推动GPU与其他关键技术的协同进化,解决存储、互联的瓶颈,将是未来几年中的主要挑战。
另一边,作为一家成立仅8年的初创公司,Cerebras能够在极短的时间内发展到挑战行业巨头的地步,充分说明了AI技术的巨大潜力和市场的快速变革。如今AI芯片市场的洗牌,不仅是技术的比拼,更是理念和未来愿景的对抗。
根据半导体“牧本周期”——芯片类型有规律地在通用和定制之间不断交替——在某个特定时期内,通用结构最受欢迎,但到达一定阶段后,满足特定需求的专用结构会奋起直追。
当前,英伟达所代表的通用结构时代正处于巅峰。而AI革命为Cerebras等大芯片厂商提供了成为行业领导者的机会,至于该技术路线是否能成为行业主流,还需要静待市场的检验与淬炼。
福耀科技大学公布了:首届招100人以内,年学费5460元!大四到境外名校学习一年,与剑桥、牛津、斯坦福等合作
据《福州晚报》3月22日消息,今年该校计划招收100名以内学生,学费每年5460元,采取本硕博贯通培养模式,本科阶段将获得双学位。
郑州23岁一女生只要一出家门就会像“断电”一样, 随时随地一秒入睡。医生:这是典型的发作性睡病,目前只能靠药物控制。#郑州 #秒睡
长沙明年起中考取消生物地理,调整为考查科目;体育与健康分值从40分增至50分,中考总分由700分降为630分
深圳市人民政府任免人员。经深圳市人民政府2024年12月25日批准:钟汉同志任深圳市民政局副局长,试用期一年;
3月23日,中国福彩在其官方微信公号公布消息称,近期,一些不法分子打着“AI预测彩票号码,百分百中奖”的幌子,诱导购彩者付费购买所谓的“预测服务”,让不少人上当受骗。
椰树集团声明“发现一瓶造假奖100万”,业内揭秘:一升椰子水卖9块9有猫腻
3月24日,椰树集团官网发文称,椰树牌真百分百原汁原味椰子水,绝不用废料椰子水生产,敢承诺发现一瓶造假重奖100万元。
3月24日,长沙市教育局召开中考中招制度改革新闻发布会,详细地理解阅读《关于进一步推进高中阶段学校考试招生制度改革的实施办法》(以下简称《实施办法》),回应社会关切。问:政策发布会中提到,公办优质普通高中指标生采用“均衡分配和统筹调配”的方式来进行分配,具体怎么理解?
韩国民主劳总全北支部等市民团体于3月24日声明,若韩国在26日前不确定尹锡悦弹劾案判决日程,将从27日起举行总罢工和全面斗争,这一事件反映出韩国当前复杂的政治局势和社会矛盾。
全国销售热线
0371-85608552
销售咨询电话
13838570777