智东西于8月19日在银川进行报道,前一日,工业和信息化部与宁夏回族自治区政府联合举办的2023中国算力大会在宁夏银川举行。
会议期间,作为算力设施领域的领先企业,联想发布了两种新型AI服务器,包括联想问天WA7780 G3 AI大模型训练服务器和联想问天WA5480 G3 AI训推一体服务器,为大模型AI的训练和推理工作提供了新的硬件支持。
“算力中国”创新成果展上的联想两款AI服务器产品展示
此外,联想初次向外界公布了名为“普慧”的AI算力整体规划,明确表示全部算力基础设备将服务于人工智能,一半的基础设施研发资源将集中于AI行业,同时公司还推出了联想智算中心这一解决方案以及服务方面的核心产品。
联想集团副总裁兼中国区基础设施业务群服务器事业部总经理陈振宽表示:新发布的两款联想问天AI服务器,体现“人工智能助力智慧发展,环保理念促进能源节约”的核心思想,凭借先进的AI能力,服务于各种场景,构建完整的AI核心基础架构。
联想集团高管陈振宽,担任中国区基础设施业务群服务器事业部的负责人
会议期间,智东西单独采访了陈振宽,同时与部分媒体一同访问了联想集团副总裁、中国区方案服务业务群总经理戴炜,进行了深入的交谈。
AI服务器的送达时刻是行业非常重视的一个议题。陈振宽向智东西透露,现阶段AI服务器市场存在需求远超供应的情况。他们今日正式推出了两款AI服务器,当前订购情况热烈,部分订单的完成时间需要等到下一年。
当下众多中国厂商发布了大模型,联想在此是否已有布局?
戴炜向智东西说明,联想当前未开发通用型超级大模型,而是集中精力于智能基础服务建设,依据众多行业的客户使用要求,围绕不同领域实际状况进行规划。
联想集团副总裁、中国区方案服务业务群总经理戴炜
谈及大模型对于东数西算工程的作用,戴炜提出观点,大模型的兴盛或许能为宁夏等西部算力中心创造新的发展契机。靠近用户需求场景的大模型运算,适宜部署在东部算力中心,远离用户需求场景的大模型学习,则适合安排在西部算力中心。
实施“东数西算”项目,要依靠智能运算能力,还得考虑实际用途,同时也要注重人才培养环境,这些方面必须一起配合才行。
一、联想副总裁陈振宽:50%基础设施研发投入在AI领域
算力已获各国科技领域高度关注,联想宣布以“普慧算力”为指引,推进算力建设进程。
陈振宽表示,“普”指的是普遍性,期望计算能力如同水和电一般,能够被所有人获取、利用和适应;“慧”则象征智能,表明其具备自我调节、自我教育、自我发展的特性,使用者可以根据需求随时调用。
陈振宽谈到,联想的“普慧”AI算力战略包含两个主要方面:其一是通过AI技术为各行各业提供支持,其二是致力于实现能源使用的环保高效。
联想在人工智能赋能方面,计划将全部算力基础设施产品用于支持人工智能,把一半的基础设施研发资源投向人工智能领域,实现人工智能技术的全面覆盖,进而服务于所有人工智能应用场景。在绿色能源赋能方面,联想致力于全面部署和引领液冷技术,创建液冷技术和液冷集群解决方案的标杆,不断开拓创新,引领未来科技发展方向。
联想要提供全面的AI技术与服务
探究联想AI计算能力部署的深层缘由,联想“AI助力,环保助力”怎样推动“普及智能”计算能力达成?
陈振宽向智东西说明,联想运用“全栈智能”途径达成战略部署,具体表现在三个层面:具备AI功能的智能设备、以AI为核心的基础架构、基于AI开发的解决方案。
联想针对人工智能领域的基础设施建设,已经形成了两大品牌体系,分别是“联想ThinkSystem”以及“联想问天”,当前在人工智能产品线已经拥有超过六十种不同型号的设备。
联想ThinkSystem产品系列着重强调“全球智能与本地服务”,而新推出的联想问天品牌则侧重“本土革新与快速响应”,依托本土的创新发展,针对中国客户生态,能够提供更为灵活的定制化个性化服务。
联想智能算力基础设施采取双品牌战略
二、推出两大AI服务器产品,大模型训练提速近10倍
AI驱动的设施建设必须参照AI信息的属性和运算方法来规划和完善,要顾及到AI信息的“以向量、矩阵或高维数组展现”、“信息杂乱度高”等表现,也要留意到AI运算的“涉及海量并行运算和矩阵运算”、“容许使用低精度浮点数或量化整数”等特性,这些方面都应纳入考量范围。
这次,联想发布的两种AI服务器,即联想问天WA7780 G3 AI大模型训练服务器和联想问天WA5480 G3 AI训推一体服务器,充分体现了其创新AI计算能力战略思想。
高性能AI训练服务器配备32P FLOPS算力,大幅加快大型人工智能模型训练进程,效率提高九倍。
今年早些时候,联想推出了旗下服务器的本土化系列“联想问天”,其中WA7780 G3型号是专门为人工智能大型模型训练而设计的设备。
联想问天WA7780 G3 AI大模型训练服务器
(1)AI算力提升超3倍,AI推理速度提升达30倍
联想问天WA7780 G3 AI大模型训练服务器搭载了第四代英特尔至强可扩展处理器。该NVIDIA HGX H800系统配置了八块H800 NVLink GPU,配备了高达640GB的HBM3高速显存。借助NVLink技术,GPU之间的互联速率能够达到400GB/s。据报道其AI计算能力增强了三倍多四分之一,最高能够达到三十二千万亿次浮点运算每秒的AI计算能力。
NVIDIA H800 GPU运用第四代Tensor Core,并整合Transformer引擎(以FP8精度运行),其性能较前代产品显著增强,AI模型训练速率可提升至原来的九倍,AI模型推理速率亦可提高至原来的三十倍。
联想问天WA7780 G3 AI大模型训练服务器的计算能力表现如何,各项性能参数怎样,具体数值是多少
(2)快速低延迟互联,支持按需配比和扩展不同算力
联想问天WA7780 G3 AI大模型训练服务器能够通过多种对外网络连接方式,例如IB和RoCE,实现连接。该服务器最多可以安装8块RDMA高速网卡,能够提供3.2Tb/s的总带宽,足以满足大规模模型训练并行处理时,不同节点之间通信的需要。
此外,联想问天WA7780 G3在本地存储方案中运用了GPU Direct Storage技术。借助这项技术,GPU与NVMe设备之间能够达成迅速且低延时的连接。这种连接方式有助于显著加快训练数据的读取进程,进而增强大型模型训练的整体效率。
联想问天WA7780 G3 AI大模型训练服务器的灵活架构
散热结构实现了突破性改进,能量消耗减少了十分之一,能源使用效率指标预计能降到1.1以下
联想问天WA7780 G3 AI大模型训练服务器,其构造中运用了三个独立的通风通道,针对各个部件的散热量进行了细致的调整,显著减少了因风扇运行所消耗的能量。有消息透露,与同类机器相比,这款服务器的能耗削减了大约十分之一。
此外,针对未来智算中心对能源使用效率更高标准的需要,本产品具备安装液冷散热装置的扩展性,将来能够运用液体冷却技术,显著降低在人工智能大型模型运算时,由设备发热所造成的能源消耗,系统效率预计能达到1.1以下水平。
联想问天WA7780 G3 AI大模型训练服务器能耗情况
2、AI训推一体服务器:支持多种场景、多元算力
接下来探讨联想问天WA5480 G3 AI训推一体服务器,这款产品属于联想问天系列,是一款4U机架式AI服务器,能够提供多种计算能力,并且兼容多种配套软件。
联想问天WA5480 G3 AI训推一体服务器
最高可容纳十块NVIDIA H800,兼容多种人工智能处理单元
联想问天WA5480 G3 AI训推一体服务器配置了两颗英特尔至强可扩展第四代处理器,支持最新版PCIe 5.0接口。借助PCIe扩展功能,该设备最多能够连接10块AI加速卡,这些加速卡涵盖多种类型和品牌,其中包括最新的NVIDIA H800显卡。联想问天WA5480 G3能够适应多种用途,包括通用人工智能模型的培养、大型模型的分析判断、人工智能内容的创作、云端游戏的运行以及科学领域的运算处理。
联想问天WA5480 G3 AI训推一体服务器支持多元算力
(2)灵活拓扑,不同组合满足多种AI场景需求
联想问天WA5480 G3 AI训推一体服务器在CPU和GPU互联的硬件构造上运用了多样化构思。它针对不同的AI处理任务,能够提供直连、均衡、通用等几种CPU和GPU连接模式,防止了因CPU和GPU数据传输途径单一且与任务类型不符,而可能引发的性能受限和系统效能降低的问题。根据加速卡种类和数量差异,能够适配AI各种复杂应用场景,达成理想效果。
联想问天WA5480 G3 AI训推一体服务器支持丰富生态
(3)充分考虑设计冗余,确保无间断运行
联想问天WA5480 G3 AI训推一体服务器在构造上预留了充足余量,其供电系统具备N+N的备份机制,单个节点的电源设备能够互相支援,同时能够接入两路外部电源,以此确保服务器能够全天候不间断工作。此设备能够监测核心部件如处理器、显卡和内存的能耗情况,对整体能耗进行上限管理,动态确保服务器工作在适宜的能耗范围之内,维持运作效能的稳定,同时配备风扇N+1备份等安全构造,以保障在高温环境下能够持续运行。
联想问天WA5480 G3 AI训推一体服务器的稳定性
陈振宽向智东西说明,针对AI计算能力与智能计算领域,此次发布具有革命性意义,逐步推进的方式难以满足智能计算的要求。因此,联想此次推出的两款产品主要侧重于进行大规模推理和大规模训练,即超大规模的处理。
三、推出智算中心方案,三种交付方式支持三类算力场景
当下,混合架构模式在智算中心的建设中已成为行业趋势。
戴炜指出,智能算力应用不断促进算力需求的提升,智算中心部署必须适应各行各业对多样化算力的需求,涵盖公有云与私有云的结合,国产算力同通用算力的融合,以及常规计算、超级计算和智能计算的组合,无论是企业级的智算设施还是区域性的智算设施,都表现出显著难度。
智算中心具有高难度特性,必须配备先进的技术架构和配套支持。为此,联想推出了完整的智算中心解决方案,并且提供了全程协助式服务。
戴炜讲解智算中心方案及陪伴服务
联想智算中心解决方案属于AI专属方案服务的关键构成,AI专属方案服务涵盖了联想智算中心解决方案、联想混合云解决方案、联想大脑植入的解决方案,以及端到端全周期的联想智算中心服务与臻算服务。
联想智算中心解决方案
戴炜表示,针联想方案服务将采用三种提供途径,分别是混合云、臻算服务2.0订阅型和整体解决方案,来满足不同算力环境下的混合运算要求,这些算力环境包括普通计算、智能计算以及超级计算。
结语:大模型落地行业,推动AI算力需求爆发
大模型已开始在各领域推广应用,AI算力因此成为算力设施建设的关键方向。据权威市场研究公司IDC发布的分析,由于生成式AI技术的快速普及,产业界对智能计算的需求量首次超越了常规计算能力,AI算力现在构成了算力升级的核心驱动力,同时也为“东数西算”工程注入了新的发展活力。
借助当前的机遇,IDC的研究资料揭示,联想集团在2022年成为AI相关硬件设施(包括服务器和存储设备)增长最为迅猛的供应商,其销售额同比提升了139%,并且在全球市场位列第三。近期,联想公司推出了多种适用于AI大型模型发展的服务器产品,同时积极实施AI技术赋能以及环保能源推动的“普慧”计划,预计这将为中国AI大模型的研发与应用注入新的活力。