中国在用算力中心机架总规模超过830万标准机架,算力总规模达246Eflops(2460万亿次浮点运算),位居世界前列,工业、教育、医疗、能源等多个领域算力应用项目超过1.3万个。
中国信息通信研究院发布的《中国综合算力指数报告(2024)》显示,美国和中国算力基础设施增长居全球前列。我国58.3%的算力中心已连接到国家骨干网,为数据的高效传输提供了有力支撑。算力网络互联互通水平大幅提升,国家算力枢纽节点已全面实现20毫秒时延保障能力,全国65%的省市可以在5毫秒内接入一个算力数据集群。从省级行政区来看,综合算力指数排名前10位的依次是河北、广东、上海、江苏、北京、浙江、山东、山西、内蒙古和宁夏。其中,北京、上海、广东和江苏连续3年跻身前5位。
回顾整个2023年,中国GenAI进入发展元年,模型参数量持续扩大,训练任务所需单集群规模正从128集群向256集群演进。同时,随着头部GenAI产品的落地,智能算力需求爆发式增长。相比于2022年,2023年智算服务市场增长81.6亿元人民币。其中GenAI IaaS市场贡献59%,智算集成服务市场贡献38%,Non-GenAI IaaS仅贡献3%的增量。由于需求的快速变动以及所需基础设施的投资运营门槛较高,头部的科技企业更偏爱采用GenAI IaaS服务。
阿里云
无论是训练还是推理,大模型都离不开云。阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭提到,在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位,这一趋势还会持续扩大。CPU主导的计算体系正在加速向GPU主导的计算体系转移,AI计算正在加速渗透千行百业。当前,行业前沿模型训练计算量每年增长4~5倍,中国AI算力规模2022~2027年复合增长率高达33.9%;模型参数以10倍速增长,模型数据集以50倍速增长,对存力也提出了更高需求。
自宣布“AI驱动、公共云优先”以来,阿里云大刀阔斧地进行投入AI基础设施建设,单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。
阿里云新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%;阿里云ACS首次推出GPU容器算力,通过拓扑感知调度,实现计算亲和度和性能的提升;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU ,模型端到端训练性能提升10%以上;阿里云CPFS文件存储,数据吞吐20TB/s,为AI智算提供指数级扩展存储能力;人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。
(APSARA云栖大会)
商汤
全国首个5A级智算中心诞生,在上海自贸区临港新片区,商汤智算中心通过理论算力、有效算力、算力能效、业务模型场景支持能力、加分项等5个维度的技术评测,获得5A级智算中心算力性能认证,成为国内智算中心建设的“样板间”。这个项目一期投资56亿元,主要建设园区智算大楼与科研行政大楼,用于AI智算中心平台硬件搭建、平台软件、平台管理系统和大模型应用等多领域研发。算力为14000 PFLOPS,远远超出立项规划的3740 PFLOPS算力总量。经过持续扩容,算力可支撑超过20个千亿参数超大模型同时训练,并支持万亿参数大模型的全生命周期生成。
在硬件技术上,智算中心实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,具备超30天不间断训练AI大模型的能力;出现训练间断时,诊断恢复时长已缩短至半小时。
在软件技术上,商汤大装置与“日日新”大模型体系的集合,重构了算法的供给模式。通过提供“日日新”基础模型,各行各业的用户只需在此基础上进行微调或增量训练,就可以高效率地开发出符合自身需求的行业模型。这种服务实现了算法的基础设施化,与算力基础设施的服务配套,让国内各种行业大模型的开发更为高效、便捷。
(商汤临港智算中心服务器)
不过,国际数据公司(IDC)中国分析师杜昀龙表示,“算力需求是很大,只不过现有类型无法满足用户需求。无论是适配方面还是性价比角度,都达不到客户的预期。”
● 如何解决智算中心成本过高的问题?
当前,AI大模型服务器算力需求提升,使得智算中心单机柜功率密度大幅度增长。在智算中心的运营上,电费占运营支出的60%以上,有企业测算,马斯克最近落成的10万卡AI集群“孟菲斯”一天的耗电,相当于北京东城区一天的电量。电费很大部分来自制冷产生的费用,优化制冷系统,已成为数据中心提高能源效率、降低成本的重要环节。
近日,京东云液冷服务器在2024中国算力大会上荣获“DC Tech 创新先锋”优秀成果奖,服务器采用EVAC 散热器及液冷技术,可使散热效能提升 50%;基于多元供电方案,在单机柜 20KW 的条件下,单机柜功耗 1 年可节省 8500 度电。
为应对GPU服务器高功耗、传统风冷机房改造升级等难题,京东云液冷服务器采用冷板式设计,能够支持多个平台的GPU共计 750W的功耗;整机部件采用模块化设计,灵活支持前置I/O或后置I/O,免工具维护,能够直接替换标准散热器,同时支持整机柜部署和传统机柜部署。液冷服务器已经成为智算中心内名副其实的节能降耗利器。
● 智算中心如何由“量”转“质”?
高质量算力不能只关注芯片,还应从系统角度综合考虑满足实际应用。国家信息中心信息化和产业发展部主任单志广就提醒称,在一体化构建算力体系过程中,要避免重建设、轻需求,应以应用为导向,提高整个算力中心的利用度。
中国信息通信研究院云计算与大数据研究所总工程师郭亮称,“建设智算中心需要‘适度超前’,结合当地实际需求做整体的分析和预判。”
北电数智战略与市场负责人杨震表示,“长远来看,‘以终为始’地打造一个健康良性的智算中心商业闭环,或是更为关键和有效的方式。”如何以终为始打造智算中心的商业闭环,本质上还是发掘人工智能的应用场景,实现当地产业或企业智能化转型升级。比如,地方政府最初可把自身一些数据、场景释放出来,形成一些人工智能标杆,再进一步与当地产业、头部企业结合,将雪球越滚越大。
综上所述,中国算力产业在基础设施、技术创新以及产业应用上取得了长足的进步,但也面临着运营成本高、资源利用率不均衡等挑战。未来,智算中心的建设不仅要追求算力规模的扩展,还应注重系统性优化和应用导向。只有这样,算力基础设施才能在支持各行各业数字化转型中发挥更大作用,助力中国在全球科技创新竞争中取得更为显著的领先地位。
AI美图