点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《开放加速规范AI服务器设计指南》发布 应对生成式AI爆发算力挑战
首页> 科技频道> 综合新闻 > 正文

《开放加速规范AI服务器设计指南》发布 应对生成式AI爆发算力挑战

来源:光明网2023-08-11 22:06

  8月10日,在OCP China Day 2023上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

  当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。

  随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

  据悉,OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

  基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

  《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

  多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

  全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

  性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。(战钊)

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平出席APEC第三十二次领导人非正式会议

  • 2025北京马拉松举行

独家策划

推荐阅读
HPV疫苗自2025年11月10日正式纳入国家免疫规划,2011年11月10日后出生的满13周岁女孩可以免费接种双价HPV疫苗。
2025-10-31 10:16
近日,飓风“梅利莎”横扫加勒比地区,成为近年来影响该地区最猛烈的飓风之一。
2025-10-31 10:14
10月30日下午,在中国科学院大连化学物理研究所(以下简称大连化物所),得知同事张洪章即将到“太空”出差的好消息,科研人员纷纷送上祝福:“好好照顾自己,好好完成任务。
2025-10-31 10:02
据新一期《天体物理学快报》报道,LIGO-Virgo-KAGRA国际合作组织宣布,他们在去年10月和11月探测到两起极为特殊的、由黑洞并合产生的引力波事件,分别命名为GW241011和GW241110。
2025-10-31 09:59
记者从生态环境部获悉:今年前三季度,我国环境空气质量和地表水环境质量总体持续改善。从重点区域来看,京津冀及周边地区“2+36”城市PM2.5平均浓度为33.0微克/立方米,同比下降15.6%;平均优良天数比例为73.5%,同比上升8.5个百分点。
2025-10-31 09:57
执行神舟二十一号载人飞行任务的航天员乘组由张陆、武飞、张洪章3名航天员组成。张陆担任指令长。
2025-10-30 13:03
记者10月29日从国家统计局获悉,根据国家统计局社科文司《中国创新指数研究》课题组测算,2024年中国创新指数为174.2(以2015年为100),比上年增长5.3%。
2025-10-30 10:15
绿氨作为绿氢核心载体与低碳原料,正成为钢铁、化工等高耗能行业实现深度脱碳的关键路径。
2025-10-30 10:12
记者10月29日从水利部获悉,由水利部制定的国家标准《幸福河湖评价导则第1部分:流域面积3000km2以下(含)河流》经国家标准化管理委员会批准正式发布,将于2026年5月1日起全面实施。
2025-10-30 10:06
截至2025年3月,全国已建成66处国家级智能化示范煤矿、200余处省级示范煤矿,拥有1806个智能化采掘工作面,智能开采产能占比超过50%,1.6万余个固定岗位实现无人值守。
2025-10-30 10:04
为全面反映我国在应对气候变化领域的政策行动和工作情况,29日,生态环境部发布《中国应对气候变化的政策与行动2025年度报告》并举行新闻发布会。
2025-10-30 10:00
亚太经合组织(APEC)第三十二次领导人非正式会议将于10月31日至11月1日在韩国庆州举行。
2025-10-29 10:12
近日,中国科学院金属研究所戎利建研究员团队利用自主研发的纯净化制备技术,成功实现了高纯净吨级哈氏合金C276的工业化生产。
2025-10-29 09:36
截至今年6月,我国生成式人工智能用户规模达5.15亿人,普及率为36.5%,仅上半年,用户规模就增长了2.66亿人。
2025-10-29 09:35
当掌勺者从有体温的师傅变成由代码驱动的机器,以人和环境为核心的传统监管模式也面临着新情况。
2025-10-29 09:35
今年年产量首次突破150万吨,创历史同期最高水平,这标志着我国页岩油开发从技术探索迈向规模化、稳定产出的新阶段。
2025-10-29 09:33
相信很多人都曾有过这样的体验:临睡时刻,总觉得口干舌燥,害怕会频繁起夜,但又忍不住想大口喝水。每当此时,一些人不免会担心,是不是身体出什么问题了?
2025-10-29 09:32
10月28日,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》全文发布。
2025-10-29 09:31
资料图片  深秋,去往宁夏吴忠市盐池县马儿庄村的乡道上,簌簌黄叶生出几分萧瑟。张文攀摄/光明图片  如今,马儿庄村有滩羊养殖专业合作社8家,全村滩羊年饲养量5万只,远高于封山禁牧前。
2025-10-28 08:57
培养什么人、怎样培养人、为谁培养人,是教育的根本问题,也是摆在新时代医学教育面前的重要课题。“卓越”与“有温度”相辅相成,互相支撑,共同构筑新时代医学人才的素养基石。
2025-10-28 08:55
加载更多