点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《开放加速规范AI服务器设计指南》发布 应对生成式AI爆发算力挑战
首页> 科技频道> 综合新闻 > 正文

《开放加速规范AI服务器设计指南》发布 应对生成式AI爆发算力挑战

来源:光明网2023-08-11 22:06

  8月10日,在OCP China Day 2023上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

  当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。

  随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

  据悉,OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

  基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

  《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

  多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

  全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

  性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。(战钊)

[ 责编:焦子原 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平会见委内瑞拉总统马杜罗

  • 美英达成贸易协议 但细节尚待敲定

独家策划

推荐阅读
满场跑的人形机器人,能透视的眼科手术设备,可诊疗阿尔茨海默病的大脑“地图”……昨天开幕的北京科博会如同北京未来产业新成果的全景展示。
2025-05-09 17:21
近日,某医院护士2017年发表的一篇论文引起广泛关注——其中不仅惊现“男性患子宫肌瘤”,还煞有介事地介绍对照组患者中“男27例”“女13例”。
2025-05-09 13:05
虽然名字中有熊又有猫,但是大熊猫的生活习性、身体特征、食性等方面都与猫科动物相差甚远;随着分子生物学发展,研究者认为大熊猫应属于熊科成员。
2025-05-09 09:48
糖在激活味蕾的同时,给公众健康带来了负面影响。而糖究竟是如何“诱惑”人类味觉的一直是个谜。
2025-05-09 09:46
香港中文大学教授张立团队联合深圳大学副教授王奔、中国科学院深圳先进技术研究院研究员徐天添等科研人员,成功研发全球首个磁控血液凝胶纤维机械人,有效实现颅内肿瘤精准治疗。
2025-05-09 09:45
近年来,《流浪地球》《独行月球》《问天》等国产影视作品受到观众喜爱,这正是航天科普与文艺跨界融合的结果。
2025-05-09 09:38
从进入隐生状态,到覆盖上冰膜,再到电子束攻击,其中的每个步骤,实验人员都需要保护好水熊虫。
2025-05-09 09:35
美国哈佛大学肯尼迪政府学院7日发表公报说,该院前院长、美国知名政治学者、“软实力”概念提出者约瑟夫·奈6日去世,享年88岁。
2025-05-08 12:55
量子计算测控系统是量子计算机的“神经中枢”,承担着量子芯片精密信号生成、采集与控制的核心职能。
2025-05-08 10:42
在火星地貌研究方面,地质地球所研究员秦小光和国家天文台研究员刘建军组成了黄金搭档。这些系统性突破不仅刷新了人类对火星环境演化的认知,更在行星科学领域镌刻下鲜明的“中国印记”。
2025-05-08 10:40
记者7日从中国科学院金属研究所获悉,来自该所等单位的科研人员成功研制出可漂浮的二氧化钛材料。二氧化钛是一种常用的半导体光催化材料,在光照下能产生具有塑料分解能力的羟基自由基。
2025-05-08 10:37
从总体架构看,现代化生态环境智能治理体系可以概括为“一大脑、两支撑、多场景”的结构布局。
2025-05-08 10:31
这条特高压输送的电能超一半是风能、光伏、储能等纯绿色电能。
2025-05-08 14:01
最近,不少北京移动和联通用户发现手机上出现了5G-A信号。5G-A是什么?对我们普通人来说又有什么用呢?
2025-05-08 09:34
历时6年采集沉积物样本,利用计算生物学研究技术,揭示真核生物祖先可能在海姆达尔纲古菌分化之前就已经形成。
2025-05-08 12:52
生命的力量,远比想象中更强大。
2025-05-08 10:59
党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展,推动我国人工智能综合实力整体性、系统性跃升。
2025-05-08 10:28
光明智库以“当具身智能走出实验室——距离人手一台机器人,我们还有多远?”为主题举办新一期青年论坛
2025-05-08 12:01
助力拓宽科技创新企业融资渠道,引导债券市场资金投早、投小、投长期、投硬科技。
2025-05-07 16:07
英国《新科学家》网站近期报道,正在或即将于月球上部署的大型科学实验装置与天文设备,的确有望解开诸多宇宙之谜。
2025-05-07 10:05
加载更多