点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“AI+运维”打造光链路智能运维新攻略
首页> 科技频道> 人工智能 > 正文

“AI+运维”打造光链路智能运维新攻略

来源:光明网2025-11-26 13:43

  当下,AI正在焕醒全行业的创新视角,智算系统的连续、稳定运行至关重要。一份关于LLaMA 3的官方论文报告显示:万卡集群平均每3小时故障一次,其中10%的故障因网络引起,而由光模块/光纤引起故障的概率达到8%。但网络系统故障原因“盘根错节”,排障往往需要耗费数小时甚至数天,这导致AI时代下的网络运维工作更加复杂。

  如何让网络运维跟紧智能化演进步伐?如何对故障率较高的光模块/光纤状态进行监测和预警?如何端到端提升AI网络效率?

  智能运管平台ICE集成了元脉网络自研“光链路监测小模型”,该模型以完整的“本端光模块-光纤-对端光模块”监测链条为基础。并通过神经网络预测、削顶双高斯混合数学建模、时间序列分析等多种方式进行联合决策,实现对光纤/光模块部件的全局监控。打破被动防御的桎梏,是业界首个具备光链路主动守护能力的纯软件监测模型,无需其他硬件、测试仪器等设备的辅助,部署更容易、资源占用更少、响应速度更快。

  一是信息多维度采集,预测结论更精准。ICE通过收集光模块的收发光功率、电压、电流、温度、纠前BER(Raw Physical BER)、纠后误码数(Effective Physical Error)、高阶(13阶及以上)FEC Symbol Error等参数进行分析,提高预测结论的精准度,为智算系统的连续运行提供保障。

  二是独创轻量化算法模型,运维工作更稳妥。ICE内置80KB的自研轻量化“光链路监测小模型”,使运维工作不依赖外网环境,也可在不中断业务的前提下完成在线升级,摆脱外部模型资源牵制,节约算力成本,让AI网络运维工作“轻装上阵”。

  三是独立全景图界面,故障分析更立体。在界面展示设计上,ICE采用“全景图”的设计思路,可动态展示光模块的健康状态、故障位置、故障原因等信息,真正实现运维工作的全面可视。

  四是预警分级提示,障前干预更即时。ICE可提前对光模块异常原因进行分级,并在全景图中以不同等级的“告警标识”进行提示,方便用户依据优先级进行提前干预,提高运维效率,降低运维成本。帮助客户实现从“被动修”到“主动防”的转型,大幅提升智算系统的有效训练时间比(ETTR)。(记者 战钊)

[ 责编:田新宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 济滨高铁进入全线铺轨作业阶段

  • 浙江武义:春茶全面开采

独家策划

推荐阅读
“龙虾”智能体通过整合调用通信软件和大语言模型,在用户本地电脑自主执行文件管理、邮件收发、数据处理等复杂任务。”魏亮说,有关方面也会持续做好安全监测,如发现相关安全风险将及时预警,为用户安全使用提供必要的技术支持。
2026-03-11 09:36
作为人类的“第二大脑”,AI for Science正在全球范围内引发科研范式的深刻变革,也成为全国两会期间代表委员关注的话题。3月7日,在全国政协十四届四次会议第二次全体会议上,全国政协委员、中国科学院院士周志华发言建议,以人工智能引领科研范式变革。
2026-03-11 09:36
全国政协委员、中国科学院院士、南京大学副校长周志华在接受光明网记者采访。
2026-03-11 07:00
以医工交叉+成果转化为抓手,凭借硬核科创成果精准攻坚,同时高标准建设国家药监局监管科学创新基地,为产业发展提供标准与工具支撑。
2026-03-11 09:33
作者:余有成 张立华 吴 飞(分别系中国人工智能学会副秘书长;复旦大学智能机器人研究院常务副院长、特聘教授;我国的独特优势,在于探索出一条“软件定义算力、算法驱动效能、人工智能+赋能场景”的创新路径。
2026-03-11 09:32
具体而言,在种植与流通环节,中药农业面临良种普及率不高、生产种植分散、标准化程度偏低等现实问题。可制定国家统筹的野生资源抚育与替代技术攻关清单,利用大数据监测价格与供给波动,增强产业链供应链韧性。
2026-03-11 09:31
光明日报北京3月10日电 记者张晓华从中国航天科技集团获悉,目前中国探月工程四期正稳步推进,2026年将研制发射嫦娥七号探测器,首次奔赴月球南极,寻找水冰存在的证据。中国航天科技集团五院研究员孙泽洲表示,在行星探测方面,未来我国还将发射天问三号和天问四号。
2026-03-11 09:30
当前全球人工智能竞争日趋白热化,大模型手机助手成为智能终端领域的核心竞逐赛道。建议以技术协同创新为核心、以产学研深度融合为支撑、以包容审慎监管为保障,筑牢自身核心优势,抢抓大模型手机助手产业窗口期。
2026-03-10 09:57
近日,由蓝箭航天研制的220吨级液氧甲烷全流量补燃循环发动机“蓝焱”完成整机全系统长程试车,标志着我国在大推力高性能液体火箭发动机领域持续取得突破性进展。
2026-03-10 09:30
从空天地一体化网络到通信、感知与人工智能深度融合,6G被视为重塑全球数字信息基础设施格局的重要技术底座。
2026-03-10 09:29
我国目前农业科技进步贡献率已经超过64%,农作物良种覆盖率超过96%,农作物耕种收综合机械化率达到76.7%,“农业现代化建设迈上了一个新台阶”。
2026-03-10 09:27
全国两会期间,“养龙虾”的话题登上热搜。全国人大代表、中国工程院院士高文说:“现在大家急得不得了,生怕没有养上‘龙虾’。”
2026-03-10 09:26
从实验室的“青苹果”到产业端的“金苹果”,距离有多远?2026年全国两会期间,两位代表分享了他们的探索实践。
2026-03-09 09:46
加快科技自立自强,既是破解产业升级瓶颈的重要支撑,也是抢占未来产业新赛道、培育新质生产力的关键依托。
2026-03-09 09:45
在全国两会会场,记者见到了贵州省六盘水市水城区农业农村局农业综合开发中心主任杨恩兰代表,聊起了她来京前的“田间故事”。
2026-03-09 09:44
杨建成委员介绍,经过几十年发展,我国布局建造了一批重大科技基础设施。
2026-03-09 09:43
中国工程院院士,第十四届全国人大常委会委员、农业与农村委员会副主任委员唐华俊代表:为此,建议推动在农业法、乡村振兴促进法等相关法律法规中增设专章专节部署农业资源区划工作。
2026-03-09 09:27
粮食安全,是“国之大者”。3月5日提请十四届全国人大四次会议审查的“十五五”规划纲要草案提出“十五五”时期主要目标和重大任务,明确粮食综合生产能力达到1.45万亿斤左右。
2026-03-06 09:35
我国科技成果大量涌现,人形机器人大放异彩,开源大模型领跑全球,芯片攻关取得新突破,创新药迅猛发展。
2026-03-06 09:31
生态环境法典草案规定,国家根据需要在长江、黄河、青藏高原等重要流域、区域建立协调机制,统筹指导、综合协调长江、黄河、青藏高原等重要流域、区域的生态环境保护等工作。
2026-03-06 09:29
加载更多