点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:飞桨助力OpenKS知识计算引擎开源项目建设
首页> 科技频道> 综合新闻 > 正文

飞桨助力OpenKS知识计算引擎开源项目建设

来源:浙江日报/中华网2021-04-25 16:37

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  4月24日,浙江大学召开OpenKS(知目)知识计算引擎开源项目发布会,宣布浙大与合作单位研发的OpenKS知识计算引擎取得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,是我国在大数据人工智能方向的又一次有益尝试。

  “可泛化的领域知识学习与计算引擎”是以庄越挺教授作为首席科学家的科技创新2030“新一代人工智能”首批重大项目,该项目由浙江大学牵头,联合北京大学、北京航空航天大学、哈尔滨工业大学、西北工业大学、之江实验室等顶尖学术机构、百度等行业领军企业联合建设,旨在建立一整套可服务于知识密集型行业共性需求的知识计算工具、算法与系统,帮助这些行业快速地构建行业知识图谱,提供行业相关的智能规划与决策支持。经过各课题组的深入研究和课题间的紧密协作,共同研发了可用于支撑各行业知识服务系统构建的OpenKS知识计算引擎算法库。

  OpenKS基于百度飞桨,可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。OpenKS集成大量算法和解决方案,提供了一系列知识学习与计算的多层级接口标准,可供各机构研发人员以统一的形式进行算法模型研究成果的封装、集成与服务,并通过开源机制支持企业和社区开发者根据不同的场景需求对接口服务进行调用和进一步开发。各行各业可以选择引擎中的算法,快速地搭建行业系统应用,以应对多变的决策需求。当行业与需求发生变化,系统能够及时地提供算力、算法支撑,以缩短行业智能化改造的时间。

  以工程科技教育行业为例,目前我国存在很大的工程人才缺口,然而工程科技门类众多、知识体系繁复、知识点之间关联复杂、教材层次各异导致自学门槛较高。不仅如此,学生背景各异、学习目的各异,也导致统一培训效率较低。OpenKS知识计算引擎包含的知识抽取算法API、知识表征学习API、分布式知识计算API、知识图谱应用API等可为工程科教行业构建知识图谱,并基于图谱为不同学生设计个性化教育路线,满足差异化学习的需要。

  深度学习框架助力OpenKS智能化加速

  知识图谱技术的研发应用需要海量数据、庞大算力以及复杂的模型算法,而构建知识图谱底层平台所需的技术要求高、周期长、投入大、收益慢。基于深度学习框架开展人工智能科学实验或产品研发,则可以避免在知识图谱系统搭建中重复造轮子。

  百度飞桨自2016年开源,是我国首个自主研发、功能完备、开源开放的产业级深度学习平台。基于百度飞桨平台,OpenKS可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。

  飞桨助力OpenKS实现模型大规模分布式训练

  面对超大规模知识图谱训练,随着图谱规模增大,数据量增多,对训练框架要求越来越高。针对分布式知识计算,OpenKS系统采用飞桨超大规模深度学习模型训练技术,支持百亿图谱分布式存储和检索,还支持百节点数据并行训练万亿稀疏参数,进而学习大规模的知识图谱。

  针对知识图谱应用,如知识问答,模型比较复杂,OpenKS采用飞桨集合通信多机多卡训练;知识推荐任务,训练数据比较大,稀疏特征比较多,OpenKS除了采用飞桨万亿稀疏参数服务器外,随着模型越来越复杂,还引入纯GPU参数服务器来提升稀疏模型的计算性能,把100台CPU机器才能训练的模型只用1台多卡GPU设备即可完成训练,不仅节约了成本,还保障了集群的稳定性和扩展性。同时,在知识图谱应用场景里,如知识图谱问答和推荐,飞桨不仅提供了相应的算法,还针对推荐场景提供了工业级数据处理和万亿稀疏模型训练能力。

  考虑到在纯GPU的参数服务器下,当模型网络层比较复杂时,GPU利用率很难被打满,飞桨框架2.0版又创新性地推出了业内首个通用异构参数服务器功能,可以同时使用不同的硬件进行混合异构训练,兼容了多款CPU、AI专用芯片(如百度昆仑XPU)、GPU(如V100、P40、K40),让用户可以在硬件异构集群中部署分布式训练任务,实现对不同算力芯片高效利用,为用户提供更高吞吐、更低资源消耗的训练能力。

  对于大规模稠密参数模型,飞桨分布式训练技术同样与业务紧密结合,通过模型并行策略、分组参数切片组合、流水线并行策略和数据并行策略的多层叠加,发挥合力作用,诞生了业内第一个4D混合并行策略。通过测试验证,如此创新性提出的4D混合并行策略的训练速度的确高于3D混合并行策略,进一步优化训练性能和显存占比,再次走到了技术的前沿。

  飞桨PGL助力OpenKS实现图计算

  针对图学习算法通用性与性能兼顾的挑战,OpenKS以飞桨图学习PGL作为知识表示学习以及知识存储的重要模块之一。在知识图谱表征学习中,需要在线高性能图引擎查询,因此会面对大规模异构关系存储以及在线高性能查询问题,OpenKS采用PGL的大规模分布式异构图引擎来进行知识表征学习的在线服务,来支撑日益增长的知识关系。

  此外,高效的图神经网络算法,也是知识图谱先进性的保证,PGL是业界首个提出通用消息并行传递机制的图神经网络框架,原生支持异构图消息传递聚合等多种功能,并内置多种高效图神经网络模型。因此,OpenKS项目中集成了PGL的GCN、TransE、TransR等多种图表征学习算法,并且同时采用了PGL的高效消息传递接口作为图神经网络的编程接口之一。

  百度飞桨深度学习平台于2019年开源的分布式图学习框架PGL,是业界首个提出通用消息并行传递机制,支持百亿规模巨图的工业级图学习框架。原生支持图学习中较为独特的分布式图存储(Distributed Graph Storage)和分布式采样(Distributed Sampling),可以方便地通过上层Python接口,将图的特征(如Side Feature等)存储在不同的Server上,也支持通用的分布式采样接口,将不同子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成分布式训练(Distributed Training),实现在大规模图学习分布式的上加速计算。

  PGL基于飞桨动态图全新升级,极大提升了易用性,原生支持异构图,覆盖30+图学习模型,包括图语义理解模型ERNIESage等,历经大量真实工业应用验证,可全流程服务产业应用项目,为开发者提供充分的实践案例投射进行技术选型。另外,基于飞桨深度学习框架的分布式Fleet API,建立分布式图存储及分布式学习算法,可实现灵活、高效地搭建前沿的大规模图学习算法。

  展望

  未来,在充满了机遇与挑战的大时代背景中,飞桨将持续在技术上不断创新进步,探索分布式训练技术等的边界,扩展AI赋能的领域,与开发者共同成长进步,为产学研智能化进程贡献着自己的力量。(辛文)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 我国成功发射通信技术试验卫星十九号

  • 流淌千年的大运河成为“致富河”

独家策划

推荐阅读
近日,多奈单抗注射液在首都医科大学宣武医院开出全国首方,引发广泛关注。
2025-05-13 09:55
这场堪称检验船舶前期设计建造工程的“期中考”,将进一步验证大型邮轮在设计、工艺、生产准备、总装建造等阶段所取得的一系列重大科研成果。
2025-05-13 09:28
农业农村部的数据显示,我国农作物秸秆产生量逐年递增,目前全国农作物秸秆产生量为8.67亿吨,可收集量为7.33亿吨,秸秆综合利用率达88.3%。
2025-05-13 09:26
近年来,应急管理部会同相关部门统筹推动全国应急避难场所的建设和发展。
2025-05-13 09:25
东北大学数字钢铁全国重点实验室,是致力于我国钢铁行业“由大到强”的科技“领跑者”。
2025-05-13 09:23
记者从中国航天科技集团获悉,5月11日21时27分,长征六号甲(又名长征六号改)运载火箭在太原卫星发射中心点火起飞,成功将遥感四十号02组卫星发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2025-05-12 10:15
人们常说,人类对火星表面的了解甚至超过对地球海底的认知。研究团队收集了约4.4万次深海潜航的数据,包括载人深潜器、遥控及自主潜水器的作业记录,并据此绘制了一张潜航活动分布图。
2025-05-12 10:12
人工智能(AI)研究人员创建了一个能够自主进行天体生物学研究的系统——AstroAgents,用于研究宇宙生命学科的起源。
2025-05-12 10:10
作为新一轮科技革命和产业变革的重要驱动力量,人工智能发展在发挥多方面积极作用的同时,也面临着安全风险等一系列问题。
2025-05-12 10:05
5月8日,第27届中国北京国际科技产业博览会在国家会议中心正式开幕。
2025-05-12 10:02
“君子慎独,不欺暗室。”坚守学术诚信,是科学研究的基本要求,也是科研人员安身立命之本
2025-05-10 22:50
国家安全是安邦定国的重要基石,与我们每一个公民都息息相关。一些看似微不足道的行为,都有可能像蚁穴溃堤般,引发一系列连锁反应,威胁国家安全。
2025-05-10 14:22
满场跑的人形机器人,能透视的眼科手术设备,可诊疗阿尔茨海默病的大脑“地图”……昨天开幕的北京科博会如同北京未来产业新成果的全景展示。
2025-05-09 17:21
近日,某医院护士2017年发表的一篇论文引起广泛关注——其中不仅惊现“男性患子宫肌瘤”,还煞有介事地介绍对照组患者中“男27例”“女13例”。
2025-05-09 13:05
虽然名字中有熊又有猫,但是大熊猫的生活习性、身体特征、食性等方面都与猫科动物相差甚远;随着分子生物学发展,研究者认为大熊猫应属于熊科成员。
2025-05-09 09:48
糖在激活味蕾的同时,给公众健康带来了负面影响。而糖究竟是如何“诱惑”人类味觉的一直是个谜。
2025-05-09 09:46
香港中文大学教授张立团队联合深圳大学副教授王奔、中国科学院深圳先进技术研究院研究员徐天添等科研人员,成功研发全球首个磁控血液凝胶纤维机械人,有效实现颅内肿瘤精准治疗。
2025-05-09 09:45
近年来,《流浪地球》《独行月球》《问天》等国产影视作品受到观众喜爱,这正是航天科普与文艺跨界融合的结果。
2025-05-09 09:38
从进入隐生状态,到覆盖上冰膜,再到电子束攻击,其中的每个步骤,实验人员都需要保护好水熊虫。
2025-05-09 09:35
美国哈佛大学肯尼迪政府学院7日发表公报说,该院前院长、美国知名政治学者、“软实力”概念提出者约瑟夫·奈6日去世,享年88岁。
2025-05-08 12:55
加载更多