点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:NLP新基准SuperGLUE榜单刷新 追一科技超Facebook
首页> 科技频道> 人工智能 > 正文

NLP新基准SuperGLUE榜单刷新 追一科技超Facebook

来源:消费日报网2020-01-20 14:33

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  近日,自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一,中国AI创业公司追一科技AI Lab团队超越FacebookAI,跃居榜单第二。值得注意的是,相比谷歌T5等超大规模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲,相关技术已经落地到追一科技的AI数字员工产品线上,持续赋能银行、保险、证券、零售、地产、能源,教育,互联网等多个行业。

  追一科技跃居SuperGLUE测试榜第二

  SuperGLUE(SuperGeneral Language Understanding Evaluation)是当下NLP领域难度最大,权威性最高,含金量最足的测评标准之一,由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出,最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务,旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。

  追一科技在为企业提供智能交互服务的过程中,技术和应用互相驱动,将实际商业化应用中总结出的多任务学习、对抗训练、知识蒸馏等技术手段和经验融入到参赛模型中,并在SuperGLUE测评数据集上拿到第二的成绩。

  除去作为参照的人类水平,目前排名榜单第一的是Google的T5模型。从学术研究看,T5模型达到了目前“实验室智能”的最好水平,但如果考虑商用,T5需要耗费大量的算力,且模型自身体积过于庞大,目前还不能落地到实际业务场景中,缺少实际的商业应用价值。

  而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式,使得RoBERTa-mtl-adv模型大小合理,效果仅次于Google的T5。同时,相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言,可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好,排名最高。

  “学霸”模型的商业化能力

  SuperGLUE测试项目并非是“花拳绣腿”,而是实实在在考验模型通用能力的“铁人三项”;参加SuperGLUE也并非只是为了刷新评分,更重要的是检验当前技术能否很好地落地到实际应用场景中去。

  SuperGLUE覆盖了问答、推断、语义理解、常识判断等自然语言理解维度,是人机智能交互过程中的核心环节,在具体的业务场景中都有很重要的应用价值。追一科技此次参赛模型的相关NLP技术已经被成熟运用于到自主研发的全套AI数字员工产品线上,广泛服务于银行、保险、泛互联网、地产、政企等多个行业的标杆客户。例如,在追一科技的智能在线机器人Bot中就融入了多轮问答技术、语义检索、机器阅读理解技术等NLP技术,能准确识别用户意图,满足用户需求。

  口说无凭,接下来就结合SuperGLUE中的任务与Bot的具体案例,一探虚实。

  单/多轮问答技术是指机器人和用户之间一问一答,实现多轮对话的过程。例如下面这个智能在线机器人Bot服务餐饮行业的场景:

  智能在线机器人Bot不仅可以从对话中准确识别出地点,人数等信息,还能进一步追问用户未给出的“用餐时间”的信息,满足客户的需求。而传统的客服机器人并不会对未给出的潜在信息做出反应。

  机器阅读理解技术在于机器人去“用力”理解文档中内容的意思,从而根据用户需求输出相应的结果。例如在金融保险领域会涉及到大量保险业务文档的修订、新增等情况。在面对客户时,即使是富有经验的客户经理,往往也很难迅速结合所有新增的文档内容进行有效回答。这时,定制了阅读理解技术的智能在线机器人Bot就又可以发挥作用了——可以实时帮助业务人员,针对相关问题从新文档中提取出答案,解决问题,降低出错的概率。

  自然语言推断任务中“文本蕴含”是常出现的形式,在实际用语中非常的普遍,参考下面这个银行领域的例子:

  因为白金信用卡属于信用卡,因此“我的白金信用卡需要挂失”蕴含在“我的信用卡需要挂失”中,因此,智能在线机器人Bot 在回答用户时只需准确指引用户如何挂失信用卡即可。

  指代消解在人的交流过程中非常常见,在表达中适当地使用指代会让表达更加简练却不影响本意的阐述。如下面这个出行领域的例子:

  智能在线机器人Bot理解了客户问句里的“上次”其实指代的是“上次中途取消订单”,所以立马给出了正确回复。

  然而,最难为机器人的是常识推断,对语言的理解离不开对常识的掌握。举这么一个例子:

  机器人需要具备“影子是由太阳升起照射留下的”这样的常识性推断,才能正确的选择答案。对于人来说,这些常识很简单,但是对于机器来说,大量的这种常识知识都潜藏在我们意识的深处,AI系统的研究者几乎不可能把所有这样的常识都总结出来,并灌入到系统中,所以机器人在该数据集的表现往往不尽如人意。

  落地到现实场景中,比如我们可以对智能在线机器人Bot说“我银行卡弄丢了”,Bot就会询问你是否需要挂失。因为它具备了“弄丢银行卡需要挂失”这样的业务常识。

  可以看到,真实的交互场景中模型需要对语言的不同维度都具有理解能力才能完全正常流畅的对话。而上述的几个例子中的问题形式都很好地包含在了SuperGLUE的不同数据集中,因此,此次追一科技在SuperGLUE测评指标上获得的成绩,不仅是对其RoBERTa-mtl-adv模型在理解自然语言技术上的一个肯定,还验证了“技术驱动应用,应用导向技术”策略的可行性,更加坚定了追一科技继续深耕技术,持续用AI赋能百业的信念。(一鸣)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 大陆海事部门在台湾海峡西侧水域开展联合巡航

  • 陕西清涧寨沟遗址

独家策划

推荐阅读
万兆元年,谁来领航?是更智慧AI,是更领先的Advance,是刷新极限的速度,还是升级多维的体验?中国移动5G-A商用发布会,重新定义数智新时代,邀您共同见证!3月28日15:00-16:00
2024-03-28 12:36
作为中国大科学装置之一,高能同步辐射光源是由中国科学院、北京市共建的怀柔科学城大科学装置集群的核心装置。
2024-03-28 09:54
2022年8月15日,国际天文学联合会小天体命名工作组发布公告,将国际永久编号为192353号的小行星命名为“王大中星”。围绕大学的根本任务是育才造士这一核心要义,王大中归纳并紧抓建设一流大学的三大要素:大师、大楼和大学精神。
2024-03-28 09:34
坎潘特强调,最新观测表明,精确的星震学技术可用于探测表面温度低至4200℃(比太阳表面低约1000℃)的矮星,为天体物理观测开辟了一个新领域。这一最新结果表明,星震学技术有望详细表征这些恒星及其宜居行星的细节,而精确确定附近冷矮星的年龄对于阐释系外行星上发现的生物特征可能至关重要。
2024-03-28 09:33
记者从自然资源部3月27日召开的例行新闻发布会上获悉:今年是极地考察40周年,自然资源部将开展一系列活动纪念这一重要时间节点。7月北极黄河站建站20周年时,在黄河站举办招待会、研讨会等相关活动,中国第四十一次南极考察期间将在长城站、中山站举行招待会、研讨会等相关活动,“雪龙”号、“雪龙2”号船停靠外港时举行公众开放日活动。
2024-03-28 09:32
联合国教科文组织执行局27日批准18处地质公园列入世界地质公园网络名录,其中包括中国的6个地质公园,分别是长白山世界地质公园、恩施大峡谷-腾龙洞世界地质公园、临夏世界地质公园、龙岩世界地质公园、武功山世界地质公园、兴义世界地质公园。
2024-03-28 09:31
据介绍,除了服务于中国探月工程四期,后续鹊桥二号中继星还可为国内外月球探测提供中继通信支持。
2024-03-28 09:25
涂白防虫、修剪树枝、引水灌溉……每当春天到来,在祖国西北边陲新疆托里县老风口,生态造林工作就紧锣密鼓地开始了。
2024-03-27 10:22
今年我国纪念“世界水日”“中国水周”的活动主题为“精打细算用好水资源,从严从细管好水资源”。
2024-03-27 10:21
在齐齐哈尔市甘南县宝山乡巨宏村,村民苑忠国正在准备春耕,多年来通过参与县里的培训,春耕物资的采购对他来说已是轻车熟路。
2024-03-27 10:20
在开展调查监测,评估新污染物环境风险状况方面,《行动方案》提出建立化学物质环境信息调查制度、建立新污染物环境调查监测制度、建立化学物质环境风险评估制度、动态发布重点管控新污染物清单等具体措施。
2024-03-27 10:18
一群“麦哲伦”式的实验物理学家正在高能物理的版图上开疆拓土。而玻色子的发现,正在指向新的“盛宴”。
2024-03-27 10:16
作为古生物学家,徐星是中国科学院院士、中国科学院古脊椎动物与古人类研究所研究员,同时也是云南大学教授,主要从事中生代陆相脊椎动物化石及地层学研究。
2024-03-27 10:15
近期,12P/Pons-Brooks彗星(以下简称12P彗星)成为全球瞩目的对象,我国不少天文爱好者成功观测并拍摄到这位“天外来客”。
2024-03-26 03:25
日前,中办、国办印发《关于加强生态环境分区管控的意见》(以下简称《意见》),明确提出到2025年,生态环境分区管控制度基本建立,全域覆盖、精准科学的生态环境分区管控体系初步形成。
2024-03-26 03:20
眼下正值春耕备耕的关键阶段,突如其来的天气变化,是否会对春耕、农作物造成影响?
2024-03-26 10:16
3月24日是世界防治结核病日。南开大学饶子和院士团队与上海科技大学免疫化学研究所张璐研究员团队合作,首次揭示了抗结核新靶标Rv3806c的冷冻电镜三维结构。
2024-03-26 10:16
25日,中国海油发布消息,我国在渤海超5000米的地层钻探发现一口高产油气井,测试日产油气当量近1400立方米,创造了我国海上深层油气探井日产最高纪录。
2024-03-26 10:15
“绝对安全”的通信是千百年来人类的梦想之一,从摩斯电码到电报、传真,从移动电话到网络通信,通信技术的发展同时带来了各类安全隐患,与通信安全相关的技术一直是科技界、产业界的重点攻关方向。
2024-03-25 10:47
记者从中国科学院近代物理研究所获悉,该所研制的中国超重元素研究加速器装置(CAFE2)取得重大突破,成功实现了14.8粒子微安流强、224兆电子伏能量的束流在靶稳定运行,创造了国际同类装置运行束流参数的最高流强纪录。
2024-03-25 10:07
加载更多