点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:还在滑动鼠标找答案?自然语言处理技术助力实现“即问即答”
首页> 科技频道> 互联网 > 正文

还在滑动鼠标找答案?自然语言处理技术助力实现“即问即答”

来源:中华网2020-10-22 14:13

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  人工智能自然语言处理领域的开放域问答技术在智能搜索、智能助手、智能客服等多个场景下,都发挥着重要作用。特别是近些年,随着各种智能手机、智能音箱的普及,智能搜索快速进化,可以帮助用户在这些小屏和无屏设备上更快速、准确的获取有用信息。

  近日,百度提出RocketQA,一种面向端到端问答的检索模型训练方法,助力机器问答理解技术迈出突破一步,推动了智能问答领域技术发展。该方法不仅在多个问答相关数据集中取得了当前最佳结果,同时也超越谷歌、微软、脸书、阿里、美团、卡内基梅隆大学、清华大学等企业和高校,问鼎微软MSMARCO数据集段落排序任务榜首。

还在滑动鼠标找答案?自然语言处理技术助力实现“即问即答”

  (微软MSMARCO数据集排行榜截图)

  据了解,微软MSMARCO数据集是微软提出的大规模的面向问答的数据集,不仅规模大,而且贴近真实场景,包含约100万问题、880万相关段落以及人工标注的问题答案。RocketQA在其中的脱颖而出,正显示了百度在模型检索能力方面的领先实力。

  百度RocketQA训练方法是一种对偶式检索模型增强训练方法,并基于百度自研的语义理解技术与平台文心(ERNIE)进行训练,大幅提升了对偶式检索模型的效果。所谓对偶式检索模型,是一种区别于传统的检索模型的基于深度语义表示的模型,能够利用强大的网络结构进行更深层次的学习,同时基于预训练语言模型,使语义理解更加丰富。然而在检索问答场景上,该模型的表现仍有欠缺,其训练仍然存在着,诸如训练场景和预测场景中样本数量差异较大、数据集中存在大量漏标注的正确答案、人工标注训练数据相对规模小成本大等问题和挑战。

  针对对偶式检索模型训练中存在的问题和挑战,百度RocketQA通过跨批次负采样(cross-batch negatives)、去噪的强负例采样(denoised hard negative sampling)与数据增强(data augmentation)等3项技术,解决了上述问题和挑战,从而使得对偶式检索模型效果大幅提升。在实现RocketQA的过程中,这3项技术处于层层递进的关系,最终合成一套。同时,实现过程中还使用了百度文心(ERNIE)初始化模型参数。

  实验结果也显示,RocketQA在微软MSMARCO和谷歌Natural Question数据集的效果均大幅超过了已经发表的最好的检索模型。同时在答案抽取任务上,百度RocketQA检索结果的有效性也得以验证。

还在滑动鼠标找答案?自然语言处理技术助力实现“即问即答”

  (RocketQA在微软MSMARCO和谷歌Natural Questions数据集上段落检索的效果)

  此外,百度RocketQA的提出,更代表着向实现“端到端问答”迈出的重要一步。不同于传统的级联式问答系统,“端到端问答”摒弃了传统系统中繁杂的构件,系统复杂性大大降低,并且其中每个模块(段落检索和答案定位)都是可学习的,这样的设计能够让整个系统实现端到端训练。从而能够基于用户实时的反馈实现在线训练,而不是只在封闭的数据集上闭门造车。正是基于上述优异性,端对端回答成为智能问答技术的发展趋势,甚至可能会引发问答系统的新一代技术变革。而百度RocketQA正是面向端对端回答方向,在优化解决对偶式检索模型训练中存在的,诸如训练、预测场景样本数量差异较大,人工标注规模小、成本高等问题之后,并取得MSMARCO榜首的好成绩,为“端对端回答”攻下一城。

  实际上,在研发算法的过程中,高性能的并行训练也必不可少,它是研发人员快速尝试各种想法的利器。百度RocketQA的实现即完全基于飞桨深度学习框架。据相关资料显示,百度研究人员在使用飞桨分布式训练API(paddle.distributed.fleet)进行训练的同时,也采用了飞桨分布式训练扩展工具FleetX。前者是百度飞桨新API体系下的通用分布式训练API,其提供的经典数据并行训练方案能够大幅提升试验效率;后者是百度飞桨框架分布式训练扩展工具,提供数据分片并发下载、快速定义模型、快速提交集群任务等功能,能够实现了研发人员的使用效率的极大提升。

  目前,RocketQA已逐步应用在百度搜索、广告等核心业务中,并将在更多场景中发挥作用。以百度搜索为例,可以感受一下问答技术在实际应用中对于用户体验的改变。比如,当我们在使用搜索引擎查询问题时,总是期望能第一时间得到更精准的回应。如果说传统的搜索总是给出可能的十条链接作为回答,那么,基于问答技术,问答结果得以优化,答案界面正在发生这样的变化:唯一的精准答案被直接给出,信息的获取更快速准确。

还在滑动鼠标找答案?自然语言处理技术助力实现“即问即答”

  (百度搜索的TOP1结果:将问题的答案展现在搜索结果的首位,提升用户体验)

  正如上图所显示,当我们在百度搜索框输入诸如“佩奇是公猪还是母猪”的问题后,界面第一条即会已卡片形式直接给出“女生”的答案,第二条开始才是之前所熟悉的链接形式。这样一来,问与答之间的效率会大幅提升,用户能够第一时间得到自己想要的答案,从而提升用户使用体验。在有了RocketQA的大规模应用后,百度搜索的TOP1结果会更好。(一鸣)

 

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 彭丽媛会见德国伯乐中文合唱团师生代表

  • 明前茶飘香

独家策划

推荐阅读
人工智能可以取代人力勾绘农作物地块,快速完成耕地识别,工作效率相比人工作业提升数十倍。在他看来,我国在星上智能处理和地面遥感AI大模型技术上同步发力,推进人工智能遥感技术发展,太空中的卫星将变得越来越“聪明”。
2024-03-29 09:36
3月27日发表于《自然》的一项分析预测,融化的冰盖正在减缓地球的自转速度,以至于下一个闰秒将被推迟3年。论文作者之一、美国斯克里普斯海洋研究所地球物理学家Duncan Agnew说:“融冰足以使海平面上升,以至于我们可以看到地球自转速度受到了影响。
2024-03-29 09:33
胡新立表示,研究团队将进一步探讨生理性乳酸水平变化对机体代谢的意义,以及恶病质中骨骼肌萎缩与乳酸的直接关系。
2024-03-29 09:31
近日,日本小林制药保健品事件持续发酵。小林制药此前表示,该公司的红曲原料中可能含有导致消费者出现肾功能不良状态的非预期成分。小林制药出产的红曲原料除用于自家生产保健品外,还出售给其他公司,用于酿酒及食品制造等。
2024-03-29 09:22
朱雀三号可重复使用垂直起降回收验证火箭在酒泉卫星发射中心圆满完成试验任务。2023年12月,蓝箭航天朱雀二号遥三液氧甲烷运载火箭在酒泉发射中心圆满完成发射任务,将三颗商业卫星顺利送入预定轨道。
2024-03-29 09:30
记者28日从南京大学获悉,由该校物理学院杜灵杰教授领衔的国际团队利用极端条件下的偏振光散射技术,在砷化镓量子阱中对分数量子霍尔效应的集体激发进行了测量,在世界上首次观察到引力子激发,即引力子在凝聚态物质中的新奇准粒子。
2024-03-29 08:38
世界卫生组织27日发布新闻公报说,已启用“冠状病毒网络”(CoViNet),以促进和协调全球的专业知识和能力,及早准确地检测、监测和评估新冠病毒、中东呼吸综合征冠状病毒和其他可能新出现的冠状病毒。
2024-03-29 08:38
万兆元年,谁来领航?是更智慧AI,是更领先的Advance,是刷新极限的速度,还是升级多维的体验?中国移动5G-A商用发布会,重新定义数智新时代,邀您共同见证!3月28日15:00-16:00
2024-03-28 12:36
作为中国大科学装置之一,高能同步辐射光源是由中国科学院、北京市共建的怀柔科学城大科学装置集群的核心装置。
2024-03-28 09:54
2022年8月15日,国际天文学联合会小天体命名工作组发布公告,将国际永久编号为192353号的小行星命名为“王大中星”。围绕大学的根本任务是育才造士这一核心要义,王大中归纳并紧抓建设一流大学的三大要素:大师、大楼和大学精神。
2024-03-28 09:34
坎潘特强调,最新观测表明,精确的星震学技术可用于探测表面温度低至4200℃(比太阳表面低约1000℃)的矮星,为天体物理观测开辟了一个新领域。这一最新结果表明,星震学技术有望详细表征这些恒星及其宜居行星的细节,而精确确定附近冷矮星的年龄对于阐释系外行星上发现的生物特征可能至关重要。
2024-03-28 09:33
记者从自然资源部3月27日召开的例行新闻发布会上获悉:今年是极地考察40周年,自然资源部将开展一系列活动纪念这一重要时间节点。7月北极黄河站建站20周年时,在黄河站举办招待会、研讨会等相关活动,中国第四十一次南极考察期间将在长城站、中山站举行招待会、研讨会等相关活动,“雪龙”号、“雪龙2”号船停靠外港时举行公众开放日活动。
2024-03-28 09:32
联合国教科文组织执行局27日批准18处地质公园列入世界地质公园网络名录,其中包括中国的6个地质公园,分别是长白山世界地质公园、恩施大峡谷-腾龙洞世界地质公园、临夏世界地质公园、龙岩世界地质公园、武功山世界地质公园、兴义世界地质公园。
2024-03-28 09:31
据介绍,除了服务于中国探月工程四期,后续鹊桥二号中继星还可为国内外月球探测提供中继通信支持。
2024-03-28 09:25
涂白防虫、修剪树枝、引水灌溉……每当春天到来,在祖国西北边陲新疆托里县老风口,生态造林工作就紧锣密鼓地开始了。
2024-03-27 10:22
今年我国纪念“世界水日”“中国水周”的活动主题为“精打细算用好水资源,从严从细管好水资源”。
2024-03-27 10:21
在齐齐哈尔市甘南县宝山乡巨宏村,村民苑忠国正在准备春耕,多年来通过参与县里的培训,春耕物资的采购对他来说已是轻车熟路。
2024-03-27 10:20
在开展调查监测,评估新污染物环境风险状况方面,《行动方案》提出建立化学物质环境信息调查制度、建立新污染物环境调查监测制度、建立化学物质环境风险评估制度、动态发布重点管控新污染物清单等具体措施。
2024-03-27 10:18
一群“麦哲伦”式的实验物理学家正在高能物理的版图上开疆拓土。而玻色子的发现,正在指向新的“盛宴”。
2024-03-27 10:16
作为古生物学家,徐星是中国科学院院士、中国科学院古脊椎动物与古人类研究所研究员,同时也是云南大学教授,主要从事中生代陆相脊椎动物化石及地层学研究。
2024-03-27 10:15
加载更多