点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《大语言模型测评分析报告》在2023世界计算大会上发布
首页> 科技频道> 综合新闻 > 正文

《大语言模型测评分析报告》在2023世界计算大会上发布

来源:光明网2023-09-19 13:12

  2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评部总经理庄金鑫发布了《大语言模型测评分析报告》。

  中国软件评测中心基于已制定的《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度,对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》。

  基础通用能力中,语言理解方面,多数大模型表现良好,能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务,准确性高、可读性强;对话问答方面,多数大模型能够正确回答百科、常识问题,并具备多轮对话能力,其中,部分大模型具备“搜索增强”功能,能够提高回答时效性、准确性;内容生成方面,各大模型能够生成各类体裁文本、生成内容可读性强,部分大模型生成的诗歌、歌词体现出对押韵的考虑;多语种交互方面,多数大模型具备较强的中英文交互能力,能较好完成翻译、跨语种文本生成、跨语种摘要等任务,部分大模型对长文本有较好支持、处理能力;逻辑推理与数学应用方面,少数模型能够正确完成部分题目;代码编程方面,部分大模型具备基本的代码编程能力,对用户意图理解到位,生成的代码的准确性、可读性较高,代码注释简练、规范。

  行业领域知识方面,各大模型基本具备各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;各大模型回答体例具有各自特点和风格,或分条论述、内容详实,或只讲要点、简明扼要;多数大模型呈现明显的“行业知识均衡”现象,即同一模型在各行业领域知识的能力表现接近。

  安全能力方面,在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。

  测评中,也发现当前国内大模型尚存在的一些不足,如部分大模型对方言语义理解欠佳,生成的书信在体例、格式、语言方面具有较浓烈的英语风格,生成内容存在“幻觉”、编造现象,数学计算常出现解题思路错误、数值计算错误,复杂代码编程能力有待提升,行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

  对此,建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力,基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性,通过融合知识图谱等手段控制减少大模型“幻觉”。

  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,持续开展测评工作,支撑和促进大模型健康发展和应用落地。(中国软件评测中心)

[ 责编:涂子怡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 新疆阿禾公路正式通车

  • 新生代科研力量助推人形机器人加速成长

独家策划

推荐阅读
屠光绍认为,金融机构在应用人工智能时必须在服务投资人与消费者之间寻求平衡,避免AI鸿沟,坚守金融服务大众的初心。鲍建敏倡导构建产学研深度融合、开放共赢的人工智能金融生态体系,搭建跨机构、跨领域的协同创新平台。
2025-07-01 10:13
6月30日,2025温布尔登网球锦标赛在英国伦敦拉开大幕,引发球迷关注。在草地球场,球的速度更快且弹跳不规则,比赛回合较短,发球就成为球员们的重要“武器”。红土球场并不是天然土壤,而是分层分布着碎砖粉、白色碎石灰石、碎石等。
2025-07-01 10:09
7月1日起,医保定点医药机构在销售药品时,必须按要求扫药品追溯码后方可进行医保基金结算;2026年1月1日起,所有医药机构都要实现药品追溯码全量采集上传。步,进入国家医保局微信公众号主页,点击服务、药品追溯信息查询,进入查询页面;或进入国家医保局微信公众号消息对话页,点击医保服务、药品追溯信息查询,进入查询页面。
2025-07-01 10:09
记者从国家航天局获悉,7月1日,该局发布行星探测工程天问二号探测器在轨获取的地月影像图。(国家航天局供图)  月球全色图,由天问二号探测器的窄视场导航敏感器于2025年5月30日15时拍摄,经辐射校正处理后制作而成。
2025-07-01 10:08
龙芯中科近日正式发布基于国产自主指令集龙架构研发的服务器处理器龙芯3C6000系列芯片、工控领域及移动终端处理器龙芯2K3000/3B6000M芯片以及相关整机和解决方案。
2025-07-01 10:06
四大家鱼,即青鱼、草鱼、鲢鱼、鳙鱼,是我国重要的经济鱼类,占淡水鱼类养殖总量的“半壁江山”,尤以长江流域所产鱼品质最优。但人工养殖久了,鱼类品质逐渐下降,需要捕捞野生鱼种来更换,确保鱼类种质“基因库”稳定。
2025-06-30 04:50
FAST如今每天观测时长接近24小时,每年总观测时长超过5300小时,持续不断地为科学家提供宝贵的数据。
2025-06-30 09:52
华南农业大学积极探索应用大数据、人工智能等技术加速育种创新,“华航香银针”就是创新成果之一。
2025-06-30 09:51
在近日落下帷幕的第十五届全国周培源大学生力学竞赛中,一位特殊的“考生”吸引了人们目光。
2025-06-30 09:51
6月29日,在海南文昌卫星超级工厂项目建设现场,各方正全力以赴加快工厂投产进程。
2025-06-30 09:51
作为一所工科见长的大学,近年来,山东科技大学涌现出一批热衷文化艺术的学生:材料学院研究生庄英赞受邀参加《声声入戏——中央广播电视总台首届京剧票友大会》节目;
2025-06-30 04:50
今年“三夏”生产,该农场配备无人驾驶系统的收割机和拖拉机、气吸播种机、精准水肥轮灌系统、自动巡田无人机等智能化装备大显身手。
2025-06-27 10:25
6月24日,国家重大科研仪器研制项目“2.5米大视场高分辨率太阳望远镜”(WeHoST)在四川稻城启动建设配套项目,预计2027年望远镜完成装调并投入试运行。
2025-06-27 10:24
古生物研究表明,包括早期犬齿兽在内的一些远古动物,脑袋为一个没有左右脑半球区分的整体,而现生哺乳动物和典型的进步颌兽类则有左右两个脑半球。
2025-06-27 10:18
6月26日21时29分,经过约6.5小时的出舱活动,神舟二十号乘组航天员陈冬、陈中瑞、王杰密切协同,在空间站机械臂和地面科研人员的配合支持下,圆满完成既定任务。
2025-06-27 10:17
北京大学马丁教授团队26日凌晨在国际学术期刊《自然》上发表一项开创性研究,成功将复杂难处理的混合废塑料变废为宝,为根治全球塑料污染顽疾提供了新的思路。
2025-06-27 10:16
近日,一组“清华学生戴头套看演出”的照片在网络引发热议。脑机接口技术的应用还面临社会伦理与隐私保护方面的争议,如何平衡科学技术创新与社会伦理、监管要求等仍是难题。
2025-06-27 10:15
据中国载人航天工程办公室消息,根据计划安排,神舟二十号航天员乘组将于近日择机实施第二次出舱活动。目前,空间站组合体运行稳定,神舟二十号航天员乘组在轨工作已满两个月,身心状态良好,已做好出舱活动各项准备工作。
2025-06-26 09:48
6600万年前,希克苏鲁伯小行星撞击地球导致非鸟类恐龙灭绝,而就在撞击点附近,一种神秘的夜蜥蜴可能是唯一幸存下来的陆生脊椎动物。白垩纪末期,一颗巨型小行星撞击了墨西哥尤卡坦半岛附近的区域,形成了一个直径超过150公里的陨石坑,导致全球大多数动植物物种灭绝。
2025-06-26 09:47
在全球面临日益严峻的生态危机之际,中国科学院院士、中国科学院生态环境研究中心研究员傅伯杰等提出了一个衡量人与自然共同繁荣程度的全球框架。论文合作作者、联合国开发计划署人类发展报告办公室主任Pedro Conceicao表示,面对当今严峻的地球系统变化,我们必须把人与自然健康、互惠的关系纳入发展愿景。
2025-06-26 09:46
加载更多