点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《大语言模型测评分析报告》在2023世界计算大会上发布
首页> 科技频道> 综合新闻 > 正文

《大语言模型测评分析报告》在2023世界计算大会上发布

来源:光明网2023-09-19 13:12

  2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评部总经理庄金鑫发布了《大语言模型测评分析报告》。

  中国软件评测中心基于已制定的《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度,对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》。

  基础通用能力中,语言理解方面,多数大模型表现良好,能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务,准确性高、可读性强;对话问答方面,多数大模型能够正确回答百科、常识问题,并具备多轮对话能力,其中,部分大模型具备“搜索增强”功能,能够提高回答时效性、准确性;内容生成方面,各大模型能够生成各类体裁文本、生成内容可读性强,部分大模型生成的诗歌、歌词体现出对押韵的考虑;多语种交互方面,多数大模型具备较强的中英文交互能力,能较好完成翻译、跨语种文本生成、跨语种摘要等任务,部分大模型对长文本有较好支持、处理能力;逻辑推理与数学应用方面,少数模型能够正确完成部分题目;代码编程方面,部分大模型具备基本的代码编程能力,对用户意图理解到位,生成的代码的准确性、可读性较高,代码注释简练、规范。

  行业领域知识方面,各大模型基本具备各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;各大模型回答体例具有各自特点和风格,或分条论述、内容详实,或只讲要点、简明扼要;多数大模型呈现明显的“行业知识均衡”现象,即同一模型在各行业领域知识的能力表现接近。

  安全能力方面,在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。

  测评中,也发现当前国内大模型尚存在的一些不足,如部分大模型对方言语义理解欠佳,生成的书信在体例、格式、语言方面具有较浓烈的英语风格,生成内容存在“幻觉”、编造现象,数学计算常出现解题思路错误、数值计算错误,复杂代码编程能力有待提升,行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

  对此,建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力,基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性,通过融合知识图谱等手段控制减少大模型“幻觉”。

  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,持续开展测评工作,支撑和促进大模型健康发展和应用落地。(中国软件评测中心)

[ 责编:涂子怡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平接见全国群众体育先进单位、先进个人代表

  • 习近平会见国际奥委会主席考文垂和终身名誉主席巴赫

独家策划

推荐阅读
11月9日,国航C919重飞“两航起义”航线主题航班从香港飞抵天津,重温76年前“两航起义”的北飞航程,致敬“两航起义”爱国壮举。“两航”后代陈绍曾介绍,76年前,“两航起义”飞行员从香港驾驶12架飞机飞抵北京、天津,建设新中国民航事业。
2025-11-10 10:10
“超级细菌”指那些对多种抗生素具有耐药性的细菌。研究人员在一种常用药物的生产流程中意外发现一种很有前景的强效抗生素,能够杀死耐甲氧西林金黄色葡萄球菌等“超级细菌”。
2025-11-10 10:09
11月9日,2025年世界互联网大会乌镇峰会在浙江乌镇闭幕。世界互联网大会秘书长任贤良用“聚焦构建网络空间命运共同体理念”“关注创新发展热点议题”“不断擦亮峰会品牌”“持续贡献智慧力量”概括了本届峰会的特点。
2025-11-10 10:08
使用供暖设备有哪些注意事项?一起来看!
2025-11-10 10:17
我们将围绕推进新型工业化人才需求,顺应实体经济和数字经济融合发展趋势,立足产业需求侧职责定位,多措并举加快推动制造业技能人才队伍建设。深入开展产业基础再造工程、制造业数字化转型行动等,依托项目培养高技能人才。
2025-11-10 10:07
ASC26报名链接:https://www.asc-events.net/StudentChallenge/ASC26/Register.php
2025-11-07 15:58
北京时间2025年11月6日11:00—14:00,地磁发生强烈扰动,达到大地磁暴水平(Kp=7),为橙色警报级别。
2025-11-07 13:39
阿特拉斯的成功观测是天问一号的一次重要拓展任务,利用探测器观测暗弱天体为天问二号开展小行星探测进行了技术试验,积累了经验
2025-11-07 09:37
天问一号环绕器利用高分辨率相机近日成功观测到星际天体——阿特拉斯。”据介绍,天问一号探测器于2021年2月进入火星环绕轨道,迄今已稳定运行4年8个月,目前状态良好。
2025-11-07 09:31
与会嘉宾围绕“人工智能+”深度融入产业创新发展等话题进行深入探讨,凝聚产业国际合作发展共识,推动构建开放包容的人工智能产业创新生态。
2025-11-07 09:29
谈及人形机器人何时能从“炫技”转向应用落地,优必选科技副总裁焦继超提出了分阶段的发展预期。中国电子学会机器人分会青年副主任委员、乐聚智能(深圳)股份有限公司董事长冷晓琨表示,预计明年人形机器人在工业领域会出现采购交付数量过万台的企业。
2025-11-07 09:28
“十四五”时期,我们将目光投向脑疾病领域,通过脑机接口技术,实现了“诊断—监测—治疗—预测”一体的大脑实时“观景”。一方面,脑机接口技术可以让神经系统“说话”,通过高精度解码神经信号实现对大脑的“意念读取”和精准诊断。
2025-11-07 09:18
遥远恒星大气爆发活动的起源区域有哪些特征,人类至今知之甚少。但科学家们正在通过分析太阳爆发活动,探究恒星大气爆发活动的奥秘。
2025-11-06 10:35
这几年,子午工程已经有不少应用场景。例如在航天员出舱时,提前进行空间天气预报,避免在太阳风暴来临、空间有高能粒子时出舱,保护航天员健康安全。
2025-11-06 10:34
智能穿戴设备产品形态从手环、手表延伸至耳机、眼镜、戒指等形式,新供给创造新需求,改变了消费者生活方式,推动着健康管理、时尚消费与技术创新的深度融合。
2025-11-06 10:32
电动车充电慢、冬天“趴窝”、安全隐患大……这些困扰电动出行的难题,迎来了突破性解决方案。
2025-11-06 10:19
目前,我国约70%的待发现油气资源蕴藏在深层超深层、复杂构造及非常规等新领域。如何找到这些宝贵的油气资源,精准绘制“藏宝图”?
2025-11-06 10:17
天问一号环绕器利用高分辨率相机于近日成功观测到星际天体——阿特拉斯(3I/ATLAS)。其间,天问一号环绕器距离目标天体约3000万千米,是目前观测该天体距离最近的探测器之一。
2025-11-06 09:56
为确保航天员生命健康安全和任务圆满成功,经研究决定,原计划11月5日实施的神舟二十号返回任务将推迟进行。
2025-11-05 10:59
4日,国务院安委会办公室、应急管理部、国家消防救援局在京举行2025年全国消防宣传月活动启动仪式。
2025-11-05 04:20
加载更多