点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《大语言模型测评分析报告》在2023世界计算大会上发布
首页> 科技频道> 综合新闻 > 正文

《大语言模型测评分析报告》在2023世界计算大会上发布

来源:光明网2023-09-19 13:12

  2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评部总经理庄金鑫发布了《大语言模型测评分析报告》。

  中国软件评测中心基于已制定的《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度,对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》。

  基础通用能力中,语言理解方面,多数大模型表现良好,能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务,准确性高、可读性强;对话问答方面,多数大模型能够正确回答百科、常识问题,并具备多轮对话能力,其中,部分大模型具备“搜索增强”功能,能够提高回答时效性、准确性;内容生成方面,各大模型能够生成各类体裁文本、生成内容可读性强,部分大模型生成的诗歌、歌词体现出对押韵的考虑;多语种交互方面,多数大模型具备较强的中英文交互能力,能较好完成翻译、跨语种文本生成、跨语种摘要等任务,部分大模型对长文本有较好支持、处理能力;逻辑推理与数学应用方面,少数模型能够正确完成部分题目;代码编程方面,部分大模型具备基本的代码编程能力,对用户意图理解到位,生成的代码的准确性、可读性较高,代码注释简练、规范。

  行业领域知识方面,各大模型基本具备各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;各大模型回答体例具有各自特点和风格,或分条论述、内容详实,或只讲要点、简明扼要;多数大模型呈现明显的“行业知识均衡”现象,即同一模型在各行业领域知识的能力表现接近。

  安全能力方面,在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。

  测评中,也发现当前国内大模型尚存在的一些不足,如部分大模型对方言语义理解欠佳,生成的书信在体例、格式、语言方面具有较浓烈的英语风格,生成内容存在“幻觉”、编造现象,数学计算常出现解题思路错误、数值计算错误,复杂代码编程能力有待提升,行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

  对此,建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力,基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性,通过融合知识图谱等手段控制减少大模型“幻觉”。

  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,持续开展测评工作,支撑和促进大模型健康发展和应用落地。(中国软件评测中心)

[ 责编:涂子怡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 埃及一警察局突发大火已致38人受伤

  • 稻香满园 丰收如画

独家策划

推荐阅读
科技立则民族立,科技强则国家强。近年来,科技创新能力日益成为综合国力竞争的重要因素,世界各主要经济体将科技创新视为未来发展的决定性因素,纷纷加快布局、加大投入,以抢占未来技术制高点。
2023-10-02 09:06
10月1日中午,杭州亚运会赛程过半。中国队金牌达到114枚,以218枚奖牌的总数,牢牢占据亚运会奖牌榜第一名的位置。
2023-10-01 15:19
由自然资源部组织的中国第13次北冰洋科学考察队27日乘“雪龙2”号极地科考破冰船返回上海,标志着中国第13次北冰洋科学考察任务圆满完成。
2023-09-28 10:10
气候变化是当代人类面临的最为紧迫和复杂的全球性危机和挑战之一。尤其是自工业革命以来,在人类活动的主要影响下,世界正经历着以全球变暖为显著特征的气候变化
2023-09-28 10:55
从探索星辰大海,到聚焦国家需要,如今,越来越多的青年学生成长为科技创新的有生力量。怀揣科技报国理想,太原理工大学学生王煜尘成为中国极地科考史上在站时间最长的大学生。
2023-09-28 10:50
在淳安界首体育中心场地自行车女子团体竞速赛现场,中国队选手鲍珊菊、苑丽颖和郭裕芳意气风发,头戴“哪吒”头盔,脚踩“风火轮”,在“碗”状的环形赛道上飞速旋转,以打破亚运会纪录的成绩夺得冠军。
2023-09-28 10:49
27日,在哈伊高铁铁力至伊春段伊春西站施工现场,重达556吨的站房屋面球形网架结构顺利顶升到位,标志着由中铁建设集团承建的我国最北高铁站——伊春西站正式封顶。至此,哈伊高铁铁力至伊春段全线站房施工将全面转入站房屋面和装饰装修阶段。
2023-09-28 10:48
46秒376!9月26日,杭州亚运会淳安赛区迎来了新的纪录!
2023-09-28 10:15
农业农村部26日召开全国粮油等主要作物大面积单产提升现场观摩暨秋冬种工作部署会。
2023-09-28 10:12
圆环阵太阳射电成像望远镜通过工艺测试,正式建成。
2023-09-28 10:07
建设绿色智慧的数字生态文明,是实现经济转型升级和高质量发展的内在要求。
2023-09-28 10:03
随后,越来越多的探测结果为月球“南极”撞击坑底部永久阴影区内存在“水冰”提供了有力证据。
2023-09-27 10:11
在位于浙江杭州萧山区的杭州亚运会赛事总指挥部,一块综合智慧大屏正实时更新反映场馆状况的各类数据。
2023-09-27 10:08
作为一种旨在收集、保存、解释和利用个人和社区在过去事件中的经历、记忆、观点与情感的研究方法与学科领域,通过积极倾听地球居民的声音,口述史成为理解和探讨个人和社区如何经历、解释、传播与应对气候变化的有力工具。
2023-09-28 10:27
英国布里斯托大学研究团队用一个模拟温湿度模式的气候模型预测,整个未来超大陆将会超过哺乳动物热应激极限。
2023-09-27 10:06
城市的生物多样性包括生态系统多样性、物种多样性和遗传多样性三个由大到小的层面。
2023-09-27 10:02
日前,中国科学技术大学郭光灿院士团队在量子密钥分发研究中取得重要进展。
2023-09-27 09:46
日前,山东农业大学生命科学学院院长李传友教授团队在国际植物学领域顶尖期刊《自然-植物》在线发表论文。该团队成功克隆出番茄的FS8.1基因,阐明了FS8.1基因调控果形建成的细胞学基础和转录调控网络,
2023-09-26 05:10
地球正朝着平均温度上升的方向急速前进。一个气候模型显示,2023年,地球温度有55%的可能性比工业化前水平高出1.5℃。
2023-09-26 09:52
“不断尝试、不断试错,才可能有不经意间的发现。”这是陈辉的科研态度。看似“笨拙”的执着,却帮助他走得更远。
2023-09-26 09:51
加载更多