点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:《大语言模型测评分析报告》在2023世界计算大会上发布
首页> 科技频道> 综合新闻 > 正文

《大语言模型测评分析报告》在2023世界计算大会上发布

来源:光明网2023-09-19 13:12

  2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评部总经理庄金鑫发布了《大语言模型测评分析报告》。

  中国软件评测中心基于已制定的《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度,对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》。

  基础通用能力中,语言理解方面,多数大模型表现良好,能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务,准确性高、可读性强;对话问答方面,多数大模型能够正确回答百科、常识问题,并具备多轮对话能力,其中,部分大模型具备“搜索增强”功能,能够提高回答时效性、准确性;内容生成方面,各大模型能够生成各类体裁文本、生成内容可读性强,部分大模型生成的诗歌、歌词体现出对押韵的考虑;多语种交互方面,多数大模型具备较强的中英文交互能力,能较好完成翻译、跨语种文本生成、跨语种摘要等任务,部分大模型对长文本有较好支持、处理能力;逻辑推理与数学应用方面,少数模型能够正确完成部分题目;代码编程方面,部分大模型具备基本的代码编程能力,对用户意图理解到位,生成的代码的准确性、可读性较高,代码注释简练、规范。

  行业领域知识方面,各大模型基本具备各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;各大模型回答体例具有各自特点和风格,或分条论述、内容详实,或只讲要点、简明扼要;多数大模型呈现明显的“行业知识均衡”现象,即同一模型在各行业领域知识的能力表现接近。

  安全能力方面,在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。

  测评中,也发现当前国内大模型尚存在的一些不足,如部分大模型对方言语义理解欠佳,生成的书信在体例、格式、语言方面具有较浓烈的英语风格,生成内容存在“幻觉”、编造现象,数学计算常出现解题思路错误、数值计算错误,复杂代码编程能力有待提升,行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

  对此,建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力,基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性,通过融合知识图谱等手段控制减少大模型“幻觉”。

  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,持续开展测评工作,支撑和促进大模型健康发展和应用落地。(中国软件评测中心)

[ 责编:涂子怡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 渝昆高铁长水机场站建设取得新进展

  • 第九届丝绸之路国际博览会在西安开幕

独家策划

推荐阅读
5月22日,小米15周年战略新品发布会在北京召开,小米正式发布首款3nm旗舰处理器“玄戒O1”。
2025-05-22 21:54
联合国秘书长古特雷斯指出,生物多样性是生命网络的经纬,更是人类文明的基石,而今这张网络正被快速撕裂。联合国也呼吁各国迅速编制与KMGBF目标一致的国家生物多样性战略和行动计划,并纳入国家可持续发展战略中。
2025-05-22 09:44
自然界中,鱼类能在水流复杂多变的水下灵活游动、避开障碍,主要得益于身体两侧能感知水流变化的侧线系统。
2025-05-22 09:42
自然资源是人类生存发展的重要基础,人与自然和谐共生离不开对自然资源的高水平保护和高效率利用。保护和利用好自然资源的奋斗路上,有哪些难忘的故事?
2025-05-22 04:35
与大科学装置近距离接触,聆听院士专家讲解科学前沿,沉浸式感受神奇的科学现象……近日,中国科学院第二十一届公众科学日活动举办,所属135个单位“开门迎客”,
2025-05-22 04:35
从闽北山乡到广袤神州,科技特派员制度历经20余载深耕厚植,已成为全面推进乡村振兴、加快农业农村现代化建设的重要力量。
2025-05-22 03:40
(解读人:王挺,系中国科普作家协会副理事长、中国科学技术大学研究员,本文原载于《科普时报》)
2025-05-21 17:56
基于全基因组SNP的种群基因组学研究揭示,全球雪豹可划分为两大遗传支系:北部支系和南部支系。基因组水平评估发现,相比雪豹南部支系,北部支系的基因组杂合度和种群遗传多样性较低,这些特征与其演化历史及较小的有效种群大小相吻合。
2025-05-21 09:38
我国的甘肃皋兰什川古梨园系统、浙江德清淡水珍珠复合养殖系统、福建福鼎白茶文化系统三项遗产系统顺利通过专家评审,正式被联合国粮农组织认定为全球重要农业文化遗产。
2025-05-21 09:43
科学家发现,在线辩论中,GPT-4一类的大语言模型(LLM)如能根据对手的个性化信息调整论据,其说服力将比人类高64.4%。瑞士洛桑联邦理工学院的Francesco Salvi和同事分别将900名美国人与另一个人或GPT-4配对,使双方辩论各种社会政治议题。
2025-05-21 09:40
近日,清华大学李菂团队联合意大利、澳大利亚、德国等多国天文学家,综合“中国天眼”FAST和南非MeerKAT阵列望远镜的优势,对银河系球状星团进行了高精度的脉冲星偏振普查。
2025-05-21 09:37
人形机器人最大的优势在于其外形特点,可以在很多工作空间实现与人类相似的工作效能,并能显著提升工作效率。
2025-05-21 09:36
研究团队综合了多种来源的观测和模拟证据,揭示了极地关键气候要素的变化特征。结果显示,北极气温以每十年0.68摄氏度的速率升高,远高于全球平均水平,南极和青藏高原也呈现出明显增温趋势。
2025-05-21 09:35
生长素是第一个被发现的植物激素,几乎参与了植物生长发育调控的每个过程。
2025-05-21 09:33
科研人员近日首次公布在我国空间站发现一个微生物新物种,并将其命名为“天宫尼尔菌”,相关科研成果在线发表于国际权威期刊上。
2025-05-20 10:24
一项研究首次揭示了肺活量从童年到老年的演变过程。
2025-05-20 10:21
津潍高铁是我国“八纵八横”高铁网京沪通道和沿海通道的重要组成部分。
2025-05-20 10:20
北京大学讲席教授杨荣贵与其在华中科技大学能源与动力工程学院的团队,制备出一种可大规模生产的多级有序穿孔结构铜网,其散热能力优于已报道方案。
2025-05-20 10:19
按照经典理论,有丝分裂或减数分裂后,每个子细胞核应当至少获得一套完整的单倍体染色体,以确保细胞正常发育和功能发挥。然而,最新研究却发现,在某些特定真菌中,
2025-05-20 03:55
最新气候数据显示,全球气温仍然极高,2025年将与2024年一道成为有记录以来最热的一年。
2025-05-19 10:49
加载更多