点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:中文大模型让AI更“接地气”
首页> 科技频道> 综合新闻 > 正文

中文大模型让AI更“接地气”

来源:科技日报2023-05-23 10:19

  ◎本报记者 陈 曦

  目前成熟的生成式AI模型大多基于英文数据进行训练,在国内各行各业的应用环境中,中文大模型显然更“接地气”。通过中文或英文数据训练出来的大模型,差异比较大,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。

  “请讯飞星火认知大模型模仿梁晓声先生笔下的小说《人世间》的风格,续写一小段文章。”5月20日,在第七届世界智能大会闭幕式上,主持人蒋昌建向讯飞星火认知大模型发问。短短几秒钟,续写文字便“跃然纸上”。原作者梁晓声认为,续写内容简练、文字有一定温度,从传达的情感和思想来看几乎“无可挑剔”。

  在本次世界智能大会上,生成式人工智能毫无疑问成为大家关注的焦点。近期,国内各大厂商纷纷加快开展生成式AI核心技术的研发,无论是讯飞星火认知大模型展现出的雄厚“中文功底”,还是国家超级计算天津中心发布的基于国产天河超级算力、智能算力和汇集构建中文大数据集研发训练的天河天元大模型,都让大众对我国自主研发的中文生成式AI大模型充满期待。

  开发适合国人的中文大模型

  “AI大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代。”国家超级计算天津中心数据智能部部长康波介绍,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。

  AI大模型能够理解人类的自然语言表达,并通过庞大的网络结构实现具有针对性的内容输出。

  从效果上看,生成式AI表现为“无所不知、无所不能”,其具备了逻辑推理、上下文理解、文字创作、知识提取、代码生成等非常多元化的强大能力。

  不过,目前成熟的生成式AI大模型大多基于英文数据进行训练。“通过中文或英文数据训练出来的大模型,差异还是比较大的,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。”康波说。

  此外,生成式AI正一步步向生产工具方向发展,为产业深度赋能,或将成为人工智能与实体经济深度融合的重要力量。那么作为数据驱动的AI大模型,其训练数据来源的可靠性和安全性,便成为推动科技创新的关键。因此,自主研发中文大模型成为越来越多科技巨头的首要选择。

  三月以来,国内大模型领域已进入“混战”模式,各路玩家纷纷入局,其中有不少都“相中”了研发中文大模型。

  “抢抓通用人工智能的发展机遇有几个基本要素。”科大讯飞董事长刘庆峰认为,第一,必须要在自主可控的平台上;第二,必须要同时做中文和英文,不只学习中国的“智慧”,还要向世界学习;第三,在“硬碰硬”的科技对比上,不仅要学习,还要想办法赶超。

  例如,阿里推出了首个中文AI模型社区,社区首批上架超300个模型,其中中文模型超过100个,覆盖了视觉、语音、自然语言处理、多模态等AI主要领域,覆盖主流任务超过60个,且均全面开源并开放使用。360公司推出的“360智脑”背后的360GPT大模型,在海量的中文文本数据上进行了预训练和微调,从而具备了强大的语言理解和生成能力。据悉,该模型目前已经达到了100亿参数规模,并且还在不断扩展中。

  中文大语言模型数据集稀缺

  生成式人工智能是人工智能发展到一定阶段的产物。就像ImageNet数据集推动了残差网络等计算机视觉算法的成熟,openslr等开源数据集的发布催生了长短期记忆神经网络等自然语言神经网络的发展,图形处理器的大量使用使得模型参数从百万级发展到千亿级(ChatGPT使用了上万块A100显卡开展训练)。可以看出,生成式人工智能的快速成长,离不开算力和数据的支撑。

  “大模型是大数据、大算力驱动的结果,两者缺一不可。”超级计算天津中心首席科学家孟祥飞博士强调。

  一方面,中文大模型的理解能力来自于数据,它需要用海量数据来学习,通过自注意力和多头注意力机制来建立知识之间的联系。这就意味着,更多、更高质量的数据供给,将会带来模型网络中知识之间关系的完善性和贯通性。当用户提问到深层次或者冷门问题时,数据质量越高,AI大模型回答出正确答案的概率就越大。

  “但目前中文大语言模型的数据集非常稀缺。”孟祥飞介绍,为了解决这个问题,天津超算中心搜集整理了全域的网页数据,并从中提取处理高质量的中文数据做成数据集,同时采集纳入各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据以及专业领域的诸如医学、法律等多种数据集,训练数据集总token数达到3500亿,训练打造了中文语言大模型——天河天元大模型。

  另一方面,算力的供应是大模型的基础保障。大模型发端于自然语言处理领域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高,这也代表着算力需求的指数级上升。

  “而超级计算可以说是算力中的战斗机。”孟祥飞说,为了保证大模型的训练顺利,天津超算中心充分利用了天河新一代超级计算机的双精度、单精度、半精度融合计算输出能力,构建基于自主E级算力体系架构的智能计算引擎,建设人工智能大规模训练与应用系统支撑环境,特别是在中文处理方面构建了中文大模型数据处理的工作流技术体系,从而保障了训练任务的顺利开展。

  技术成果广泛应用于多领域

  在此次世界智能大会上,随着讯飞星火认知大模型一起展示的还有多款搭载了大模型的行业应用成果。

  康波认为,人工智能是驱动新一轮科技革命和产业变革的巨大力量,应将大模型作为产业智能化升级的基座,用专业数据集打造更贴合行业领域的智能化高水平“专家”。

  以讯飞星火认知大模型为例,该大模型的整体布局为“1+N”体系。其中“1”是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的应用。例如在教育领域,作为全球首款搭载认知大模型的学习机,科大讯飞推出的学习机可像真人教师一样与3岁至18岁的学生进行互动式辅学;在办公领域,基于大模型能力升级的产品具备语篇规整、会议纪要、一键成稿等功能。

  康波认为,在各行各业的应用中,中文大模型显然更“接地气”。他举例说,天津超算中心综合实现了文本、语音、视频等多模态的大模型生成能力,从而形成了“一平台三能力”的基础架构,实现了更广泛的产业融合能力。基于其自然语言的理解和表达能力,与医疗结合,学习医学指南等专业规范,可以迅速地掌握对应的专业知识。其中,中文大模型可以解决“同词不同义”在医疗上的歧义性,实现精准的输出,为医疗辅助诊断提供更为全面的支撑能力。

  同样,在工业检测和流程控制方面,大模型基于多元化输出能力,可以进行规范辅导、缺陷检测、流程指令生成一系列操作,降低错误率,提升生产效率。其中,中文大模型可以更好地理解复杂的专业术语以及流程指令逻辑,让输出更准确、严谨。

  “在大模型通用性、泛化性以及降低人工智能应用门槛的优势推动下,人工智能也将会加快落地,形成新的机遇。”康波表示。

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西康高铁沿线车站挂牌

  • 中国妇女事业发展成就图片展在莫斯科举行

独家策划

推荐阅读
“遥感是人们在距离和感官上的延伸,是认知地球、探查资源、监测环境的重要技术手段。本次活动由全国科学道德和学风建设宣讲教育领导小组主办,中国科协科学技术传播中心、湖南省科学技术协会、中南大学、光明网联合承办。
2026-03-20 09:42
每年春季,花粉过敏会给不少人带来困扰。该检测试剂盒采用微量血清特异性洋白蜡花粉过敏原IgE定量检测,用以辅助诊断,成为目前用于花粉症精准诊断的主要方法。
2026-03-20 09:39
3月18日,记者从新疆电力交易中心有限公司获悉,自2010年启动“疆电外送”以来,新疆累计外送新能源电量已达3043.6亿千瓦时,约占总外送电量的三成。
2026-03-20 09:39
吕小康:从现实语义上看,情感AI既指能够识别、理解、模拟和响应人类情感的人工智能技术,也指基于这类技术设计和开发的情感智能体。吕小康:为引导青年群体健康使用情感AI,还需要进一步加强协同治理,培育积极有益的陪伴型人工智能应用环境。
2026-03-20 09:36
据3月17日农情调度,全国早稻育秧已三成半,同比略快。据介绍,北方冬小麦当前的田管重点是继续促进弱苗转化升级,抓好病虫防控,防范春旱、倒春寒、干热风等灾害。“近日国家启动投放1000余万吨氮磷及复合肥储备,作为国家化肥储备重要承储主体,全国供销合作社系统农资企业积极按要求将储备化肥及时集中投放市场,稳定市场价格。
2026-03-20 09:36
小时候我们背过一句话:万物由原子组成。这一路走来,从质子的异常,到夸克模型的提出,再到量子色动力学和标准模型的建立,人类把物质拆解到了17种基本粒子的层级。曾获国家六部委回国人员成就奖、德国洪堡研究奖、吴有训物理奖、中国科学院优秀研究生导师奖。
2026-03-20 09:35
吴晓民(右一)团队在野外工作。藏羚羊曾广泛分布于高原全境,其漫长的演化史与复杂的种群波动,始终是全球动物保护与演化生物学领域关注的焦点。研究团队还通过生态位模拟,锁定了藏羚羊的生命庇护所——青藏高原北部的可可西里、羌塘高原等区域。
2026-03-19 10:11
通知明确,各城市群应优先选择具备条件的燃料电池汽车、绿色氨醇、氢基化工原料替代、氢冶金以及掺氢燃烧等应用场景开展试点,积极探索氢能创新应用场景,形成“1个燃料电池汽车通用场景+N个工业领域应用场景+X个创新应用场景”的氢能综合应用生态。通知要求,氢能综合应用试点以城市群为主体开展申报,城市群应立足自身资源条件,因地制宜、宜氢则氢,避免各场景一拥而上、低水平重复建设。
2026-03-19 10:10
2026中关村论坛年会将于3月25日至29日在北京举办。
2026-03-19 10:04
日前发布的《中国地热产业发展报告2025》显示,我国地热产业多元化利用格局正在形成。在地热供暖发展带动下,我国地热产业规模长期稳居世界第一。
2026-03-19 10:00
由于土豆块茎外形粗陋、埋于地下,又不见于《圣经》,一度被殖民者视为“魔鬼之根”或带毒之物。另一方面,随着城市扩张与人口增长,粮食压力加剧,土豆因高产、耐寒、适宜在小块土地种植而被人们重视。
2026-03-19 10:00
作者:刘琦 仇焕广(分别系中国人民大学助理教授,辽宁大学党委常委、副校长)  今年《政府工作报告》提出,“推进先进适用农机装备研发应用,打通农业科技推广‘最后一公里’”。
2026-03-19 09:59
为此,生态环境法典针对重点流域、重要生态单元设置专门规范,明确长江、黄河等重点区域一体化保护要求,建立协同机制。生态环境法典第三编第六章“生态退化的预防和治理”,整合水土保持法、防沙治沙法的有关规定,分为水土保持、防沙治沙两节。
2026-03-18 09:38
“‘两弹一星’不是孤立的科技突破,而是面向国家需求‘从0到1’的科技创新。本次活动由全国科学道德和学风建设宣讲教育领导小组主办,中国科协科学技术传播中心、安徽省科学技术协会、安徽农业大学、光明网联合承办。
2026-03-18 09:27
对于1型糖尿病患者而言,胰腺中那些负责分泌胰岛素、调节血糖的胰岛β细胞,被自身免疫系统错误地当成了“入侵者”,日复一日地遭受攻击,直至彻底损毁。这3个病例,分别代表中国乃至全球再生医学领域的3个“首次”——世界首例自体、中国首例异体、世界首例青少年再生胰岛移植治疗1型糖尿病。
2026-03-18 09:27
记者3月17日从国家能源局获悉,2026年1至2月,全社会用电量累计16546亿千瓦时,同比增长6.1%。从分产业用电看,第一产业用电量223亿千瓦时,同比增长7.4%;第二产业用电量10279亿千瓦时,同比增长6.3%,其中,工业用电量同比增长6.4%,高技术及装备制造业用电量同比增长10.6%;第三产业用电量3231亿千瓦时,同比增长8.3%,其中,充换电服务业、互联网数据服务业用电量增速分别达到55.1%、46.2%。
2026-03-18 09:26
当前,以家庭农场、农民合作社、龙头企业为代表的新型农业经营主体已成为“强农兴村”的中坚力量,发展成效显著。夯实联农带农长效机制,还需构建多层次、可落地的政策环境,让农业经营主体有动力、有能力、有底气带动小农户共同增收。
2026-03-18 09:26
在成都温江区,骑行爱好者李先生沿着北林绿道前行,穿梭在虫鸣鸟叫、淡淡花香之中。”  一幅幅充满生机的新春图景,正是成都加快建设践行新发展理念的公园城市示范区的生动注脚。
2026-03-18 09:26
分享几个故事,一起走进地球科学的世界。
2026-03-16 18:39
工业和信息化部、财政部、国家发展改革委日前印发《关于开展氢能综合应用试点工作的通知》。通知提出,通过城市群试点,将氢能应用场景由燃料电池汽车向交通、工业等具备条件的多元领域拓展。
2026-03-17 09:35
加载更多