点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“轩辕”来了!国内首个千亿级中文金融大模型宣布开源
首页> 科技频道> 综合新闻 > 正文

“轩辕”来了!国内首个千亿级中文金融大模型宣布开源

来源:光明网2023-05-26 21:23

  近日,度小满正式开源国内首个千亿级中文金融大模型——“轩辕”。轩辕大模型是在1760亿参数的Bloom大模型基础上训练而来,在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。

  在金融场景中的任务评测中,轩辕全面超越了市场上的主流开源大模型,赢得了150次回答中63.33%的胜率,充分凸显了其在金融领域的显著优势。在通用能力评测中,轩辕有10.2%的任务表现超越ChatGPT 3.5,61.22%的任务表现与之持平,涉及数学计算、场景写作、逻辑推理、文本摘要等13个主要维度。

  为了提升轩辕大模型对金融领域问题的理解能力,度小满将自身业务中积累的金融领域的千亿tokens的中文预训练数据集用来训练模型。该数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。度小满表示,经过清洗和标注的高质量数据集,不仅在通用性方面与ChatGPT达到持平成为可能,且显著提升了模型在金融垂直领域的性能。

  BLOOM(Big Science Language Open-science Open-access Multilingual)是2021年由 1000 多名志愿研究人员在一个名为“大科学 BigScience”的项目中创建,2022年7月12日正式发布。BLOOM 拥有1760亿个参数(决定输入数据如何转换为输出内容的变量),稍多于拥有 1750 亿个参数的 GPT-3。BLOOM拥有1.61TB文本,包含46种自然语言和13种编程语言。相比Meta发布的130亿参数的LLaMA(Large Language Model Meta AI)模型,Bloom参数量更占优势。

  目前,千亿级的轩辕模型已可以在Huggingface中申请下载,面向所有金融机构开放。 下载地址:https://github.com/Duxiaoman-DI/XuanYuan

  度小满CTO许冬亮表示,轩辕大模型是经度小满业务场景中积累的金融数据训练而来的,对金融相关问题的理解比通用大模型更有优势。我们把大模型能力开放给金融机构,有利于推动大模型在金融行业的应用,降低大模型的应用门槛,提升金融行业智能化水平。

  作为AI新基建,大模型在金融及各个行业有着广泛的应用场景。轩辕大模型开源后,对金融机构有何意义?

  许冬亮认为,生成式大模型在内容生成与创作、信息摘要与总结、知识理解与问答、自然交互与对话等方面具备非常出色的能力,在金融场景中会有广泛的应用。在前台,生成式大模型将大幅提升客户经理的专业水平和服务能力,大幅降低客户经理的运营成本,让每个人都拥有24小时在线的专业客户经理成为可能。出色的内容生成能力也将引发营销内容生产能力的大幅提升。在中台,生成式大模型有机会改变企业内知识获取、内容创作、会议与沟通、代码开发与测试的方式,进而大幅提升企业内部办公效率,甚至引发研发测试模式变革,全方位提升金融企业内部运营效率。在后台,大模型将成为智能科技底座的标配,大幅降低智能技术应用的门槛,只需少量标注数据甚至无需调整就可以让智能技术覆盖广泛的场景。

  据悉,度小满依托于百度人工智能技术,已经开展了一系列基于大模型的应用。以风险管理为例,度小满已经将大型语言模型LLM应用在互联网文本数据、征信报告的解读上,通过用文本数据构造的预训练模型以及AI算法,能够将征信报告解读出40万维的风险变量,更好的识别小微企业主的信贷风险。今年5月份,这一工程荣获了“吴文俊人工智能科学技术奖”。今年2月份,百度基于文心大模型技术推出的生成式对话产品“文心一言”(ERNIE Bot)开放生态合作,度小满成为首家接入的金融科技公司。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 全国第十二届残运会暨第九届特奥会闭幕

  • “冰城”大雪人亮相

独家策划

推荐阅读
长途出行,电动汽车、充电桩随处可见;冬天取暖,不再以烧煤为主,而转为电采暖……今天,我们身边用能电气化的场景愈发常见。
2025-12-16 10:13
记者从2026中国信通院深度观察报告会上获悉:“十四五”时期,我国6G发展处于愿景需求定义清晰、技术突破初见成效、标准研究全面启动的关键阶段。
2025-12-16 10:06
相较西方国家而言,中国现代科研体系起步较晚,直至改革开放后才重建硕博制度,科研力量逐步壮大。(作者系中国科学院院士,本报记者冯丽妃据其在新疆科普专家报告团活动中的发言整理)  《中国科学报》 (2025-12-16 第1版 要闻)
2025-12-16 10:02
种子休眠是指种子在适宜发芽的条件下仍“按兵不动”,直到环境真正安全才“启动”发芽,是农作物在驯化过程中被深刻改造的关键性状之一。研究发现,一个名为MKK3的基因通过“拷贝数+激酶活性”双轮驱动,塑造了大麦在全球不同气候区的休眠节律。
2025-12-16 09:58
区块链、云计算等技术的应用,正推动畜牧业形成从养殖到消费的全程数字化溯源体系,提升整体协同效率,创造产业协同新价值。推动数字技术与畜牧业深度融合,有赖于构建多方参与、协同推进的长效机制。
2025-12-16 09:55
作为国际上首个建成的新一代超大规模、超高精度的中微子实验装置,这里吸引着全世界的目光。细数这一年,更多创新成果从“实验室”走向“生产线”并落地应用场景,创新“势能”向经济“动能”不断转化。
2025-12-16 09:52
深海、极地,这两个词给普通人带来的是神秘又浪漫的感觉。但对于一线科研人员来说,却意味着枯燥与艰辛:在狭小的潜水器球舱里工作9个小时,为了工作甚至不敢多喝水;在零下十几摄氏度的后甲板上作业,海风吹在脸上如刀割般疼痛;在高达13级的风暴中,晕船到无法站立……
2025-12-15 09:56
12月12日中午,在北京中国科学院国家天文台会议室内,研究员刘继峰、王亚楠与中国科学院大学副教授黄样、华中科技大学教授雷卫华等正在聚焦1.2亿光年外的一场“宇宙风暴”—— 一颗恒星被超大质量黑洞撕裂,残骸形成炽热的吸积盘,并驱动喷流同步摆动。
2025-12-15 09:53
 研究团队通过分析271个沉积物样本和86个岩芯的高分辨率记录,构建了迄今为止最完整的南极沿岸冰间湖沉积物数据库,并量化了其碳储存效率。
2025-12-15 09:48
14日从中国海油获悉,随着亚洲第一深水导管架平台“海基二号”最后一口生产井投用,我国首个深水油田——流花油田二次开发项目实现全面投产,标志着我国在深水复杂油藏开发领域实现重大跨越。
2025-12-15 09:47
以市场需求为导向,充分发挥企业创新主体作用,便有利于我们敏锐地捕捉到技术链中的薄弱环节。
2025-12-15 09:44
新华社北京12月12日电 由中央网信办主办的2025中国正能量网络精品征集展播活动12日启动。
2025-12-12 13:08
记者11日从中国科学院微小卫星创新研究院(以下简称“卫星创新院”)获悉,轻舟货运飞船初样件已完成多项关键技术验证,进入整体测试阶段。
2025-12-12 09:55
近日,中国石油大庆古龙陆相页岩油国家级示范区年产量突破100万吨,实现页岩油规模化效益开采。
2025-12-12 09:50
2026年1月1日起,我国将禁止生产含汞体温计和含汞血压计。
2025-12-12 09:48
11日,中国科学院紫金山天文台“银河画卷”(MWISP)巡天计划(以下简称“巡天计划”)正式向全球公开首批毫米波分子谱线观测数据。
2025-12-12 09:47
截至12月9日24时,哈密—重庆±800千伏特高压直流输电工程(以下简称“疆电入渝”工程)自今年6月10日投运以来,累计外送电量已达101.2亿千瓦时。
2025-12-12 09:45
加快培育壮大数据产业,以区域协同数智化发展带动数据产业集群、数字产业集群做大做强。以兼顾标准互认、质量保障和安全可信的制度体系,护航数据产品服务流通交易、变现增值。数字经济具有数据资源依赖度高、技术知识人才密集、高融合渗透性及行业覆盖面广等特点。
2025-12-11 10:16
光明日报西宁12月10日电 记者万玛加、王雯静日前从国网青海省电力公司获悉,青海电力交易中心与北京电力交易中心、吉林电力交易中心“三网”联动,共同达成跨省跨区中长期外送电力交易,交易电量自12月8日起执行至31日止,累计交易电量1876万千瓦时。
2025-12-11 10:15
2020年12月,科技部在苏州高新区等13家国家高新区启动首批试点,探索实施“创新积分制”,对企业创新能力进行量化评价,引导金融机构精准支持科技创新。联动实施“创新积分制”和科技创新专项担保计划,累计向21家银行推荐超过17万家科技型中小企业,签订贷款合同超2900亿元……
2025-12-11 10:15
加载更多