点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

近日,南京理工大学沈思教授团队开源发布国内首个人文社会科学领域学术大语言模型——“兰章”,标志着学校在“AI+人文社会”应用研究领域迈出关键一步。
“兰章”凭借百亿词元的坚实数据基础以及两阶段深度优化训练,较好地解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面“盲域”和“幻觉”问题,不仅可以辅助用户系统地获取和梳理海量学术资源,还能够帮助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。
据介绍,“兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料的全文及教育部人文社科获奖著作全文(1992—2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg等英文学术全文(1992—2025年)等英文学术资源,保证了学科的均衡覆盖以及期刊与著作的深度集成。“兰章”凭借百亿级词元的坚实数据基础,解决现有通用AI工具主要依靠论文标题、摘要等简单信息的文本语料挖掘,难以理解完整文本中复杂概念和论证逻辑的难点和痛点问题。
“兰章”研发团队选取人文社科全文本评测中表现较好的Qwen3-8B与Qwen3-32B基础模型进行两阶段的深度优化训练:在第一阶段,运用116亿词元的学术资料系统融入人文社科学科知识和学术表达方式,提升基础模型的全文本理解能力;在第二阶段,团队围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上反复精细调优,形成并持续提升模型的专业推理能力。经过深度优化训练,“兰章”表现显著优于多款通用模型,一是有效解决了跨语言环境下低频专业术语的识别盲区问题,二是图书自动分类准确率比通用模型高出30%,三是有效解决了学术文本生成中的逻辑碎片问题。
团队负责人沈思教授介绍,“大模型不是代替学者思考,而是立足实际学术研究,把自主知识体系的构建延伸到模型化和计算化的层面,从工具层面为人文社会科学学术创新提供持续支持。”
“兰章”凭借优异的全文本文献理解能力,不仅可以帮助学者系统性地获取和梳理海量学术资源,还能够通过快捷评价既有研究成果,发现有关学术概念的模糊地带以及尚未被关注的区域,进而提升人文社科领域学者更加敏锐地发现新的学术研究契机。目前,“兰章”已上线魔搭社区试运行,15,697条训练指令数据已全部开源共享。(杜建宾)
