点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:图片、文字、语音都能理解 这个AI平台是“全能”选手
首页> 科技频道> 综合新闻 > 正文

图片、文字、语音都能理解 这个AI平台是“全能”选手

来源:科技日报2021-07-12 09:20

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  “小初,请以天宫为主题作首诗吧?”

  “天宫生殿开成,万花垂露照初。稠云不掩国志,飞天当触明霞。”

  “你能看懂这个视频吗?”

  “视频中,火箭正在发射。”

  “小初,图片中航天员正在干什么?”

  “航天员正穿着航天服站在机械臂上遨游太空。”

  ……

  7月9日,在2021世界人工智能大会(WAIC2021)上,中国科学院自动化研究所所长徐波发布了自动化所研发的跨模态通用人工智能平台——“紫东太初”。基于“紫东太初”平台打造的虚拟人“小初”在大会现场赚足了眼球。它不仅能读懂图片、看懂视频、中文续写、双语翻译,而且能吟诗作赋,生动证明了通过图片、文字、语音三种模态的关联与协同,可以有效地提升机器的理解和生成能力,让AI接近人类想象力。

  “紫东太初”平台是跨模态通用人工智能平台,以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景AI应用。“所谓跨模态是指它可以理解语音、文字和图片等多种模态信息;所谓全栈国产化是指这个平台的底层算力、模型、框架等都是自主研发的。”徐波解释道。

  多种模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉、文本、语音三种模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

  徐波介绍,“紫东太初”兼具跨模态理解和生成能力。与单模态和图片、文字两种模态相比,“紫东太初”采用一个大模型就可以灵活支撑图片、文字以及语音的全场景AI应用,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。

  “引入语音模态后的多模态预训练模型,可实现共性图片、语音和文字的空间表征和利用,并突破性地直接实现三模态的统一表示。”徐波说,特别值得强调的是,该平台首次让“以图生音”和“以音生图”成为现实,对更广泛、更多样的下游任务提供模型基础支撑,让AI能够在视频配音、语音播报、标题摘要、海报创作等更多场景实现应用。

  同时,研发团队还提出了弱关联三模态数据的语义统一表达,可同时支持三种或任两种模态弱关联数据进行预训练,有效降低了多模态数据收集与清洗成本。

  “‘紫东太初’跨模态通用人工智能平台包括三大关键技术和六大核心能力。”徐波说,三大关键技术分别是多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

  徐波表示,“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式,多模态大模型将成为不同领域的共性平台技术,是迈向通用人工智能路径的探索,具有广阔的应用前景。

  同时,全栈国产化通用人工智能平台的实践将使人工智能研发的规则发生重大变革并逐渐形成壁垒,对我国实现AI领域科技创新、占领核心技术高地具有重要的战略意义。(陆成宽)

[ 责编:蔡琳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 海军福建舰开展入列后首次海上实兵训练

  • 香港举行“体育力量 闪耀香江”大型无人机表演

独家策划

推荐阅读
为促进卫星导航定位产业有序发展,维护国家地理信息安全,我国将对卫星导航定位基准站实行统一规划、统一标准、统一监管。针对目前基准站重复建设、存在数据安全隐患等主要问题,办法规定自然资源部会同有关部门制定全国基准站建设布局规划。
2025-11-19 09:52
18日,我国首个配置冷却塔的“华龙一号”核电机组——中广核山东招远核电项目1号机组顺利完成核岛第一罐混凝土浇筑,标志着该项目一期工程建设全面启动。
2025-11-19 09:51
2020年至2024年间,全球光热发电装机年复合增长率为4.24%,我国同期增长率达11.7%,显著高于全球水平;技术装备国产化率突破95%,释放出产业加速发展的强劲信号。
2025-11-19 05:35
科技创新、科学普及是实现创新发展的两翼,科普与科技创新“同等重要”。
2025-11-19 05:55
日前,由清华大学产业发展与环境治理研究中心和自然科研智讯联合编制的《国际科技创新中心指数2025》报告正式发布。
2025-11-19 05:55
新疆的孩子们在“流动科学课”上被磁悬浮演示、机器人互动、矿物标本展示等吸引了目光;甘肃张掖的科技工作者为大伙儿演示经典科普实验“火焰掌”;上海的科学家们踏上科技节的红地毯赢得公众的掌声……这些生动场景共同勾勒出“十四五”期间我国科普事业的发展印记。
2025-11-19 05:55
如今,在学习中遇到问题可以问人工智能,写作业也可以用人工智能辅助查询信息。正如这名同学所言,生成式人工智能正改变传统的以知识积累和传递为中心的教学模式。
2025-11-18 10:28
11月17日,在水利部举行的“贯彻落实党的二十届四中全会精神 推动节水产业高质量发展”新闻发布会上,水利部副部长陈敏介绍,目前,我国节水产业呈现出蓬勃发展的良好势头,
2025-11-18 04:20
新疆维吾尔自治区科技创新大会17日在乌鲁木齐举行。会上,干旱区生态安全与可持续发展全国重点实验室、丝路水实验室、昆仑智能装备实验室、
2025-11-18 04:20
党的二十届四中全会审议通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》指出,以创新能力、质量、实效、贡献为评价导向,深化项目评审、机构评估、
2025-11-18 04:25
近日,2025年6G发展大会在北京经济技术开发区举行。
2025-11-18 04:20
这台高能非弹谱仪的独特之处在于,它利用了中子不带电、穿透力强的特性,能够直接探测到物质内部的微观运动。
2025-11-17 08:56
建立和完善国家公园监测网络体系,是我国生态文明建设领域的重要实践,是践行人与自然和谐共生现代化理念的具体体现。
2025-11-17 04:30
浙江清凉峰国家级自然保护区是我国重要的生物多样性聚集地之一,也是长三角地区珍贵的物种基因库。
2025-11-17 04:30
近日,我国科研团队在嫦娥六号月背样品中首次发现大型撞击事件成因的微米级赤铁矿和磁赤铁矿晶体,揭示了全新的月球氧化反应机制,为环绕南极-艾特肯盆地磁异常的撞击成因提供了样品实证。
2025-11-17 04:30
在不久前召开的联合国教科文组织“人与生物圈计划”国际协调理事会第37次会议上,内蒙古大青山国家级自然保护区和陕西周至国家级自然保护区,被批准为“世界生物圈保护区网络”成员。
2025-11-17 04:30
以“智跃无界,开源致远”为主题的操作系统大会2025(以下简称“大会”)在北京举办。
2025-11-14 17:08
我国在4个国家开展6处文物古迹保护修复,49项中外联合考古项目涉及28个国家和地区,用实际行动践行全球文明倡议、不断丰富世界文明百花园。
2025-11-13 07:07
由四川省人民政府主办的2025世界动力电池大会12日在宜宾市开幕。
2025-11-13 04:55
据估算,太阳每秒钟释放的能量,可供全人类使用约70万年。模拟太阳来产生无尽的清洁能源,也因此成为人类的“终极能源梦想”。
2025-11-13 04:55
加载更多