点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:图片、文字、语音都能理解 这个AI平台是“全能”选手
首页> 科技频道> 综合新闻 > 正文

图片、文字、语音都能理解 这个AI平台是“全能”选手

来源:科技日报2021-07-12 09:20

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  “小初,请以天宫为主题作首诗吧?”

  “天宫生殿开成,万花垂露照初。稠云不掩国志,飞天当触明霞。”

  “你能看懂这个视频吗?”

  “视频中,火箭正在发射。”

  “小初,图片中航天员正在干什么?”

  “航天员正穿着航天服站在机械臂上遨游太空。”

  ……

  7月9日,在2021世界人工智能大会(WAIC2021)上,中国科学院自动化研究所所长徐波发布了自动化所研发的跨模态通用人工智能平台——“紫东太初”。基于“紫东太初”平台打造的虚拟人“小初”在大会现场赚足了眼球。它不仅能读懂图片、看懂视频、中文续写、双语翻译,而且能吟诗作赋,生动证明了通过图片、文字、语音三种模态的关联与协同,可以有效地提升机器的理解和生成能力,让AI接近人类想象力。

  “紫东太初”平台是跨模态通用人工智能平台,以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景AI应用。“所谓跨模态是指它可以理解语音、文字和图片等多种模态信息;所谓全栈国产化是指这个平台的底层算力、模型、框架等都是自主研发的。”徐波解释道。

  多种模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉、文本、语音三种模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

  徐波介绍,“紫东太初”兼具跨模态理解和生成能力。与单模态和图片、文字两种模态相比,“紫东太初”采用一个大模型就可以灵活支撑图片、文字以及语音的全场景AI应用,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。

  “引入语音模态后的多模态预训练模型,可实现共性图片、语音和文字的空间表征和利用,并突破性地直接实现三模态的统一表示。”徐波说,特别值得强调的是,该平台首次让“以图生音”和“以音生图”成为现实,对更广泛、更多样的下游任务提供模型基础支撑,让AI能够在视频配音、语音播报、标题摘要、海报创作等更多场景实现应用。

  同时,研发团队还提出了弱关联三模态数据的语义统一表达,可同时支持三种或任两种模态弱关联数据进行预训练,有效降低了多模态数据收集与清洗成本。

  “‘紫东太初’跨模态通用人工智能平台包括三大关键技术和六大核心能力。”徐波说,三大关键技术分别是多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

  徐波表示,“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式,多模态大模型将成为不同领域的共性平台技术,是迈向通用人工智能路径的探索,具有广阔的应用前景。

  同时,全栈国产化通用人工智能平台的实践将使人工智能研发的规则发生重大变革并逐渐形成壁垒,对我国实现AI领域科技创新、占领核心技术高地具有重要的战略意义。(陆成宽)

[ 责编:蔡琳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中国社科院考古所发布考古领域研究成果

  • 浙江上虞:强化品牌传播 提振青瓷产业

独家策划

推荐阅读
  人工智能(AI)正以前所未有的速度重塑着教育形态。放眼全球,AI与教育深度融合已不是“未来时”,而是汹涌澎湃的“现在进行时”。在这场由硅基智慧引发的教育革命面前,世界各国都在“大显身手”,基于各自特有的文化背景、教育传统与国家发展战略定位,在“AI+教育”的实施路径上展现出“百花齐放”之势。
2026-05-28 02:10
  当前,我国科普阅读需求呈现出高意愿、高黏性、高集中度的特点。调研显示,成人科普图书核心读者以36岁以上成熟群体为主,占比达82%,女性读者占62%,绝大多数为本科学历以上,企业技术人员、教育科研工作者、都市职场人构成消费主力。超过六成读者每周阅读三次以上,近三分之一年均阅读10本以上,阅读稳定性显著高于其他大众图书。
2026-05-28 02:10
站在河北沧州南皮县乌马营镇徐和杨村的航丰家庭农场地头,放眼望去,成方连片的小麦已泛起嫩黄,一派“小满未满,将熟未熟”的景象。
2026-05-28 02:00
中国社会科学院考古研究所(中国历史研究院考古研究所)27日发布最新成果。2025年9月至今,考古研究所已出版考古报告13部,专著、学术资料、科普读物13部,图录、论文集、数据集8部,中英文顶级、权威期刊上的简报、论文30余篇,并积极建设实验室集刊平台。
2026-05-28 02:00
27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-28 01:40
在提交毕业论文终稿的最后时刻,辽宁省某高校教育学专业研二学生宋耘(化名)还是选择了求助某“专门降论文AIGC(人工智能生成内容)率”的商家。
2026-05-28 01:40
中国卫星导航定位协会近日发布的《2026中国北斗时空产业发展白皮书》显示,2025年,北斗时空产业总产值达到13323亿元。北斗核心产品持续迭代升级,芯片、模组等基础产品小型化、低功耗、高精度水平不断提升,国内主流手机北斗定位精度持续优化,为产业规模化应用奠定了坚实的技术基础。
2026-05-27 09:36
5月27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-27 09:26
“十五五”规划纲要提出,投资于物和投资于人紧密结合。
2026-05-27 03:00
大屏幕上的数字快速跳动。十几轮激烈竞逐后,最终定格在212.4万元,成交!这是日前记者在湖北碳排放权交易中心电子竞价大厅看到的一幕。
2026-05-27 03:10
检测AI率,目的是维护学术研究的严肃性公平性,督促学生遵守学术规范、产出原创成果。然而,在现实操作中,一系列困扰学生乃至老师、学校的问题接连显露。
2026-05-27 02:50
位于北京大兴区的长子营湿地公园,草木葱茏,水面澄澈,鸟鸣声清脆悦耳,勾勒出一幅生机盎然的生态画卷。
2026-05-26 09:24
我国虽然核电铀燃料对外依存度高,但钍资源储量丰富,目前探明钍储量位居世界第二。以钍作核燃料不仅符合我国资源禀赋,甚至可能改变未来全球能源格局。
2026-05-26 09:18
我国已累计发布1750项食品安全标准,涉及2万多个指标,覆盖340多种食品类别,持续完善科学严谨、好用管用的食品安全标准体系。
2026-05-26 09:11
入汛以来,全国平均降水量达110.1毫米,较常年同期偏多18.6%。从空间分布来看,我国南北方均出现降水量较常年同期明显偏多区域。
2026-05-26 09:11
5月30日将迎来第十个全国科技工作者日,中国科协将联合相关部委集中表彰第四届全国创新争先奖获奖团队和个人,发布2026年“最美科技工作者”年度人物。
2026-05-26 09:09
到今年5月21日,“澳门科学一号”(下称“澳科一号”)卫星成功发射三周年。卫星上天不是终点,3年来,“澳科一号”团队研发未曾停歇,在相关科学与技术领域取得多项重大突破。
2026-05-25 10:19
近来,词元(Token)一词持续刷屏科技圈、经济圈,而让它“破圈”的,是一组极具冲击力的数据——今年3月,我国日均词元调用量突破140万亿。从2024年初的1000亿,到2025年底的100万亿,再到突破140万亿,两年间增长超千倍。
2026-05-25 10:16
《中国生物物种名录2026版》封面。与去年的名录相比,2026版名录中,动物界新增3380个物种和477个种下单元;植物界新增431个物种,减少2个种下单元;真菌界新增3114个物种,减少1246个种下单元。
2026-05-25 10:02
平面单位距离问题探讨的是,在无限大的纸上,最多可以画出多少条等长的线段来连接纸上的点。Erdos证明了越来越大的网格如何能够包含大量距离相等的点,并且这个网格会以比点数增长略快的速度无限延伸。
2026-05-25 10:02
加载更多