点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:超级同传!AI实现101种语言即时翻译
首页> 科技频道> 综合新闻 > 正文

超级同传!AI实现101种语言即时翻译

来源:中国科学报2025-01-20 10:02

  中国科学报讯 科幻小说《银河系漫游指南》中的翻译动物“巴别鱼”,可能离现实更近了。美国互联网科技公司Meta的研究人员开发了一种机器学习系统,几乎可以立即将101种语言的语音翻译成36种目标语言中的任意一种。

  这种大规模多语言和多模态机器翻译(SEAMLESSM4T)系统还可以将语音转换成文本、文本转换成语音、文本转换成文本。相关研究成果1月15日发表于《自然》。

  Meta运营着脸书、WhatsApp和Instagram等社交媒体网站。该公司表示,在向全球学术研究人员成功发布LLaMA大语言模型后,将把SEAMLESSM4T开源用于非商业用途。

  过去几十年里,机器翻译取得了巨大进步,这在很大程度上归功于在大数据集上训练的神经网络。英语等主要语言的训练数据比比皆是,但其他语言的训练数据却少得可怜。这种不平等限制了机器可以翻译的语言范围。美国康奈尔大学的计算机科学家Allison Koenecke表示:“这影响了不经常出现在互联网上的那些语言。”

  Meta团队在之前语音对语音翻译工作的基础上,开启了一个名为“不让任何语言掉队”的项目,旨在为大约200种语言提供文本到文本的翻译。根据经验,Meta和其他机构的研究人员发现,即使在翻译那些训练数据有限的语言时,使翻译系统多语言化也能提高其性能,但原因尚不清楚。

  该团队从互联网和联合国档案等来源收集了数百万小时的音频文件,以及这些语音的人工翻译。他们还收集了其中一些演讲的文字记录。

  研究人员使用可靠的数据训练模型识别两份匹配的内容。这使研究人员能够将大约50万小时的语音与文本配对,并自动将一种语言的每个片段与其他语言的对应片段匹配。

  SEAMLESSM4T可以将语音转换成语音,而无须先将其转换为文本。语音合成器用于产生音频,它可以翻译101种语言中的任何一种语音,不过到目前为止,只有36种语言可输出。该系统还可以执行其他翻译任务,比如完成不同语言的文本到语音的翻译。

  论文作者之一、Meta的计算机科学家Marta Costa-juss表示,除了增加语言数量外,他们还通过整合文本和语音的不同组合提高系统性能。“这些是改善的关键。”她补充说,该系统的时间延迟通常为几秒钟,与专业人工翻译的表现相当。

  作者表示,他们对SEAMLESSM4T进行了微调,例如当翻译中出现与原文不符的攻击性语言时,可以限制这种情况发生。他们还对系统进行了控制,以防止它将一种语言中无性别的专有词汇(如英语中的“护士”)翻译成其他语言中有性别的对应词。

  Koenecke在评论中写道,为进一步限制自动翻译的潜在风险,“开发人员应该考虑如何在明确模型局限性的前提下输出翻译”,并考虑“在准确性有争议时完全放弃输出”。

  英国吉尔福德萨里大学的翻译研究员Sabine Braun说,在机器翻译被广泛采用前,应该进行更多审查,并就如何使用机器翻译进行教育培训,尤其是身处医疗或法律等关键工作岗位的人。 (李木子)

  相关论文信息:

  https://doi.org/10.1038/s41586-024-08359-z

  《中国科学报》 (2025-01-20 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西藏和平解放75周年丨高原逐绿电 西藏大力发展清洁能源

  • “两山”理念与美丽中国|杭州中小微水体治理的硬核实践

独家策划

推荐阅读
记者从农业农村部获悉,截至5月28日17时,各地已收夏粮小麦4897万亩、当日机收面积超过1000万亩,今年全国“三夏”大规模小麦机收全面展开。
2026-05-29 09:11
垦利10-2油田位于渤海南部海域,探明原油地质储量超1亿吨,是渤海湾盆地凹陷带浅层发现的首个亿吨级岩性油田。中国海油天津公司工程技术作业中心相关负责人介绍:“垦利10-2油田钻完井作业面临井型多、层系多、开发方式多等‘三多’难点。
2026-05-29 09:09
早上8时许,四川省南充市高坪区走马镇姜家祠村村民姜萧将孩子送到村委会“农忙托管班”。为解决农忙季小孩看护缺位问题,姜家祠村因地制宜开设季节性公益“农忙托管班”,为村内适龄儿童提供免费集中托管服务。
2026-05-29 09:06
中国卫星导航定位协会近日发布《2026中国北斗时空产业发展白皮书》。所谓“北斗时空产业”,是以北斗卫星导航系统为核心,深度融合遥感地理信息、移动通信等多种技术手段的综合性产业体系。
2026-05-29 09:02
据中国载人航天工程办公室消息,神舟二十一号和神舟二十三号航天员乘组于28日进行交接仪式,两个乘组移交了中国空间站的钥匙。
2026-05-29 08:52
  人工智能(AI)正以前所未有的速度重塑着教育形态。放眼全球,AI与教育深度融合已不是“未来时”,而是汹涌澎湃的“现在进行时”。在这场由硅基智慧引发的教育革命面前,世界各国都在“大显身手”,基于各自特有的文化背景、教育传统与国家发展战略定位,在“AI+教育”的实施路径上展现出“百花齐放”之势。
2026-05-28 02:10
  当前,我国科普阅读需求呈现出高意愿、高黏性、高集中度的特点。调研显示,成人科普图书核心读者以36岁以上成熟群体为主,占比达82%,女性读者占62%,绝大多数为本科学历以上,企业技术人员、教育科研工作者、都市职场人构成消费主力。超过六成读者每周阅读三次以上,近三分之一年均阅读10本以上,阅读稳定性显著高于其他大众图书。
2026-05-28 02:10
站在河北沧州南皮县乌马营镇徐和杨村的航丰家庭农场地头,放眼望去,成方连片的小麦已泛起嫩黄,一派“小满未满,将熟未熟”的景象。
2026-05-28 02:00
中国社会科学院考古研究所(中国历史研究院考古研究所)27日发布最新成果。2025年9月至今,考古研究所已出版考古报告13部,专著、学术资料、科普读物13部,图录、论文集、数据集8部,中英文顶级、权威期刊上的简报、论文30余篇,并积极建设实验室集刊平台。
2026-05-28 02:00
27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-28 01:40
在提交毕业论文终稿的最后时刻,辽宁省某高校教育学专业研二学生宋耘(化名)还是选择了求助某“专门降论文AIGC(人工智能生成内容)率”的商家。
2026-05-28 01:40
中国卫星导航定位协会近日发布的《2026中国北斗时空产业发展白皮书》显示,2025年,北斗时空产业总产值达到13323亿元。北斗核心产品持续迭代升级,芯片、模组等基础产品小型化、低功耗、高精度水平不断提升,国内主流手机北斗定位精度持续优化,为产业规模化应用奠定了坚实的技术基础。
2026-05-27 09:36
5月27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-27 09:26
“十五五”规划纲要提出,投资于物和投资于人紧密结合。
2026-05-27 03:00
大屏幕上的数字快速跳动。十几轮激烈竞逐后,最终定格在212.4万元,成交!这是日前记者在湖北碳排放权交易中心电子竞价大厅看到的一幕。
2026-05-27 03:10
检测AI率,目的是维护学术研究的严肃性公平性,督促学生遵守学术规范、产出原创成果。然而,在现实操作中,一系列困扰学生乃至老师、学校的问题接连显露。
2026-05-27 02:50
位于北京大兴区的长子营湿地公园,草木葱茏,水面澄澈,鸟鸣声清脆悦耳,勾勒出一幅生机盎然的生态画卷。
2026-05-26 09:24
我国虽然核电铀燃料对外依存度高,但钍资源储量丰富,目前探明钍储量位居世界第二。以钍作核燃料不仅符合我国资源禀赋,甚至可能改变未来全球能源格局。
2026-05-26 09:18
我国已累计发布1750项食品安全标准,涉及2万多个指标,覆盖340多种食品类别,持续完善科学严谨、好用管用的食品安全标准体系。
2026-05-26 09:11
入汛以来,全国平均降水量达110.1毫米,较常年同期偏多18.6%。从空间分布来看,我国南北方均出现降水量较常年同期明显偏多区域。
2026-05-26 09:11
加载更多