点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:超级同传!AI实现101种语言即时翻译
首页> 科技频道> 综合新闻 > 正文

超级同传!AI实现101种语言即时翻译

来源:中国科学报2025-01-20 10:02

  中国科学报讯 科幻小说《银河系漫游指南》中的翻译动物“巴别鱼”,可能离现实更近了。美国互联网科技公司Meta的研究人员开发了一种机器学习系统,几乎可以立即将101种语言的语音翻译成36种目标语言中的任意一种。

  这种大规模多语言和多模态机器翻译(SEAMLESSM4T)系统还可以将语音转换成文本、文本转换成语音、文本转换成文本。相关研究成果1月15日发表于《自然》。

  Meta运营着脸书、WhatsApp和Instagram等社交媒体网站。该公司表示,在向全球学术研究人员成功发布LLaMA大语言模型后,将把SEAMLESSM4T开源用于非商业用途。

  过去几十年里,机器翻译取得了巨大进步,这在很大程度上归功于在大数据集上训练的神经网络。英语等主要语言的训练数据比比皆是,但其他语言的训练数据却少得可怜。这种不平等限制了机器可以翻译的语言范围。美国康奈尔大学的计算机科学家Allison Koenecke表示:“这影响了不经常出现在互联网上的那些语言。”

  Meta团队在之前语音对语音翻译工作的基础上,开启了一个名为“不让任何语言掉队”的项目,旨在为大约200种语言提供文本到文本的翻译。根据经验,Meta和其他机构的研究人员发现,即使在翻译那些训练数据有限的语言时,使翻译系统多语言化也能提高其性能,但原因尚不清楚。

  该团队从互联网和联合国档案等来源收集了数百万小时的音频文件,以及这些语音的人工翻译。他们还收集了其中一些演讲的文字记录。

  研究人员使用可靠的数据训练模型识别两份匹配的内容。这使研究人员能够将大约50万小时的语音与文本配对,并自动将一种语言的每个片段与其他语言的对应片段匹配。

  SEAMLESSM4T可以将语音转换成语音,而无须先将其转换为文本。语音合成器用于产生音频,它可以翻译101种语言中的任何一种语音,不过到目前为止,只有36种语言可输出。该系统还可以执行其他翻译任务,比如完成不同语言的文本到语音的翻译。

  论文作者之一、Meta的计算机科学家Marta Costa-juss表示,除了增加语言数量外,他们还通过整合文本和语音的不同组合提高系统性能。“这些是改善的关键。”她补充说,该系统的时间延迟通常为几秒钟,与专业人工翻译的表现相当。

  作者表示,他们对SEAMLESSM4T进行了微调,例如当翻译中出现与原文不符的攻击性语言时,可以限制这种情况发生。他们还对系统进行了控制,以防止它将一种语言中无性别的专有词汇(如英语中的“护士”)翻译成其他语言中有性别的对应词。

  Koenecke在评论中写道,为进一步限制自动翻译的潜在风险,“开发人员应该考虑如何在明确模型局限性的前提下输出翻译”,并考虑“在准确性有争议时完全放弃输出”。

  英国吉尔福德萨里大学的翻译研究员Sabine Braun说,在机器翻译被广泛采用前,应该进行更多审查,并就如何使用机器翻译进行教育培训,尤其是身处医疗或法律等关键工作岗位的人。 (李木子)

  相关论文信息:

  https://doi.org/10.1038/s41586-024-08359-z

  《中国科学报》 (2025-01-20 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 神舟二十号3名航天员顺利进驻中国空间站

  • 2024年度全国十大考古新发现揭晓

独家策划

推荐阅读
国家航天局对外发布嫦娥五号任务月球样品国际借用申请结果,同意6个国家的7家机构的申请。
2025-04-25 10:16
目前,我国人工智能领域呈现良好的发展势头,根据世界知识产权组织报告,中国已经成为全球人工智能专利的最大拥有国,在全球的占比达到60%。
2025-04-25 10:15
水利部近日印发《蓄滞洪区建设管理三年行动方案(2025—2027年)》,启动实施蓄滞洪区建设管理三年行动。
2025-04-25 10:11
这些看不见的技术迭代,正为中国探索更遥远的宇宙空间铺就更坚实的“天梯”。
2025-04-25 10:09
《2024年全球创新指数报告》中,我国排名提升至第11位,拥有的全球百强科技集群数量达到26个,连续两年位居世界各国之首。
2025-04-25 10:08
搭载着3名航天员的长征二号F遥二十运载火箭直冲云霄,熊熊尾焰映照着千年胡杨,也照亮了中国载人航天的崭新篇章。
2025-04-25 10:07
从老人登山有了“赛博外挂”,到“养老机器人”成为热词,今年以来,机器人相关话题持续升温。
2025-04-24 09:40
航天诱变紫云英新品种,固氮效能更高了,综合生态效应也非常大
2025-04-24 09:34
这项研究不依赖直接改变作物的遗传背景,而是通过调控根际的微生物组来优化作物在田间的生长表现。
2025-04-24 09:26
以斑马鱼、涡虫和链霉菌作为研究对象开展生命科学实验
2025-04-24 09:24
涅槃重生的AI开口说话了——一面是口若悬河,一鸣惊人;另一面却是信口雌黄,“鬼话”连篇。
2025-04-24 09:22
春日的北京,一场充满未来感的马拉松赛事吸引了众人的目光——全球首个人形机器人半程马拉松赛在21.0975公里的赛道上展开角逐,20支机器人队伍参赛。 在制造业,目前人形机器人承担的是繁重、泛化性强、高度重复的工作,例如搬运颜色、重量、尺寸各不相同的箱子,分拣不同形状的零配件。
2025-04-24 09:19
数字技术带给阅读前所未有的便利,同时也提出了新课题。
2025-04-23 10:34
农民种粮能挣钱,粮食生产才有保障。在种粮农民收益保障机制中,农业保险是重要方面。今年中央一号文件提出:“推动扩大稻谷、小麦、玉米、大豆完全成本保险和种植收入保险投保面积”“健全多层次农业保险体系,支持发展特色农产品保险”。
2025-04-23 10:31
身高172厘米,通体银色,一台台人形机器人在产线上分拣物料、搬运料箱、安装零件……科幻电影里的场景照进现实。
2025-04-23 10:26
再接再厉、乘势而上,一步一个脚印朝着建设航天强国的目标迈进,中国的航天事业必将开拓更高境界,中国的科技创新将书写崭新篇章。
2025-04-23 09:24
天地图是自然资源部门向社会提供各类在线地理信息公共服务、推动地理信息数据开放共享的政府网站。
2025-04-23 09:22
4月22日,在北京航天飞行控制中心的统一调度下,神舟二十号载人飞船发射任务组织全区合练——酒泉卫星发射中心、西安卫星测控中心以及任务各测控点实施联调联控,全面模拟发射准备、发射以及飞行过程中的各种技术状态和工作过程。
2025-04-23 09:21
让人形机器人跑马拉松,与其说是人机竞技,不如说是机器的自我迭代。
2025-04-23 09:15
当今,百年变局中的全球价值链重构,既考验着中国的战略定力,也孕育着我国从“跟跑”到“领跑”的跃迁机遇。
2025-04-23 09:13
加载更多