点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:超级同传!AI实现101种语言即时翻译
首页> 科技频道> 综合新闻 > 正文

超级同传!AI实现101种语言即时翻译

来源:中国科学报2025-01-20 10:02

  中国科学报讯 科幻小说《银河系漫游指南》中的翻译动物“巴别鱼”,可能离现实更近了。美国互联网科技公司Meta的研究人员开发了一种机器学习系统,几乎可以立即将101种语言的语音翻译成36种目标语言中的任意一种。

  这种大规模多语言和多模态机器翻译(SEAMLESSM4T)系统还可以将语音转换成文本、文本转换成语音、文本转换成文本。相关研究成果1月15日发表于《自然》。

  Meta运营着脸书、WhatsApp和Instagram等社交媒体网站。该公司表示,在向全球学术研究人员成功发布LLaMA大语言模型后,将把SEAMLESSM4T开源用于非商业用途。

  过去几十年里,机器翻译取得了巨大进步,这在很大程度上归功于在大数据集上训练的神经网络。英语等主要语言的训练数据比比皆是,但其他语言的训练数据却少得可怜。这种不平等限制了机器可以翻译的语言范围。美国康奈尔大学的计算机科学家Allison Koenecke表示:“这影响了不经常出现在互联网上的那些语言。”

  Meta团队在之前语音对语音翻译工作的基础上,开启了一个名为“不让任何语言掉队”的项目,旨在为大约200种语言提供文本到文本的翻译。根据经验,Meta和其他机构的研究人员发现,即使在翻译那些训练数据有限的语言时,使翻译系统多语言化也能提高其性能,但原因尚不清楚。

  该团队从互联网和联合国档案等来源收集了数百万小时的音频文件,以及这些语音的人工翻译。他们还收集了其中一些演讲的文字记录。

  研究人员使用可靠的数据训练模型识别两份匹配的内容。这使研究人员能够将大约50万小时的语音与文本配对,并自动将一种语言的每个片段与其他语言的对应片段匹配。

  SEAMLESSM4T可以将语音转换成语音,而无须先将其转换为文本。语音合成器用于产生音频,它可以翻译101种语言中的任何一种语音,不过到目前为止,只有36种语言可输出。该系统还可以执行其他翻译任务,比如完成不同语言的文本到语音的翻译。

  论文作者之一、Meta的计算机科学家Marta Costa-juss表示,除了增加语言数量外,他们还通过整合文本和语音的不同组合提高系统性能。“这些是改善的关键。”她补充说,该系统的时间延迟通常为几秒钟,与专业人工翻译的表现相当。

  作者表示,他们对SEAMLESSM4T进行了微调,例如当翻译中出现与原文不符的攻击性语言时,可以限制这种情况发生。他们还对系统进行了控制,以防止它将一种语言中无性别的专有词汇(如英语中的“护士”)翻译成其他语言中有性别的对应词。

  Koenecke在评论中写道,为进一步限制自动翻译的潜在风险,“开发人员应该考虑如何在明确模型局限性的前提下输出翻译”,并考虑“在准确性有争议时完全放弃输出”。

  英国吉尔福德萨里大学的翻译研究员Sabine Braun说,在机器翻译被广泛采用前,应该进行更多审查,并就如何使用机器翻译进行教育培训,尤其是身处医疗或法律等关键工作岗位的人。 (李木子)

  相关论文信息:

  https://doi.org/10.1038/s41586-024-08359-z

  《中国科学报》 (2025-01-20 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 海军福建舰开展入列后首次海上实兵训练

  • 香港举行“体育力量 闪耀香江”大型无人机表演

独家策划

推荐阅读
为促进卫星导航定位产业有序发展,维护国家地理信息安全,我国将对卫星导航定位基准站实行统一规划、统一标准、统一监管。针对目前基准站重复建设、存在数据安全隐患等主要问题,办法规定自然资源部会同有关部门制定全国基准站建设布局规划。
2025-11-19 09:52
18日,我国首个配置冷却塔的“华龙一号”核电机组——中广核山东招远核电项目1号机组顺利完成核岛第一罐混凝土浇筑,标志着该项目一期工程建设全面启动。
2025-11-19 09:51
2020年至2024年间,全球光热发电装机年复合增长率为4.24%,我国同期增长率达11.7%,显著高于全球水平;技术装备国产化率突破95%,释放出产业加速发展的强劲信号。
2025-11-19 05:35
科技创新、科学普及是实现创新发展的两翼,科普与科技创新“同等重要”。
2025-11-19 05:55
日前,由清华大学产业发展与环境治理研究中心和自然科研智讯联合编制的《国际科技创新中心指数2025》报告正式发布。
2025-11-19 05:55
新疆的孩子们在“流动科学课”上被磁悬浮演示、机器人互动、矿物标本展示等吸引了目光;甘肃张掖的科技工作者为大伙儿演示经典科普实验“火焰掌”;上海的科学家们踏上科技节的红地毯赢得公众的掌声……这些生动场景共同勾勒出“十四五”期间我国科普事业的发展印记。
2025-11-19 05:55
如今,在学习中遇到问题可以问人工智能,写作业也可以用人工智能辅助查询信息。正如这名同学所言,生成式人工智能正改变传统的以知识积累和传递为中心的教学模式。
2025-11-18 10:28
11月17日,在水利部举行的“贯彻落实党的二十届四中全会精神 推动节水产业高质量发展”新闻发布会上,水利部副部长陈敏介绍,目前,我国节水产业呈现出蓬勃发展的良好势头,
2025-11-18 04:20
新疆维吾尔自治区科技创新大会17日在乌鲁木齐举行。会上,干旱区生态安全与可持续发展全国重点实验室、丝路水实验室、昆仑智能装备实验室、
2025-11-18 04:20
党的二十届四中全会审议通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》指出,以创新能力、质量、实效、贡献为评价导向,深化项目评审、机构评估、
2025-11-18 04:25
近日,2025年6G发展大会在北京经济技术开发区举行。
2025-11-18 04:20
这台高能非弹谱仪的独特之处在于,它利用了中子不带电、穿透力强的特性,能够直接探测到物质内部的微观运动。
2025-11-17 08:56
建立和完善国家公园监测网络体系,是我国生态文明建设领域的重要实践,是践行人与自然和谐共生现代化理念的具体体现。
2025-11-17 04:30
浙江清凉峰国家级自然保护区是我国重要的生物多样性聚集地之一,也是长三角地区珍贵的物种基因库。
2025-11-17 04:30
近日,我国科研团队在嫦娥六号月背样品中首次发现大型撞击事件成因的微米级赤铁矿和磁赤铁矿晶体,揭示了全新的月球氧化反应机制,为环绕南极-艾特肯盆地磁异常的撞击成因提供了样品实证。
2025-11-17 04:30
在不久前召开的联合国教科文组织“人与生物圈计划”国际协调理事会第37次会议上,内蒙古大青山国家级自然保护区和陕西周至国家级自然保护区,被批准为“世界生物圈保护区网络”成员。
2025-11-17 04:30
以“智跃无界,开源致远”为主题的操作系统大会2025(以下简称“大会”)在北京举办。
2025-11-14 17:08
我国在4个国家开展6处文物古迹保护修复,49项中外联合考古项目涉及28个国家和地区,用实际行动践行全球文明倡议、不断丰富世界文明百花园。
2025-11-13 07:07
由四川省人民政府主办的2025世界动力电池大会12日在宜宾市开幕。
2025-11-13 04:55
据估算,太阳每秒钟释放的能量,可供全人类使用约70万年。模拟太阳来产生无尽的清洁能源,也因此成为人类的“终极能源梦想”。
2025-11-13 04:55
加载更多