点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:超级同传!AI实现101种语言即时翻译
首页> 科技频道> 综合新闻 > 正文

超级同传!AI实现101种语言即时翻译

来源:中国科学报2025-01-20 10:02

  中国科学报讯 科幻小说《银河系漫游指南》中的翻译动物“巴别鱼”,可能离现实更近了。美国互联网科技公司Meta的研究人员开发了一种机器学习系统,几乎可以立即将101种语言的语音翻译成36种目标语言中的任意一种。

  这种大规模多语言和多模态机器翻译(SEAMLESSM4T)系统还可以将语音转换成文本、文本转换成语音、文本转换成文本。相关研究成果1月15日发表于《自然》。

  Meta运营着脸书、WhatsApp和Instagram等社交媒体网站。该公司表示,在向全球学术研究人员成功发布LLaMA大语言模型后,将把SEAMLESSM4T开源用于非商业用途。

  过去几十年里,机器翻译取得了巨大进步,这在很大程度上归功于在大数据集上训练的神经网络。英语等主要语言的训练数据比比皆是,但其他语言的训练数据却少得可怜。这种不平等限制了机器可以翻译的语言范围。美国康奈尔大学的计算机科学家Allison Koenecke表示:“这影响了不经常出现在互联网上的那些语言。”

  Meta团队在之前语音对语音翻译工作的基础上,开启了一个名为“不让任何语言掉队”的项目,旨在为大约200种语言提供文本到文本的翻译。根据经验,Meta和其他机构的研究人员发现,即使在翻译那些训练数据有限的语言时,使翻译系统多语言化也能提高其性能,但原因尚不清楚。

  该团队从互联网和联合国档案等来源收集了数百万小时的音频文件,以及这些语音的人工翻译。他们还收集了其中一些演讲的文字记录。

  研究人员使用可靠的数据训练模型识别两份匹配的内容。这使研究人员能够将大约50万小时的语音与文本配对,并自动将一种语言的每个片段与其他语言的对应片段匹配。

  SEAMLESSM4T可以将语音转换成语音,而无须先将其转换为文本。语音合成器用于产生音频,它可以翻译101种语言中的任何一种语音,不过到目前为止,只有36种语言可输出。该系统还可以执行其他翻译任务,比如完成不同语言的文本到语音的翻译。

  论文作者之一、Meta的计算机科学家Marta Costa-juss表示,除了增加语言数量外,他们还通过整合文本和语音的不同组合提高系统性能。“这些是改善的关键。”她补充说,该系统的时间延迟通常为几秒钟,与专业人工翻译的表现相当。

  作者表示,他们对SEAMLESSM4T进行了微调,例如当翻译中出现与原文不符的攻击性语言时,可以限制这种情况发生。他们还对系统进行了控制,以防止它将一种语言中无性别的专有词汇(如英语中的“护士”)翻译成其他语言中有性别的对应词。

  Koenecke在评论中写道,为进一步限制自动翻译的潜在风险,“开发人员应该考虑如何在明确模型局限性的前提下输出翻译”,并考虑“在准确性有争议时完全放弃输出”。

  英国吉尔福德萨里大学的翻译研究员Sabine Braun说,在机器翻译被广泛采用前,应该进行更多审查,并就如何使用机器翻译进行教育培训,尤其是身处医疗或法律等关键工作岗位的人。 (李木子)

  相关论文信息:

  https://doi.org/10.1038/s41586-024-08359-z

  《中国科学报》 (2025-01-20 第2版 国际)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 新疆乌伦古湖冬捕开始

  • “蛇展”迎蛇年

独家策划

推荐阅读
近两年,教育生态正在发生深刻的转变。不论是大学、中小学还是学生与家长,都将在国家战略的牵引下重新确认自身的定位与方向。
2025-01-17 12:26
数据作为数字时代的“新石油”,不仅是传统产业、新兴产业发展的重要支撑,同时也是人工智能科技创新的关键创新资源。
2025-01-17 04:30
数千年来,人类探索宇宙的脚步从未停歇,2025年亦是如此。在这一年中,一大批探测器将承载着人类的好奇心,奔赴“星辰大海”,去揭示浩瀚星空的奥秘。此外,人类还渴望能够“扶摇直上”,亲身进入太空体验秘境。
2025-01-17 10:02
西湖大学生命科学学院、西湖实验室申恩志团队联合吴建平团队成功揭示了小鼠体内PIWI蛋白(MILI蛋白)与piRNA协作切割目标RNA(核糖核酸)的全过程。
2025-01-17 10:00
北京大学材料科学与工程学院庞全全团队开发了一种新型玻璃相硫化物固态电解质材料,并采用该材料研制出具有优异快充性能和超长循环寿命的全固态锂硫电池。
2025-01-17 04:30
在相对较短的时间内,早期陆地维管植物为何会发生复杂变化?近日,中国科学院南京地质古生物研究所助理研究员黄璞联合国内多名学者,发现并报道了在贵州下泥盆统蟒山群发掘的距今约4.1亿年前的“迷你”植物——包阳工蕨化石。
2025-01-17 04:30
在星际空间中,被冰覆盖的尘埃颗粒是复杂有机分子生成的关键载体,因此,“看”清楚冰表面的原子结构,对于探索生命起源和物质来源具有重要意义。
2025-01-16 04:15
近日,国务院批准同意《浙江省义乌市深化国际贸易综合改革总体方案》,此次改革以数字化技术全面嵌入交易、物流、支付、融资等贸易供应链监管与服务的各个环节,为中小微主体降本增效,从而实现“买全球卖全球”的国际贸易目标。
2025-01-16 04:15
今天,人们的生活水平不断提高,实现从“吃得饱”向“吃得好”转变,但“吃得好”并不等同于吃得营养健康。一日三餐,看似吃饱吃好了,但很可能因营养成分摄入不均衡使身体处于隐蔽性营养需求饥饿状态。
2025-01-16 04:15
全国青少年科技创新大赛(以下简称“大赛”)1982年创办,是中国科学技术协会、国家自然科学基金委、共青团中央、全国妇联等共同主办的青少年科技创新赛事,旨在发现和培养青少年科技创新后备人才。
2025-01-16 04:15
15日,2024年度中国气候研究重大进展发布会在江苏南京信息工程大学举行。此次发布的10项气候研究重大进展,涵盖气候预测、气候变化影响、气候系统演变等多个领域。
2025-01-16 04:15
近年来,在青海省林业和草原局以及三江源国家公园管理局的指导下,北京大学、山水自然保护中心等机构联合当地社区监测员,对2015年至2021年在三江源区域12个长期监测位点开展的雪豹等野生动物监测工作进行汇总,相关研究结果已在国际学术期刊《生物多样性与保护》在线发表。
2025-01-16 04:15
2025年1月1日起,修订后的《国家自然科学基金条例》正式施行。这是继2007年4月1日《条例》实施以来,17年来的首次修订。
2025-01-15 10:08
14日,国家重大科技基础设施“聚变堆主机关键系统”的关键子系统“偏滤器等离子体与材料相互作用研究平台”完成测试,超导直线等离子体装置“赤霄”全面建成并投入运行。
2025-01-15 10:00
我国新一轮找矿突破战略行动实施以来,已取得一系列重大找矿成果,一大批共伴生、低品位资源转化为可利用资源。
2025-01-15 09:58
科技创新能够催生新产业、新模式、新动能。推动科技创新和产业创新深度融合,是我国深入实施创新驱动发展战略的内在要求,也是加快发展新质生产力、建设现代化产业体系的迫切需要。
2025-01-15 09:57
藏粮于技,科技创新保障粮食安全,杂交技术实现新突破,育成亩产超过1200公斤的绿色超级稻等,刷新世界纪录。
2025-01-15 09:55
近日,深空产业协同创新联盟成立大会暨第一届深空产业论坛在安徽合肥高新区举办,标志着深空探测产业化进程迈出坚实一步。此次活动的举办,也是合肥高新区着力发展未来产业的生动注脚。
2025-01-14 10:03
2025年,人工智能究竟将如何发展?哪些领域会诞生新的消费场景?我们又可以如何拥抱变化?
2025-01-14 09:56
为进一步加大对创新药的支持力度,国家医保局将研究出台一系列政策举措,包括拓宽创新药支付渠道、探索建立丙类药品目录等。
2025-01-14 09:42
加载更多