首个能互译闽南语和英语的人工智能系统 准确度“赞啦!”

更新:
2022年10月20日 22:58
闽南语翻译系统

Heng ah = Thank goodness?

“爱呷面唔爱(要吃面不要)?”

红蚂蚁十多年前在曼谷街头听到这句方言,激动得差点落泪。

这不是夸张,毕竟当时说话的面摊摊主听不懂英语,而丝毫不谙泰语的红蚂蚁一番比手画脚都不成功,就快到了气急败坏的地步。

当然,现在科技和人工智能进步神速,在很多情况下都能轻易打破语言隔阂。即便是以口语表达为主的不成文语言(如闽南语等方言),或许再过一阵子就完全难不倒科技。

不信?我们让Meta(前称脸书)总裁扎克伯格的这段视频来说话。

这段英语和闽南语互译的对话如何?借它翻译出来的一句话,是不是“实在是金赞”?

数据不足是为不成文语言开发翻译系统的难点

目前市面上的翻译软件和应用程序虽然不少,但主要着重于书写系统完善的成文语言。

Meta在其网站上表示,世界上仍有将近3500不成文语言(unwritten language),闽南语便是其一。

目前的机器翻译系统仍需以平行语料(即以两种不同语言撰写,相互具有“翻译关系”的文本)作为训练数据,而为这类语言开发翻译系统的挑战,也在于缺乏这方面的数据。

平行语料
平行语料是用来训练机器翻译系统的数据来源。(互联网)

因此,技术团队为了制造更多训练数据,采取的一个解决办法就是以中文作为“中间语言”,先将英语或闽南语的原文译成中文,再转译成闽南语或英语,以增加训练数据。

“马票”会不会译为horse ticket?

从扎克伯格的视频来看,他和Meta软件工程师陈鹏仁在对话的时候语速适中,咬字清晰,使用的美式英语和台语都相当标准,因此无法判断系统会不会因为使用者发音不准或说话太快而“凸槌”。

而不同地区的闽南语也会包含各地特有的词汇和表述,Meta的闽南语系统如果现在让新加坡人使用,会不会把“马票”直译为horse ticket或其他匪夷所思的“神翻译”,目前也还不清楚。

Meta称,系统目前还在开发中,每次也只能翻译一个句子。未来,Meta会开放系统的原始编码,并公开数据集(datasets)和研究报告,让他人复制并加以改良,为不同语言开发翻译系统。

以系统目前的水平来看,美国人应该能靠它听懂台南人的话了。

说不定有一天,系统可以将“Thank goodness!”这句感叹译成带有浓浓新加坡风味的“Heng ah!”,到时候就真的是hoseh liao,你说是吗?

想分享你的文章?

请电邮:antseditorial@redants.sg