如何计算机器可翻译性?

计算各语言的机器可翻译性的过程并不简单。各语言的难点不同,对于质量的标准也不尽相同。不过,我们仍可以使用一些指标进行评估。

例如,编辑改动程度,也就是译后编辑人员为确保最终文本能达到人工翻译质量而做出的改动数量。这一指标通常被用来比较不同机器翻译引擎对同一种语言的翻译效果,但我们也可以用它来判断不同语言的复杂程度,帮助我们确定每个语言对的机器可翻译性。

Lionbridge 机器可翻译性研究结果:各语言排名如何?为何会有这样的排名?

Lionbridge 处理了数百万个句子后,得出了 28 种目标语言的机器可翻译性排名。

研究结果表明,语言复杂程度与语系有关。

罗曼语族

从英语译入大多数罗曼语族语言(例如葡萄牙语、西班牙语、法语、意大利语),MT 译文质量通常较好,不需要进行大量修改。我们认为这几种目标语言是机器最容易处理的语言,位列机器可翻译性排行榜前四。

值得注意的是,榜单中同属罗曼语族的罗马尼亚语,排名较为靠后,位列第十位。这一结果可能是因为下列原因:罗马尼亚语在罗曼语族中翻译量较少,因此用于训练 MT 引擎的双语训练语料库较小,另外,罗马尼亚语的语法比较复杂(罗马尼亚语的语法复杂性与拉丁语类似)。

简体中文

简体中文与英语大相径庭,却位列榜单第五位,紧随前四种罗曼语族语言。我们认为简体中文之所以位列如此高位,是因为 MT 引擎在过去五年中不断针对此语言对进行更新和优化,我们在此期间对 MT 的持续跟踪结果也印证了这一点。由于英-中语言对的商业利益较高,因此 MT 公司对此大举投资,以改进 MT 效果。

较为复杂的语言

匈牙利语和芬兰语这两种乌拉尔语系语言则更为复杂,在我们的排名中位列末尾,分别排在第 27 位和第 28 位。同属乌尔拉语系的爱沙尼亚语位列榜单的第 24 位。

韩语的排名也较靠后,位列第 25 位。