2018_ACL_迭代回译

Iterative Back-Translation for Neural Machine Translation 2018 ACL

迭代回译，实践中是简单的有效的。作者在高低资源下展示了迭代回译对翻译质量的提升。在 WMT 2017 German-English任务BLEU 上获得了已知最高的评分。

结论：迭代回译要使用好的模型进行回译。合成数据质量要高

单语数据利用相关工作

回译在2011年就有这个想法。最近相关的工作有对偶学习，作者使用对偶学习(NIPS 2016 微软提出https://www.msra.cn/zh-cn/news/features/dual-learning-20161207)的方式做了很多实验，但是并没有获得增益。

利用单语数据训练一个语言模型集成到翻译模型中，但是还没有证明效果可以超过back translation

模型回译质量的影响

作者直觉认为，好的回译系统可以产生好的合成双语数据，从而可以训练处好的翻译模型。所以作者以不同质量的翻译模型去验证这一直觉。

数据：使用2017 新闻领域 German-English数据，并且使用与双语数据等量的单语新闻领域数据（对领域单语数据进行下采样）。

训练数据信息

back translation模型：

10k iterations，0.15 epoch
100k iterations，1.5 epoch
concergence，10 epoch

可以看到100k和convergence模型BLEU都获得了增加。可以看出回译系统的质量是影响翻译效果的重要因素。

迭代回译的步骤：

迭代回译算法

高资源数据实验

base翻译系统：shallow system，4-checkpoint ensembe, beam size 2

first back-translation system: 使用合成数据（+ base系统回译产生的数据），deep model, 8 checkpoint ensemble, beam size 2

final back-translation system:使用几个不同的系统shallow, deep,4 checkpoint ensembe

（模型使用的都是RNN Seq2seq架构）

回译与迭代回译比较

可以看到，迭代回译的提升效果。

低资源数据实验

如图是在10万条数据双语数据上进行实验。English-French 翻译BLEU提升较高。但在Farsi-English上BLEU增加不明显。作者给出的原因是波斯语翻译比法语难，或训练数据中不同领域混合的结果（作者引出了一个新问题，迭代翻译数据和双语数据不同域的影响？）使用Moses短语翻译模型回译的效果在English-French上翻译较好（这个原因是不是需要分析一下？）。

低资源不同回译效果

对真实和合成语料的比例进行了研究，发现更多的合成数据是有用的。（1:1 ，1:2 1:3）

单语数据的质量：回译很大程度上依赖反向翻译合成数据的质量。不同的语言对，不同的领域迭代回译的效果可能是不同的。作者使用随机抽样的方法选择单语数据，因此句子抽到的次数可能不止一次。采用不同的抽样方法，可能带来不同的效果。