机器翻译中域内小样本微调的正则

Regularization techniques for fine-tuning in neural machine translation 2017 ACL

在小数据上进行迁移学习（使用小规模领域内数据对通用机器模型进行微调）的一个问题是过拟合。作者测试了三种防止过拟合的方法(自己提出来了一种Tuneout),发现正则的技术可以使训练更加鲁棒，防止过拟合。实验结论在微调的时候使用dropout和MAP-L2组合会带来更稳定的训练，BLEU提升较为明显。

微调的领域数据和BLEU评分有对数关系...如下图

微调的其他方式还有使用域内数据在通用模型上继续训练。

机器翻译中，使用联合训练来解决域内数据稀少的问题。

正则化技术

$M_{W,i,j}$ ：bayesian dropout mask

W是域内参数矩阵，W帽是固定的通用模型参数矩阵。

W冒：固定的域外模型参数

△W：参数变化矩阵

$M_{△W,i,j}$ ：bayesian dropout mask

English->German训练中验证集下BLEU变化

可以看到随着训练增多，单纯使用fine-tune的翻译能力下降。而正则化不然，是训练更加稳定

作者的方法并没有提升。dropout+MAP-L2的提升比较明显

作者在实验中使用了early stop，结尾说明对于少量的域内数据而言，有点不切实际，因为early-stopping需要依赖足够大的域内验证集。