Published on

机器翻译中域内小样本微调的正则

Regularization techniques for fine-tuning in neural machine translation 2017 ACL

在小数据上进行迁移学习(使用小规模领域内数据对通用机器模型进行微调)的一个问题是过拟合。作者测试了三种防止过拟合的方法(自己提出来了一种Tuneout),发现正则的技术可以使训练更加鲁棒,防止过拟合。实验结论在微调的时候使用dropout和MAP-L2组合会带来更稳定的训练,BLEU提升较为明显。

微调的领域数据和BLEU评分有对数关系...如下图

微调的其他方式还有使用域内数据在通用模型上继续训练。

机器翻译中,使用联合训练来解决域内数据稀少的问题。

正则化技术

Dropout

$M_{W,i,j}$ :bayesian dropout mask

MAP-L2

W是域内参数矩阵,W帽是固定的通用模型参数矩阵。

Tuneout

W冒:固定的域外模型参数

△W:参数变化矩阵

$M_{△W,i,j}$ :bayesian dropout mask

结果

English->German训练中验证集下BLEU变化

可以看到随着训练增多,单纯使用fine-tune的翻译能力下降。而正则化不然,是训练更加稳定

作者的方法并没有提升。dropout+MAP-L2的提升比较明显

作者在实验中使用了early stop,结尾说明对于少量的域内数据而言,有点不切实际,因为early-stopping需要依赖足够大的域内验证集。