Published on

不同数据噪音对SMT_NMT模型的影响

On the Impact of Various Types of Noise on Neural Machine Translation

增加网络爬取噪音数据之后,NMT翻译能力下降很大。SMT表现受噪音能力影响小。

错误分类为:

  • MISALIGNED SENTENCES:不对齐的句子
  • MISORDERED WORD:不流利的句子 (判断句子不流利具有一些主观因素)
  • WRONG LANGUAGE:比如英中翻译,加入英日翻译语料
  • UNTRANLATED SENTENCES:不翻译的句子,tgt=src
  • SHORT SEGMENTS:分为 <=2 和 2-5的

模型:

  • SMT: Moses 短语翻译模型
  • NMT:RNN

结论:

UNTRANLATED SENTENCES对NMT翻译结果影响最大,NMT的复制机制。

WRONG LANGUAGE 加入其他语言,SMT和NMT表现都很健壮。对NMT影响不太大

SHORT SEGMENTS: 2-5 toks长度对SMT和NMT还有些增强作用