- Published on
不同数据噪音对SMT_NMT模型的影响
On the Impact of Various Types of Noise on Neural Machine Translation
增加网络爬取噪音数据之后,NMT翻译能力下降很大。SMT表现受噪音能力影响小。
错误分类为:
- MISALIGNED SENTENCES:不对齐的句子
- MISORDERED WORD:不流利的句子 (判断句子不流利具有一些主观因素)
- WRONG LANGUAGE:比如英中翻译,加入英日翻译语料
- UNTRANLATED SENTENCES:不翻译的句子,tgt=src
- SHORT SEGMENTS:分为
<=
2 和 2-5的
模型:
- SMT: Moses 短语翻译模型
- NMT:RNN
结论:
UNTRANLATED SENTENCES对NMT翻译结果影响最大,NMT的复制机制。
WRONG LANGUAGE 加入其他语言,SMT和NMT表现都很健壮。对NMT影响不太大
SHORT SEGMENTS: 2-5 toks长度对SMT和NMT还有些增强作用