- Published on
TranSmart-笔记
交互式机器翻译
2 System Features
主要功能 及其 采用的技术:
-
词级别 自动补全;在英文单词输入的场景下,只用输入开头的几个字母,就可以生成几个候选单词,提高单词输入的效率
- 词汇约束(lexical constraints)
- word autocompletion
-
句子级别 自动补全;只需要提供部分单词翻译(提供的单词不需要保证连续),系统通过自动生成剩余单词完成翻译
- Generic Translation Model
- NMT with Lexical Constraints
-
增强翻译记忆 ,根据翻译历史生成翻译记忆,避免相似句子同类错误的产生。
- Generic Translation Model
- Translation Memory
-
其他的功能
- Document Translation
- Image Translation
- Terminology Translation
- 根据词频,长度比例,词频识别,过滤掉100万的网上爬取术语,产生出200万的术语terms
- Bilingual Examples:构建了一个2亿的句子检索,给用户展示3条输入相似句子。
3 Implemented Techniques
3.1 Generic Translation Model
使用24-layer encoder 和 6-layer decoder, hidden size 1024
使用2亿中英句对,batch:46万token
Data Rejuvenation
Data Rejuvenation: Exploiting Inactive Training Examples for Neural Machine Translation
重新利用对模型性能贡献较小的非活动训练示例进行训练,增加模型性能。
Data Augmentation
数据增强的做法通常有(self-training 和 back translation),作者经验说基于大规模单语数据随机抽取子集构建合成数据,是次优的。
作者改进了抽样过程,大概率选择不确定性较高的句子,进行抽样。不确定性较低的句子通常对应简单的翻译模型,不会带来额外的收益。Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation
3.2 General Word-level Autocompletion
作者将单词自动补全分解为两个部分,基于原序列x和翻译上下文c对单词w的分布进行建模$P(w|x,c_l,c_r;\theta)=softmax(\phi(h))[w]$h是[MASK]的变量,然后线性映射到词表大小,然后基于该分布和人类键入的序列s找到最可能的单词w(这个训练数据通过训练样本生成,非标注)。
3.3 Sentence-level Autocompletion by Lexical Constraints
两种:硬约束,通过优化解码算法,权衡质量和速度。
软约束:将词语约束进行编码,然后decode的时候用。
3.4 Graph based Translation Memory
Graph Based Translation Memory for Neural Machine Translation
3.5 others
word alignment
由于GIZA++内存消耗问题,作者使用HMM-based word alignment
5 System Evaluation
word-level 准确率有提升。
基于图的翻译记忆集成到Transformer模型与原始模型相比,带来了3个BLEU点的提升