Published onApril 1, 2022n-gram检索domain_Adaptation:_Non-Parametric_Adaptation_for_Neural_Machine_TranslationAI这篇文章提出了一种半参数方法,通过n-gram检索来实现神经机器翻译在新领域的无参数适应。作者设计了新的架构来编码源语言和目标语言信息,并通过消融分析验证了方法的有效性。该方法在异构数据和稀有短语翻译上表现良好,避免了微调可能带来的灾难性遗忘问题。
Published onMarch 31, 2022GEC语法错误纠正-GECToRAI这篇文章介绍了一种名为GECToR的语法纠错方法,采用序列标注模型对错误tokens进行变换标记,而不是直接重写句子。该方法通过三步训练过程和推理技巧提高了模型性能,在保持高准确率的同时大幅提升了推理速度。
Published onMarch 31, 2022MT翻译记忆融合-Encoding_Gated_Translation_Memory_into_Neural_Machine_TranslationAI这篇文章提出了一种将翻译记忆(TM)融入神经机器翻译(NMT)的方法。通过两个独立的编码器对输入和TM匹配进行编码,并使用TM门控网络计算权重,将TM信息加权融入翻译生成过程。实验验证了不同模糊匹配分数(FMS)对结果的影响,并分析了TM门控值与语义相似度的关系。
Published onMarch 31, 2022增强术语翻译(修改输入)-Training_Neural_Machine_Translation_To_Apply_Terminology_Constraints_AI这篇文章介绍了一种通过在输入中增加目标端术语信息来提高神经机器翻译模型术语翻译能力的方法。该方法使用replace和append两种方式添加术语注解,让模型学习"复制机制",并考虑术语的形态变化。研究结果显示这种方法可以提高术语翻译准确性,但在BLEU评分上有所下降,且通用性有限。
Published onMarch 22, 2022低资源领域适应MTAI这篇文章介绍了几种利用丰富通用语料来训练低资源领域机器翻译模型的方法,包括增量训练、集成解码、合并训练数据和数据加权等。其中数据加权方法通过对领域内数据进行过采样,在训练过程中让模型"见到"更多领域数据,在领域数据量为50k-500k时效果较好。