Published onSeptember 9, 2021sentencepiece_user_defined&control_symbolsAISentencePiece库中用户自定义符号和控制符号的使用方法。用户自定义符号在任何上下文中都被视为一个token,可以在输入句子中出现;而控制符号只保留ID,即使出现在输入文本中也不会被作为一个token处理,用户需要在编码后显式插入ID。
Published onSeptember 9, 2021概率分布-熵AI这篇文章主要介绍了概率论中的一些基本概念和特性,包括均值、方差、期望、熵等。文章还通过一个具体的天气预报例子,展示了如何计算联合熵、条件熵和互信息,说明了随机变量之间的相互依赖关系。
Published onSeptember 7, 2021使用SMT特征提高NMT-2016_AAAI_百度AI这篇文章提出了一种在对数线性框架下将统计机器翻译(SMT)特征与神经机器翻译(NMT)模型集成的方法,以改进NMT的性能。作者组合了三个SMT特征:翻译模型、单词奖励特征和n-gram语言模型,解决了NMT中的OOV问题、翻译不充分问题,并利用了大规模单语数据。实验结果表明,该方法在NIST中英翻译测试集上提升了2.33 BLEU分。
Published onAugust 31, 2021翻译-Finding_the_Words_to_Say:_Hiddent_State_Visualizations_for_Language_ModelsAI这篇文章介绍了通过可视化GPT2-XL语言模型隐层状态来探索模型思考过程的方法。文章展示了如何将隐层状态映射到词表并使用softmax计算概率,以及如何查看每层输出token的排名变化,从而分析模型在不同层级的决策过程。通过这些可视化技术,可以洞察模型的内部工作机制,包括句子结构识别、关键词预测以及潜在的性别偏见等。
Published onAugust 24, 2021PR-ROC-AUC曲线AI这篇文章主要介绍了PR曲线和ROC-AUC曲线的概念及特点。PR曲线反映了查准率和查全率之间的关系,通过调节置信度阈值来绘制。ROC-AUC曲线则反映了真正类率和假正类率的关系,其面积不受正负样本比例影响。