连续语义增强机器翻译及魔搭社区应用实践 达摩院-机器智能技术实验室魏相鹏 xiangpeng.wxp@alibaba-inc.com 2 问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料 英俄CCMatrix平行语料领域分布整体趋势:翻译质量随语料规模增加逐渐上升 挑战:在大量的实际应用场景中,平行语料的规模非常有限,人工生产成本高、生产周期长 为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。 为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。 常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型 常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型 常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型 常用技术:对抗样本(AdversarialExamples),概念来源于生成对抗网络,通过对原始句子进行同义词替换、词调序、随机删词等操作,以提升翻译模型对源文扰动的鲁棒性。 Wangetal.2018.SwitchOut:anefficientdataaugmentationalgorithmforneuralmachinetranslation. 上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是在离散的自然语言空间中产生增强样本)存在局限性: 上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是在离散的自然语言空间中产生增强样本)存在局限性: 数据多样性差容易发生语义偏移真实数据和伪数据之间的差异导致模型有偏 回归本质:从自然语言的固有特性来分析为什么离散式数据增强技术容易快速遇到性能瓶颈 离散式数据增强无法覆盖(全部的、分布在整个自然语言空间的)这种即时选择的行为,从而使得机器的求解范围总是限制在局部。 技术方案突破离散空间,构建连续语义分布 OuputProbabilities Softmax Decoder Add&Norm FeedForward Encoder Add&Norm FeedForward Add&Norm Multi-HeadAttention BroadcastingIntegration Add&Norm Multi-HeadAttention Add&Norm MaskedMulti-HeadAttention PositionEncoding SemanticEncoder PositionEncoding 技术方案突破离散空间,构建连续语义分布 OuputProbabilities Softmax Decoder Add&Norm FeedForward 优化目标:邻域风险最小化 Encoder Add&Norm FeedForward Add&Norm Multi-HeadAttention BroadcastingIntegration Add&Norm Multi-HeadAttention Add&Norm MaskedMulti-HeadAttention PositionEncoding SemanticEncoder PositionEncoding 技术方案突破离散空间,构建连续语义分布 OuputProbabilities Softmax Decoder Add&Norm FeedForward 优化目标:邻域风险最小化 Encoder Add&Norm FeedForward Add&Norm Multi-HeadAttention BroadcastingIntegration Add&Norm Multi-HeadAttention Add&Norm MaskedMulti-HeadAttention PositionEncoding SemanticEncoder PositionEncoding 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 优化语义编码器:TangentialContrastiveLearning 基于邻域进行采样:MixedGaussianRecurrentChainSampling挑战:邻域分布未知 基于邻域进行采样:MixedGaussianRecurrentChainSampling 基于邻域进行采样:MixedGaussianRecurrentChainSampling 基于邻域进行采样:MixedGaussianRecurrentChainSampling 基于邻域进行采样:MixedGaussianRecurrentChainSampling 基于邻域进行采样:MixedGaussianRecurrentChainSampling 基于邻域进行采样:MixedGaussianRecurrentChainSampling 应用效果:学术公开数据集,性能SOTA,泛化能力强 NIST中→英翻译任务(125万平行数据) 应用效果:学术公开数据集,性能SOTA,泛化能力强 WMT14英→德/法(450万/3600万平行数据) 模型鲁棒性分析 模型在噪音和翻译体源文上的鲁棒性 译文质量分析 译文多样性及忠实度对比结果 数据利用效率分析 魔搭社区(ModelScope,官方网站:https://www.modelscope.cn/home)秉持“模型即服务”的理念,通过开源的 PythonPackage,统一封装了数百个模型使用的接口,能够有效地降低AI模型的使用、定制、评估和部署门槛。 连续语义增强机器翻译(CSANMT,快速访问:https://www.modelscope.cn/models?page=1&tasks=translation) 已通过ModelScope对外发布,支持推理、定制微调、在线体验等功能,目前覆盖中英双向互译和英法双向互译: 魔搭社区(ModelScope,官方网站:https://www.modelscope.cn/home)秉持“模型即服务”的理念,通过开源的 PythonPackage,统一封装了数百个模型使用的接口,能够有效地降低AI模型的使用、定制、评估和部署门槛。 连续语义增强机器翻译(CSANMT,快速访问:https://www.modelscope.cn/models?page=1&tasks=translation) 已通过ModelScope对外发布,支持推理、定制微调、在线体验等功能,目前覆盖中英双向互译和英法双向互译: 首先,准备Python环境: condacreate–nmodelscopepython=3.7condaactivatemodelscope 然后,安装ModelscopeLibrary,相关依赖库支持按NLP、CV、语音等不同领域安装: pipinstall"modelscope[nlp]"-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html 注:如果您已经安装过ModelScope,在需要使用最新版本发布的Library时,可执行如下命令: pipinstall“modelscope[nlp]”--upgrade-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html 详情可参考文档:https://www.modelscope.cn/docs/%E7%8E%AF%E5%A2%83%E5%AE%89%E8%A3%85 准备CSANMT模型,以“CSANMT连续语义增强模型-英中-通用领域-large”为例: ModelScope支持三种模型下载方式,分别是Library集成库下载、SDK下载以及Git下载,以Git下载为例: gitlfsinstall gitclonehttps://www.modelscope.cn/damo/nlp_csanmt_translation_en2zh.git #model_dir目录的文件组织应包含如下结构: #|_configuration.json#|_src_vocab.txt #|_trg_vocab.txt#|_bpe.zh #|_bpe.en#|_train.zh#|_train.en #|_tf_ckpts #|_checkpoint #|_ckpt-0.data-00000-of-00001#|_ckpt-0.index #|_ckpt-0.meta 相关文档:https://www.modelscope.cn/docs/%E6%A8%A1%E5%9E%8B%E7%9A%84%E4%B8%8B%E8%BD%BD 准备CSANMT模型,以“CSANMT连续语义增强模型-英中-通用领域-large”为例: ModelScope支持三种模型下载方式,分别是Library集成库下载、SDK下载以及Git下载,以Git下载为例: gitlfsinstall gitclonehttps://www.modelscope.cn/damo/nlp_csanmt_translation_en2zh.git #model_dir目录的文件组织应包含如下结构: #|_configuration.json#|_src_vocab.txt #|_trg_vocab.txt#|_bpe.zh #|_bpe.en#|_train.zh#|_train.en #|_tf_ckpts #|_checkpoint #|_ckpt-0.data-00000-of-00001#|_ckpt-0.index #|_ckpt-0.meta 参数配置文件 词表文件,源语言为英文、目标语言为中文 byte-pair-encoding编码 训练样例,已经过tokenize和BPE预处理模型存储目录,格式为checkpoint源文件 相关文档:https://www.modelscope.cn/docs/%E6%A8%A1%E5%9E%8B%E7%9A%84%E4%B8%8B%E8%BD%BD 模型推理示例(用户不需要修改任何配置,提供输入源文,仅通过简单的pipeline即可使用): #English-to-ChineseTranslation frommodelscope.pipelinesimportpipelinefrommodelscope.utils.constantimportTasks input_sequence='ElonMusk,co-founderandchiefexecutiveofficerofTeslaMotors.’ pipeline_ins=pipeline(ta