| 机器翻译在跨境电商的应用与研究 杨宝嵩阿里巴巴算法专家 01阿里翻译技术平台概览 目录 CONTENT 02翻译在跨境电商中的应用 03最新技术探索 | | 01阿里翻译技术平台概览 |5 论文&专利 •发表60+CCFA/B类会议/期刊论文 •100+项专利 •ACL2022OutstandingPaperAward 国际评测 •WMT21国际顶级机器翻译评测 •QualityEstimationTask9个语向第一 •MetricsTask5个语向第一 •术语翻译任务英中第一 •2021年CommonGen文本生成大赛5月登顶LeaderBoard •WMT18国际顶级机器翻译评测 •翻译任务5语向第一 奖项 •工信部新一代人工智能重点任务揭榜计划、第一期人工智能产业创新“多语言智能翻译平台”揭榜优胜单位(仅3家) | 6 •“面向全球电子商务的多语言处理技术与平台”获得浙江省科学技术进步二等奖 | 01翻译在跨境电商中的应用 标题单位 UI框架 | 8 尺码 详情描述 | 9 评论 | 10 问大家 | 11 买卖家沟通商品搜索 | 12 图片翻译 | 13 | 14 直播/视频翻译 | 01最新技术探索 连续语义增强(ICLR21、ACL22) 翻译 模型改进 UniTE(ACL22) 质量评估 领域适配器(NeurIPS20、EMNLP20、TASLP21)KNN-MT(ACL21、EMNLP21、ACL22) 领域适应 多粒度表示迁移(ACL21) 知识融合 个性化机器翻译(ACL21,ACL22,NAACL22) 个性化 | 16 问题:回译等离散表示数据增强方法,数据多样性差、利用效率低,且易产生语义偏移 解决方法:连续语义空间扩充训练样本的数据分布,结合邻域风险最小化策略优化翻译模型 | 17 质量评估:融合不同类型的标注数据的UniTE(ACL22) 问题:三种评估场景(原文,译文)、(译文,参考译文)、(原文,译文,参考答案)采用的技术、语料均不相同,标注资源不能得到充分利用 解决方法:基于区块化Attention掩码的模型结构,利用跨语言预训练和多任务联合训练,实现不同类型标注资源的知识迁移 WMT21Metrics比赛第一 单一模型(WMT2019所有语向)超越三个评估场景的SOTA模型 | 18 AdaptiveLayer Transformer DecoderOutput UpProjection AdaptiveLayer ReLU DownProjection AdaptiveLayer FeedForward FeedForward Cross-Attention Self-Attention Self-Attention ×M ×N EmbeddingEmbedding X Y 特点: •不影响译训练好模型的性能 •部署代价小,每个领域仅增加Adaper参数 问题:训练好的翻译模型如何快速迁移至新领域?Finetuning有灾难性遗忘问题,需要调整全部参数,部署代价大解法:引入Adapter,固定训练好模型的参数,仅调整Adapter参数以适配新领域 中英BLEU 领域内 领域外 均值 Baseline 35.28 48.87 42.08 Baseline+Finetune 36.98 49.05 43.02 Baseline+Adapter 45.47 43.72 44.60 | 19 自动学习 k与lambda关系 问题:finetuning、Adapter都需要训练,应用代价大,能否在不训练情况下,实现领域适配?解决方法:寻找最相似句子,利用译文动态干预解码过程 特点: •无需训练,仅需更新新领域的索引 领域适应 IT Koran Law Base 22.99 10.16 33.36 Base+KNN-MT 27.47 18.44 39.23 Adapter 36.28 25.98 49.07 Adapter+kNN-MT 38.73 29.01 52.14 | 20 问题:不同分词粒度的模型如何进行知识迁移?解决方法:引入EmbeddingGenerator •根据字词与父词组合,使用一个Embedding生成器来迁移词表 g, •EmbeddingGenerator的训练:在上游任务中,模型将随机拆分长单词并组合短单词,使用EmbeddingGenerator生成这些未见过token的embeddin过程中受到上游任务目标和蒸馏目标监督。 | 21 问题: •语言具有多样性,好的翻译应该拟合说话人的表达习惯,以及知识水平 •单一翻译结果可能只能满足大多数用户,不能满足每个用户的需求 解法:个性化翻译 •根据tf-idf分数提取用户历史关键词,使用编码器建模用户表征。 模型 准确性(BLEU) 翻译差异性 传统翻译 27.52 0.00% 个性化翻译 32.35 31.68% •提出对比学习策略,拉近相似用户译文,推远不相似用户译文,实现半监督训练,解决数据稀疏,缺少用户标注样本的问题。 22 | 问题:语言具有多样性,然而现有单reference训练使得模型趋向于生成相近的表达,个性化翻译也需要翻译能够产生更多样的表达为前提。 解法:多样性翻译,模型训练过程中多个生成结果定义DiversityRewards以及QualityRewards,使用最小风险训练进行优化。 原文 依巴拉告诉今日新闻电视台说,「这是一个恐怖夜晚」 普通模型 Ibarratoldtoday'snewstelevisionstation,"Thisisaterroristevening."Ibarratoldtoday'snewstelevisionstation,"Thisisaterribleevening."Ibarratoldtoday'snewstelevisionstationthat"Thisisaterroristevening. 多样性模型 ThisisaterriblenightaccordingtoIbarratoldtoday’snewsTVstation.Ibarratoldtoday’snewstelevisionstation,“Thisisaterriblenight.”SpeakingtonewsTVtoday,Ibarrasaid,"Thisisaterriblenight.” •特点:简单、易复用、不需要修改模型架构。 23 | 问题:语种识别是翻译的第一步,面临用户输入不规范(拼写错误,语序不严格)以及多语言歧义(品牌词、同形异义词)的挑战 解法:无监督个性化语种识别 •利用用户信息(历史语种分布、国家属性)等信息辅助分类 24 •无监督训练:由于没有标注数据,根据用户A的语种历史分布从通用数据中采样,以构造用户A的特征的训练数据 | 参考文献 ACL 2022 LearningtogeneralizetoMore:ContinuousSemanticAugmentationforNeuralMachineTranslation ACL 2022 UniTE:UnifiedTranslationEvaluation ACL 2022 UnsupervisedPreference-AwareLanguageIdentification ACL 2022 EfficientCluster-basedk-Nearest-NeighborMachineTranslation NAACL 2022 BridgingtheGapbetweenTrainingandInference:Multi-CandidateOptimizationforDiverseNeuralMachineTranslation AAAI 2022 Non-ParametricOnlineLearningfromHumanFeedbackforNeuralMachineTranslation ACL 2021 TowardsUser-DrivenNeuralMachineTranslation ACL 2021 BridgingSubwordGapsinPretrain-FinetuneParadigmforNaturalLanguageGeneration ACL 2021 AdaptiveNearestNeighborMachineTranslation ICLR 2021 Onlearninguniversalrepresentationsacrosslanguages EMNLP 2021 Non-ParametricUnsupervisedDomainAdaptationforNeuralMachineTranslation NeurIPS 2020 IncorporatingBERTintoParallelSequenceDecodingwithAdapters IEEE-TASLP 2021 AdaptiveAdapter:anEfficientWaytoIncorporateBERTintoNeuralMachineTranslation 25 更多交流:yangbaosong.ybs[AT]alibaba-inc.com | 26 | 非常感谢您的观看