目录 引言1 一、百度大脑进化到5.02 二、基础层3 2.1算法3 2.2算力5 2.3数据10 三、感知层11 3.1语音11 3.2视觉13 3.3增强现实/虚拟现实17 四、认知层19 4.1知识图谱20 4.2自然语言处理22 五、平台层27 5.1飞桨(PaddlePaddle)深度学习平台28 5.2UNIT智能对话训练与服务平台32 5.3开放数据集33 六、AI安全35 结语与展望40 引言 回顾过去的一年,科技与商业发展的一个关键词就是“人工智能”。在近一年的时间里,百度科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多方面取得了令人瞩目的技术成果,还将这些技术成果与行业相结合,成功应用于众多产品之中,取得了丰硕的人工智能应用成果。 2019年2月,世界知识产权组织(WorldIntellectualPropertyOrganization,简称WIPO)发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。报告显示,百度在深度学习领域的专利申请量位居全球第二,超越Alphabet、微软、IBM等企业和国外学术机构,在全球企业中居于首位。 过去的一年,百度基础技术体系、智能云事业群组和AI技术平台体系进行了重大组织机构调整,三个体系统一向集团CTO汇报,这为技术中台建设和人工智能技术落地提供了良好的组织保障。 本报告总结了百度大脑在2018-2019年度取得的部分技术成果:第一章主要概述百度大脑5.0,第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。 面向未来,百度将继续打造领先的AI技术能力,构建更加繁荣的人工智能生态系统,助力各行各业进入智能化的工业大生产阶段,在智能时代创造更广泛的社会经济价值。 一、百度大脑进化到5.0 百度大脑是百度AI集大成者。百度大脑自2010年起开始积累基础能力,后逐步完善。2016年,百度大脑1.0完成了部分基础能力和核心技术对外开放;2017年,2.0版形成了较为完整的技术体系,开放60多项AI能力;2018年,3.0版在“多模态深度语义理解”上取得重大突破,同时开放110多项核心AI技术能力;2019年,百度大脑升级为5.0,核心技术再获重大突破,实现了AI算法、计算架构与应用场景的创新融合,成为软硬件一体的AI大生产平台。 如图1所示,百度大脑如今已形成了包括基础层、感知层、认知层、平台层以及AI安全五大核心架构在内的技术布局。同时,安全一直都贯穿AI技术研发的始终,已经融合在百度大脑的所有模块中。基于数据、算法和算力强大的基础能力支持,百度大脑拥有包括语音、视觉、增强现实(AR)/虚拟现实(VR)以及语言与知识等技术能力,并通过AI平台对外开放,形成以百度大脑为核心的技术和产业生态。 多年来,百度大脑支持百度几乎所有业务,并面向行业和社会全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级,其核心技术及开放平台荣获2018年度中国电子学会科技进步一等奖。 图1百度大脑 二、基础层 2.1算法 百度持续在算法和理论方面深入研究,在语音、图像、语言与知识等多个领域取得重大突破。 在语音识别方面,百度将注意力机制的建模技术用于在线语音识别,提出了流式多层截断注意力模型SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在2019年初实现了基于该技术的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用户体验,相对准确率提升15%至20%。该算法使用CTC(ConnectionistTemporalClassification)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模。通过该方法把原来的全局整句Attention建模,变成了局部语音小段的Attention建模。同时,为了克服CTC模型中不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。最终,这种创新建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。 图2流式多层截断注意力模型SMLTA 在个性化语音合成方面,百度还提出了语音风格和音色迁移的个性化韵律迁移语音合成技术Meitron。该技术在训练时,交叉组合不同声音的训练样本,实现了声音的音色、风格和情感的解耦。语音的个性化信息、风格信息和情感信息等沉淀到全局声音的基 (basis)空间中,并将声音共有信息沉淀到一个统一的声学模型中。在做语音合成的时候,用户仅仅输入少量目标语音作为指导,在全局声音基空间中进行注意力选择,选择出和当前用户个性化声音更加匹配的基。之后可以根据这个基,并结合训练好的共有信息声学模型,生成与目标语音的音色和风格高度相似的任意语音。依靠Meitron的解耦和组合机制,我们能够在不同音色、风格和情感之间进行风格转化和迁移,仅仅使用少量用户语音,就可以实现多种音色、情感和风格的转换。该技术成果已经落地百度地图产品,地图用户只需要提供约20句话的目标语音,就可以合成与目标语音非常相似的个性化声音,用于地图任意导航场景的语音播报和任意名胜景点的语音播报等。 图3Meitron个性化韵律迁移合成技术 在计算机视觉领域,百度研发了基于图文关系的大规模图像分类弱监督算法,提出了UbiquitousReweightingNetwork(URNet),给予每张图片训练过程中不同的权重,与原始的分类模型相比,Top5提升了8个点左右。该方法在最大的图像分类数据比赛Webvision比赛中获得冠军。在图像超分辨率领域,百度提出了基于级联回归的CDSR模型,用于图像的超分增强;还提出了自适应注意力多帧融合技术,用于视频的超分增强。2019年5月,在计算机视觉Low-levelVision领域中影响力最大的竞赛NTIRE上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。在医学图像领域,百度提出全新的基于深度学习的病理切片肿瘤检测算法[1],在公共数据集Camelyon16大赛上的肿瘤定位FROC分数高达0.8096, 超过专业病理医生水平以及之前由哈佛、MIT等保持的大赛最佳成绩。研究成果发表于 2018深度学习医学图像大会。 在自然语言处理领域,百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型,能够高精度地从语言数据中捕获主题信息。同时,通过联合恢复知识图嵌入空间中的头实体、谓词和尾实体表示,问答系统的回答准确性得到进一步提高。这项工作发表在IEEEBigData2018[2],SDM2019[3],WSDM2019[4]和NAACL2019[5]。 很多高维的特征空间,如词嵌入、图像的特征向量等,都有非常有趣的几何结构。另一方面,多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间的特性,提出的全新HublessNearestNeighbor(HNN)Search算法,能够大幅提高在标准数据集上的单词翻译准确率。以词嵌入空间为例,HNN能够只用极少量标注数据,实现不同语种间单词的翻译。HNN此项基础研究能够帮助提升机器翻译系统在低频词、术语、小语种等情况下的效果。另外,HNN作为一种新的信息检索方法,对广义上的多特征空间匹配都有指导意义,如零样本图像识别等。这项工作发表在ACL2019[6]。 百度提出的Logician逻辑家代理可以从开放领域自然语言句子中提取事实,实现了更深层次的语言理解,其性能明显优于现有的开放信息提取系统。百度还建立了一个Orator演说家代理,可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为双重任务,百度在自然语言和知识事实之间搭建了双向的桥梁,使得系统性能得到进一步的提升。这项工作发表在WSDM2018[7]和EMNLP2018[8]上。 2.2算力 人工智能时代,算法能力快速提升,同时,算法对算力的要求也越来越高。为了应对算力、效率和多元化场景等核心挑战,百度提出了端到端的AI计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,满足AI训练方面IO密集、计算密集、通信密集的需求,以及AI推理方面大吞吐和低延迟的需求。与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。在系统层兼顾端云,软硬一体,实现了对算力资源的灵活调度。 2.2.1芯片 云端通用AI处理器——百度昆仑 硬件的进展是这次AI发展的基础推动力量之一。云端的AI推理与训练芯片,成为了各大互联网公司、传统芯片厂商以及创业公司聚焦的战场。业界正在尝试使用特定领域架构(DSA)解决算力及功耗问题。 2018年开发者大会,百度发布了国内首款云端通用AI处理器“百度昆仑”。它基于XPU架构,采用14nm三星工艺,在150瓦功耗限制下,运算性能高达260Tops,能解决数据中心对芯片的高性能、低成本、高灵活性三大诉求。百度昆仑芯片具备完整的toolchains,并开放给开发者,与飞桨(PaddlePaddle)实现了深度结合,打造全栈国产技术生态。功能上同时支持视觉、语音、自然语言处理、推荐、无人车等场景,在众多业界深度学习模型上均拥有很好的性能和效率表现;即将量产的芯片在多个模型上实测性能均超过业界主流芯片。 远场语音交互芯片——百度鸿鹄 远场语音交互芯片“百度鸿鹄”变革了传统芯片设计方法,体现了软件定义芯片的全新设计思路。百度鸿鹄拥有契合AI算法需求的核内内存结构设计、分级的内存加载策略、依据AI算法调教的cache设计和灵活的双核通信机制,最终实现了深度学习计算过程和数据加载的高度并行,一颗芯片即同时满足了远场阵列信号实时处理和超低误报高精度唤醒实时监听的需求。 百度鸿鹄可以支持多达六路的麦克阵列语音信号输入;支持百度领先的麦克阵列信号处理技术,即双声道立体声AEC消除、声源定位、波束生成等;支持百度领先的DeepPeak和DeepCNN语音唤醒技术,实现复杂内外噪场景下的高精准唤醒以及低于一天一次的误报率。同时,该芯片还支持百度创新的双麦克模型波束算法,实现唤醒后360度无死角识 别,首次在中文语音识别上实现双麦克阵列的识别率超越传统6麦克系统,实现了行业领先的芯片模型波束技术突破。 2.2.2AI计算平台 百度推出的AI计算平台,提供了一个端到端的解决方案来应对人工智能计算的挑战。AI计算平台由超级计算模块X-Man、高性能存储系统Fast-F、大型分布式AI计算训练平台KongMing组成。 X-Man是百度研发的人工智能超级计算模块,是针对训练场景定制优化的AI计算产品。百度在18年年底正式发布X-Man3.0,单机具备2000TFlops算力,并具备灵活的模块化设计功能,能够支持不同的互连架构以及不同的AI加速芯片。X-Man系列产品创造了6项业界第一,相关专利荣获了2018年中国国家专利优秀奖。百度与Faceboook、微软等联合创立了OAI(OpenAcceleratorInfrastructure)开放AI加速基础架构项目,旨在促进AI芯片多元化生态格局的健康持续发展。百度在主导OAI标准定义的同时,也以实际行动推动OAI标准落地,在19年9月发布了业界首款支持OAI标准和液冷散热的超级AI计算机X-Man4.0。 图4百度人工智能超级计算模块X-Man4.0 Fast-F是一种高性能并行文件系统解决方案,硬件上基于OpenChannelSSD实现KV接口,合并FW和存储引擎层,软件栈实现全无锁设计,解决了AI场景下分布式训练集群中的海量小文件I/O难题。 KongMing是人工智能训练集群,具备自研的高速通信库,充分利用RDMA和NVLink等特性,并且引入了全网络架构拓扑感知调度,能够以