您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[安信证券]:苪勇:人工智能AI之趋势--全球人工智能大会纪要(最完整)-安信计算机 - 发现报告
当前位置:首页/会议纪要/报告详情/

苪勇:人工智能AI之趋势--全球人工智能大会纪要(最完整)-安信计算机

2016-04-27安信证券持***
苪勇:人工智能AI之趋势--全球人工智能大会纪要(最完整)-安信计算机

苪勇(微软亚洲研究院常务副院长):人工智能AI之趋势从1956年在达特茅斯正式提出artificialIntelligence,到目前已经60年了。过去60年人工智能有那些属性,或者说哪些大的发展趋势?很有意思,另外几个也是用AI开头的词:聚合的智能(AgglomerativeIntelligence)、自适应的智能(AdaptiveIntelligence)、隐形的智能(AmbientIntelligence)。一.首先说下聚合的智能。对应的产品是微软认知服务(MicrosoftCognitiveService)。最近微软发布了一个认知的云智能API,使得第三方的开发者可以很容易的调用这些API,使得写出来的应用可以像人类一样看到世界听到世界理解世界。它包括五大方向,视觉,语音,语言,知识,搜索。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1658.JPG举例来说,How-Old.net.这款应用很红,但是只需要20几行代码就可以开发,靠左边调用微软的云的认知服务API,就可以写出来很智能的应用。之后对人脸的检测,人脸跟踪和识别,除了识别出来,我们更想知道人的表情,去年11月份,我们有更新的一版,将表情监测加入其中,可以检测喜悦吃惊愤怒等表情。比人脸更难的是计算机有没有能力去理解他所看到的图片。计算机视觉领域有一个全球的比赛,ImageNet,它有1000个类别,120万训练样本,10万测试图像,这里面包括车辆,动物,文字等,让计算机看到他没有看到的图片,让计算机告诉你这张照片属于哪一类,这个是很困难的事情。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1663.JPG过去的七八年,深度学习使得计算机视觉的分类问题得到了一个飞跃性的发展,在深度学习没有进入计算机视觉之前,如2011年时,错误率有20%多;到了2012年深度学习第一次应用到ImageNet中,一下子把错误率降到10%几,之后2013,2014,错误率一直往下走,到6%左右。2014年人类想知道自己能做多好,斯坦福一个博士把自己关在屋子里几个月学习,去参加这个比赛,错误率5.1%,他已经是人类中杰出的代表。去年年底微软用深度学习算法把错误率降到了3.5%,比聪明的人类还要好。得益于深度学习这四五年的飞速发展。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1665.JPG深度学习在2012年时,用的最多的是AlexNet,共有9个隐含层,我们叫它深度网络;过去四五年由深往更深发展,14年有19层网络;15年时微软做了比人类错误率还要低的深度学习网络,有152层,从来没有做到过这么深的深度学习网络。 说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1667.JPG大家可能知道,想做的很深并不是很容易的事情,因为错误率在回来后要求偏导,很多次后结果就不稳定了,超过22层就很难了,微软研究院做了152层。中间结构也很有意思,就想人类的脑的链接一样,不仅有一层层的层之间的连接,还有直接往前的连接,这就是残差学习的过程,因为这个残差学习的算法,我们可以做到152层这么深,我们可以将错误率降到3.5%。这是一个很核心的技术,去年年底ImageNet上我们得到了第一名。除了图片分类,还有一类更难的问题是物体检测。图像分类只需要告诉我这是一个桌子这是一个人,物体检测还需要告诉我桌子在哪。这个我们基于深度学习算法,做出了很好的成绩。人能很容易检测的东西,计算机智能看到的东西就两个,除了0就是1,通过0和1能够理解图像对于计算机来说是非常难的事情。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1671.JPG比物体检测更难的是像素级的精确的分类。任何图片都是由像素组成,我们不仅想知道图片中桌子的位置,我们还想知道每一个像素是属于桌子的还是椅子的。中间更难得事情是像素级的精确识别,我们希望每个像素都能知道,是一个人还是一个自行车等。二.自适应的智能怎么让机器在不同环境下能够自适应的去帮助人类。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1676.JPG一个是微软自拍,这个自拍应用上线一个月,没有做任何宣传,完全口口相传,就有100多万用户在里面。他有很多核心技术,比如拍照时不需要考虑光线和大小,它会自动把光线和噪声补偿好,不仅如此同时他知道你拍摄的人姓名性别年龄肤色,做一些很智能的美颜,比如二十多岁女士会美颜的漂亮些,但是四五十的男士就不能美颜的太厉害。所以要知道看到的人的性别年龄肤色等,我们不希望拍摄的人去考虑这个问题,而是APP很智能的自适应的去考虑这个问题。说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1679.JPG第二想聊一聊自适应的智能,是实时语音翻译的技术。这个是很有意思的技术,从星际迷航里就有类似的电话,1966年星际迷航,不管任何球星国家,都能实时翻译交流。1966年还是科幻,AI技术的发展现在变成现实。语音处理团队2010年在微软技术界上公布了这个技术,实现了中英文实时翻译。2012年天津21世纪计算大会上BuckRachid进行了现场演示。这个技术很难,整体梳理流程是,首先把中文音频信号变成文字,然后中文文字翻译成英文文字,然后将英文文字用我说英文的方式发出声音来。这三个环 节每个错一点结果就完全不能看了。能做到这点需要二十几年的积累。三.隐形的智能说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1684.JPG我们都谈智能家居,智能环境,如果会场有各种智能设备,自动的做好事情同时隐于环境。如果穿在身上就是智能可穿戴设备。看两个例子。如果让智能硬件做到隐于环境的智能,他们一定要有智能,如果是个视频摄像头,希望摄像头看到外部世界并理解外部世界。计算机需要知道里面有人,有滑板,更需要知道人和滑板所在的位置,它能够用自然语言说出人类能听懂的话。生成这句话并不仅仅是计算机视觉一个领域的问题。如果真能做到这点,生活会变得更好。一个例子,一个盲人看不到外部世界,但是有一个眼镜代替他去看,并用语音来传达眼镜看到的东西,这是一件非常好的事情。MicrosoftHololens说明:C:\LiuBin\work\资料整理\201604\60周年人工智能大会\2016_04\IMG_1686.JPG3月30号,微软开发者大会提到了hololens,后面还有很多项目,有一个处于实验室内部阶段的项目,叫holoprotation,这个项目是指,今后开会时,两人在不同城市,但用全息3D的形式做到身临其境一样。这个科研项目是隐于环境的智能。视频中柱子上有几个摄像头,将人的动作捕捉下来,然后将3维信息去建立一个虚拟的人体,在另外一个地方显示出来。这个还需要很长时间去开发。四.AugmentedIntelligence增强智能人类与计算机各有强的地方也有各自弱的地方。如果从记忆里和计算能力上看,计算机远强于人类。但是人类具有两个半脑,左半脑是逻辑推理,记忆,右边半脑是想象力和抽象的能力,人类比机器强的地方就是人有创造力,想象力和发明的能力。今后人工智能的下一个60年,不再是人类与机器对比,而是人类和机器加起来,相互使用各自更强的地方,使两者相结合,使得我们有一个更加增强的智能。