您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国银河]:银河:2016新前沿论坛之十会议纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

银河:2016新前沿论坛之十会议纪要

2016-10-13中国银河有***
银河:2016新前沿论坛之十会议纪要

一、Watson的由来 当今时代产生海量信息,如何短时间内获取全部知识成为难题。我们现在处于一个将传统规则颠覆掉的、飞速变化的时代。比如全球最大的出租车公司Uber本身没有出租车,最大的零售商阿里巴巴没有自己的门店和库存。这些现象在各个行业均有发生,其本质原因是当今时代随着移动互联普及后,获取和发表信息的成本、速度和门槛非常低。从收音机、报纸、电视,到现在互联网的app传播,信息传播的速度呈几何级加快。然而对于我们人类来说,学习速度和记忆力是有限的。信息传播和交流的速度一旦大大增加,产生的知识也随之大大增加,并且而这些信息和知识更多是的以自由文本、多媒体和物联网传感器的信息形式存在。根据IBM预测,在2020年计算机能够处理的格式化信息仅占不到20%。这些非格式化的信息在现在的计算模式下,对于企业和计算机来说是都不可见的。举例来看,为寻找问题的答案,我们当今的做法是在google或者百度中通过检索关键字,学习和甄别相关联的文章。通过大量的阅读后,总结归纳针对目标问题,目前大概有哪几种观点,以及对这个问题的看法。但是在知识产生和传播大大加速的时代,这个方法是远远不够的。 IBM的Watson机器人改变当今人类与知识互动的方式,可以实现短时间内获取海量信息,并学习、归纳并整理成不同的观点。IBM全球有12个研究院,每年IBM都会开发挑战未来5-10年改变市场方向的新技术。2005年IBM提出做下一代搜索引擎,在耗时半年后发现,即使再智能的引擎都无法改变我们现在与知识互动的方式。于是, 2006年IBM明确未来是以认知计算为主的人工智能解决时代,通过快速改组芯片和硬件业务部门,决定做Watson机器人。传统的计算机中,计算单元和寄存器是分开的,所有的计算动作都被分解成一步步的机器指令。如需增加计算能力,寄存器和计算单元之间主频必须不断加快,带来的问题是能耗增加。IBM2011年制作出的神经元芯片,一个核上有256个神经元,26万个神经突出,到2015年已经集成了4096核,上面有1百万个神经元和2.5亿个神经突触,芯片大小仅2x2cm,能耗仅75毫瓦。同时,Watson和深蓝最大的区别在于:(1).输入格式不同:深蓝有固定的规则,而Watson的输入必须是自然语言;(2). 输出格式不同:Watson给出的答案格式并不固定,但必须是自然语言。可以是文本,亦可是图表等任何一种可接受的方式;(3). 解决问题的规则:必须能够接受开放式问题。 对于任意问题,Watson会告诉你它的逻辑,并呈现支持其逻辑的证据。举例说明,如开放式问题“金钱和快乐的关系?”,该问题并无标准答案。Watson通过学习上千个TED的演讲视频后,总结出跟主题相关的6种积极、消极或中立的观点,并能分析每个演讲者在演讲时带有的情绪。Watson不仅能听懂内容,还能把演讲者的临场表现、性格和社会心理学的模型建立出来。 Watson的分析问题的方法分为三步:(1).理解问题; (2). 在问题和储备知识的情况下去推理;(3). 在工作过程中不断学习。经过多年的调试,在开放式知识竞赛Jeopardy中Watson水平已超越人类选手。2006年年终,Watson原型机问世。为了验证技术 的成熟度,决定让Watson与人类选手在Jeopardy中同场竞技。Jeopardy知识竞赛有三个特点:(1).无题库,知识无边界;(2).问题是反问形式,如2008年奥运会某人之差几秒打败菲尔普斯,这个人是谁?(3). 所有的问题归为5个类别,难度越高奖金越高。Watson会首先去理解问题,随后在本地知识库中搜索可能的答案,并评估对问题的把握度,进而决定是否抢答,以及抢答后选择哪种类型哪种难度级别的题目。上述整个处理时间不超过3秒。下图曲线是Watson问题回答的准确度,横轴是回答的问题数。可见06年Waston原型机跟人类选手根本不在一个档次上,而在随后多年的训练和比赛中,Watson已经与人类冠军的水平持平,并且其发挥非常稳定,不会有波动。在2011挑战了Jeopardy竞赛历史上获得奖金数最高的两个人类冠军,在连续3场的比赛中Watson得到的奖金数超过了 两名冠军的总和。 二、Watson在医疗领域的应用现有医疗体系和费用庞大,随着人体海量健康数据的产生,急需新型技术维持现有医疗体系。医疗是全球性难题,每年全球有7.8万亿美元花费在医疗上,其中约有30%的费用是被浪费掉的。例如美国每年用2.8万亿美元用于医疗,约占其GDP的17.6%,约是其自身GDP增长速度的2倍。我们把更多的钱花费在得病后的治疗上,并没有花在预防和早起预警上。如没有新方法和技术,现有的医疗体系将难以维持下去。从肿瘤学的角度来看,大概有50%的治疗方案会在患者第二次回到医院时被改变。2015年肿瘤相关的学术期刊共44万篇,如果肿瘤医生要阅读吸收全部内容,每周要耗费167个小时。按一天工作8小时,每周工作5天计算,明显是阅读不完的,同时还伴随着人口老龄化加速的问题;从技术的角度来看,一个人的一生大概会产生1100Tb的数据,我们现有能接触到的只是临床数据(clinical data),占数据总量的10%。这些数据来自于穿戴设备,可产生大量的连续数据,需要有新技术帮助处理。现在已准备了很多的大数据,虽然质量仍有待提高,如果能够对这些数据有效分析可以得到信息,即从数据(data)得到信息(information),Watson则可以帮助我们从信息转化为知识(knowledge)。 Watson在获得Jeopardy冠军后一举成名,当时来自MSK(纪念斯隆-凯特琳癌症中心)的一名肿瘤学家率先找到Watson团队,希望Watson帮助肿瘤医生进行决策。在经过几个月的训练后,Watson通过了难度等同于全美执业医师考试的测试。图3展示的Watson阅读医嘱清单的情况。Watson经过训练后可以区分其中哪些疾病、哪些是症状、哪些是药物、哪些是对描述进行改变的,以及它们之间的关联。同时,Watson在读一篇医学期刊时不是对其中的关键字进行索引,而是真正地理解文章所讲内容,包括基因和症状、疾病之间的关系,基因间的关系以及基因与药物间的关系等。2011年开始IBM与MSK癌症中心组成专门的团队开始训练Watson在肿瘤学中的应用,即Watson for Oncology,2015年7月实现商用,今年已在中国落地。对Watson for Oncology有明确的定义:(1).不是替代医生,而是与医生之间的配合。Watson至今已学习11种语言,可以在海量信息中发现模式并定位知识。同时机器对知识没有偏好,并且与人脑相比其存储量是无限的。但是有很多东西是机器没 法去做的,比如人会做出不是完全基于逻辑的行为,所以Watson永远无法替代医生等专业人士,而是成为专业人士的助手或伙伴,帮助他们去过滤、处理、学习和记忆海量知识,并在医生需要做出专业决策时提出建议,并给出建议的逻辑。(2). 提高效率,节约医生和病人的时间。在北上广看病,或许花费数千元挂得一个特级专家号,却只能给患者5分钟的看病时间。Watson for oncology可在十几秒内过滤上千万的信息和知识,并根据特定病人的治疗方案给出最适宜的建议。并给出逻辑和证据。Watson是基于数据和知识双向驱动的。IBM Watson Health成立一年多以来,分别以数据驱动和知识驱动,花费40多亿美元收购了一系列的公司。对于数据,目前已获取包括2亿的生命数据、1亿的病人数据、以及300亿的影像学数据,对于知识,目前已收集包括1500万的医学期刊和40M以上的研究文档。同时,Watson Health Cloud可在云端提供行业信息,可推进整个医疗的模式。 三、问答环节问题:Watson Health的适用领域?每年的更新换代速度?去年商用化后的情况如何?答:使用领域问题,从行业服务的角度来看,目前Watson服务的行业有健康、金融、物联网、法律等诸多行业。对于Watson 健康来说其可服务肿瘤、新药研发、保险公司等。 更新换代的速度问题,美国癌症治疗指南大概每年最多更新两次,Watson更新知识的频率是每月至少一次。Watson内部有一百万种人工智能的算法,这些算法需要不断地优化,这个过程与Watson实际工作的过程是同步的。在美国还有一个应用是医生、Watson和病人三向沟通,Watson直接跟病人沟通,医生在旁边监督,并且Watson的学习是在这个过程中不断进行的。 商业化的问题,因为Watson提供用户与知识互动的渠道,商业模式未来有很多种,任何能从知识的获取和消费中得益的人都会是潜在的合作对象。