您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:IEEE Fellow张磊:AI+影像是高端手机竞争的热点–20230926 - 发现报告
当前位置:首页/会议纪要/报告详情/

IEEE Fellow张磊:AI+影像是高端手机竞争的热点–20230926

2023-09-25-未知机构七***
IEEE Fellow张磊:AI+影像是高端手机竞争的热点–20230926

张磊 IEEEFellow 2006年,张磊入职香港理工大学担任助理教授,17年成为该校的讲座教授直至如今。学术研究上,张磊长期致力于计算机视觉、图像处理、模式识别等方向的研究,是底层视觉方面的国际权威学者。他同时担任着IEEETrans.onImageProcessing(TIP)的高级编委,IEEETrans.onPatternAnalysisandMachineIntelligence(TPAMI)、SIAMJournalofImagingSciences等多个国际期刊的编委。 张磊 IEEEFellow 2006年,张磊入职香港理工大学担任助理教授,17年成为该校的讲座教授直至如今。学术研究上,张磊长期致力于计算机视觉、图像处理、模式识别等方向的研究,是底层视觉方面的国际权威学者。他同时担任着IEEETrans.onImageProcessing(TIP)的高级编委,IEEETrans.onPatternAnalysisandMachineIntelligence(TPAMI)、SIAMJournalofImagingSciences等多个国际期刊的编委。从2015年至2023年,张磊连续被评为ClarivateAnalyticsHighlyCitedResearcher(全球高引用学者,论文在学科领域引用量排名前1%)。 2018年,张磊投身产业界,加入达摩院(P11),2021年底他离开达摩院。其后加入OPPO研究院,致力于以AI算法加持影像,打造更极致的手机拍照体验。 1 AI+影像是高端手机竞争的热点 Q:您的研究主要是底层视觉相关吗? 张磊:计算机视觉可以简单划分为上层视觉、中层视觉和底层视觉。 上层视觉是关于「看明白」的事情,包括物体检测、图像识别、图像理解等等;中层视觉是将输入图像转换成中等抽象的表示,用以判断每个像素或区域的属性,包括图像分割、深度图估计等;而底层视觉则更多是关于「看清楚」的事情,包括图像超分、去噪、去模糊、去雾、去雨、暗光增强等。 用个浅显的例子便是,如果有一张狗的图片,将一张模糊的狗的图片细节变得更加清晰的过程是底层视觉,而识别图片里面有一只狗这件事情是上层视觉,将狗和背景区域分割开来则是中层视觉。 Q:深度学习的浪潮对您产生了哪些具体的影响? 我本人在底层视觉的研究时间最长,但其实目前我团队的研究不限于底层视觉,涵盖了中层以及上层视觉的内容,也包含一些神经网络优化算法的基础研究。 张磊:前期我的研究方向较多关注在底层视觉,相对而言,深度学习冲击底层视觉的时间比上层视觉本来就慢了几年。2014年,深度学习图像超分辨率开山之作SRCNN刚刚被提出,但并没有体现出比传统算法太多的优势。 Q:什么事情使您改变了对深度学习的看法? 另一方面,由于我所带领的团队在以稀疏表示、低帙表达等技术做图像复原方面达到一个较高的水准,我当时并不认为深度学习会超越这些方法。2014年,我的博士生顾舒航在国际计算机视觉和模式识别大会(CVPR2014)上发表的加权核范数最小化(WNNM)的方法,将传统去噪算法的效果推进到了一个新高度,成为传统非深度学习算法的一个标杆,这让我对更加坚定了自己的看法,觉得至少在底层视觉领域,或许我们可以和深度学习抗衡。但后面,我的态度发生了转变。 张磊:对于深度学习,我经历了从被动接受到主动拥抱的过程。我此前用的方法比如稀疏表示和低帙表达等,都具备一些理论上完备的框架,也比较符合我的思维习惯,很长一段时间里我认为深度学习在做分类、检测等方面,确实很有效,但不一定能冲击底层视觉,但事实证明我错了。 16年,我的博士生张凯,十分兴奋地跑过来和我说:张老师,我用残差网络做了图像去噪,比WNNM还要好很多。我有点吃惊,说实话,当时有些难以接受。 后来我进行了反思,在深度学习的时代,确实研究的方法和形式和以往发生了深刻的变化,不管你是否情愿。就深度学习的研究而言,年轻人更有优势,他们没有过多条条框框,敢想、敢做,很多我认为不可思议 的事情都发生了。我们这一代,虽然还没有成为过去式,但应该多向年轻人学习,很多时候,学生是我们的老师,他们更有创意。 Q:当时候发布的BeyondaGaussiandenoiser:ResiduallearningofdeepCNNforimagedenoising是不是与此相关?张磊:张凯的那个工作就是后来发表的“BeyondaGaussiandenoiser:ResiduallearningofdeepCNNforimagedenoising” (DnCNN),目前被引用6700多次,在底层视觉领域算是很高的。这个工作证明了residuallearning(残差学习)和batchnormalization(批量归一化)在图像复原中相辅相成的作用,可以在较深的网络的条件下,带来快的收敛和好的性能。 虽然DnCNN主要是探讨高斯去噪问题,用单模型应对不同强度的高斯噪声;但其也可以用单模型应对超分辨率、JPEG去块效应等其它底层视觉问题,是一个较为通用的框架。 这算是我团队第一篇真正意义上关于深度学习的文章。 Q:在现在手机的高端化之争中,折叠屏与影像功能已经成为两大破局点,您觉得AI加持影像功能,是否会成为智能手机下一个技术爆发点? 张磊:AI拍照功能,其实在五六年之前就已经在部分手机使用了,现在已经十分普及。但用AI来辅助手机拍照,依然存在很多解决不了的场景,尤其是在一些极端情况下。 Q:生成式模型拍照和普通的拍照带给用户最直观的区别是什么? 在端侧用生成式模型来解决拍照的问题,其实是我个人的一个目标,现在还处于一个初级阶段。什么时候能够做成功不敢说,但在拍照这个具体的方向里面,这肯定是AI加持手机的一个重要爆点。 张磊:生成式模型拍照和普通拍照一个比较大的区别,在于我们现在的普通拍照方式,有很多场景还是会拍糊,比如光线很暗的时候,背光的时候,有物体运动的时候,或者距离较远,我们还是会出现画质不清的情况,为了得到一张效果理想的照片,我们可能会需要进行大量的后期处理。 但是这样的处理方式有一个上限,有些问题可能还是无法完全解决。但是生成式模型通过大数据学习获取到了强大的高质量自然图像的先验,可以去拿来去补足这些缺陷。所以我个人感觉用生成式模型辅助拍照,可能会对拍照的画质以及适用泛化性,都有很大的提升。 泛化性可以理解为,无论在什么条件下,我们都能拍出一张很好的照片。简而言之,我觉得生成式AI是有这个潜力的,但能不能做得出来的话,那就考验包括我在内的很多同行的努力了。 2 跨学科研究对AGI至关重要 Q:您以香港理工大学讲座教授的身份跨入业界,以学术研究和工业界两种视角来看待AI的发展,有哪些异同?张磊:16年之后有好多高校的教授到工业界发展,后来也回来了很多,这种现象其实能够反映很多的问题。 以前在学术界做论文、做研究其实挺舒服的,去工业界未必会能够带来多大的收益。16年深度学习火了以后,在计算机视觉,包括最近在自然语言处理方面,都带来了非常显著的效果,比其他的方法要明显很多,不是一个量级,所以这波浪潮就给了高校的很多教授一个信心进入工业界。我18年去阿里达摩院,也是受到这波浪潮的影响。 但是投入工业界不代表一定能取得成功,高校有明确的定位,属于偏纯研究性质的机构,是以产生新知识为导向,但工业界是需要解决实际问题,产生生产力并带来实际价值的。如果踏入工业界是想在工业界的研究院里边继续做高校发论文的事情,这个心态就很容易出问题。 有意思的是在AI发展到大模型的时代,往往主导的都不是高校,而是一些工业界头部厂商的研究机构。工业界它又有资源又有人才,并且这些人才不比学术界里面的差,这对于高校老师来说其实也是一件很有危机感的事情。 Q:产业现在出现了百模大战,您如何评价这个现象? 我对学术研究有极大的兴趣,绝对不会放弃这件事情,而同时跨界在工业界,我有一个强烈的愿望,自己做了这么多年的底层视觉,要能够将科研成果在实际场景里去使用。这对我是一个很大的挑战,也是我的使命,这可能也是我们这批人共同的想法,只是每个人的实施路径不一样。 张磊:大模型火爆至今,行业内出现了百模大战,投融资消息也层出不穷。表面上好像是很多投资的钱被烧掉了,但我觉得这些投资人和投资机构其实很伟大,虽然自己暂时耗掉了一些财富,但为整个人类科技的发展做出了很大贡献,让大家看到了AI技术发展带来的巨大威力。即使OpenAI不挣钱哪怕最后倒闭了,它对整个科技史做出的巨大贡献也会永载史册。 Q:通用视觉大模型是共识,您怎样看待这个趋势? 张磊:简单来讲就把语言跟视觉信息,甚至其它模态的信息,都对齐融合了。我觉得这个路肯定还是要走一段时间,不会那么快就彻底解决。 视觉大模型相对于大语言模型,稍微复杂一些。但是目前分割大模型,比如SAM,也已经是做得很不错了,至少给大家看到在特定的视觉任务 Q:怎么理解多模态发展对齐? 里,能够把很多不同的子任务统一到一个模型里,做到通用。在图像生成方面,Midjourney和StableDiffusion都给了人很惊艳的效果,大大促进了整个行业的发展。但是他们的可控性、稳定性各个方面其实还是改进的空间,需要不断的去往前迭代,当然这其实也涉及一个多模态发展配齐的问题。 张磊:其实一个人从小到大的成长过程里面,一直都是多模态地感知这个世界的,但凡你缺少任何一个感知器官,比如说如果你看不见,那你肯定无法很好地理解这个世界,听不见也是一样的。 少一个维度,对于很多事情我们都无法做到完整的理解。现在大模型的发展,语言跟视觉是两个最关键、最核心的模态。但是也不排除有其它一些模态的结合,包括触觉和嗅觉信息等维度。即使是语言和视觉本身,都可以细分出很多子模态需要对齐,提升感知和理解能力。 只有等这些维度都能够互相之间去对齐融合,才能有更大的可能性。 就比如人脑,肯定也是在做类似的事情,你接受信息的模态越多,并都能对齐拉通的时候,你对于整个世界的理解才能更全面,这是一个很自然的事情。 但至于这个人的大脑机制到底是怎么运转的,就需要很多的生物学家以及心理学家去进行研究,这些跨学科的研究对于AI的发展肯定是大有益处的,但进展可能就没有那么快了。 3 端侧 AI是大势所趋 Q:2022年是消费电子的寒冬期,如今似乎也没有好转,大模型时代,您认为手机厂商会往哪个方向发展?张磊:因为全球经济形势的关系,手机销量下滑,并且低谷可能还需要几年时间才能过去,但这并不是代表着说大家不用手机了,只是换机的时候要多考虑考虑腰包的问题。AI在手机拍照里应用已经五六年了,目前大模型来了以后,在手机里进行落地应用,也是一个必然的趋势。 Q:能否聊聊您所看到的端侧AI的进展? 张磊:学术界的研究显示StableDiffusion这种文生图的大模型在高通的平台上,5-8秒左右可以生成一个512*512的图片。但其实已经有论文验证在苹果的芯片上2秒就完成了,因为苹果是自研芯片,内存比较大。最近又有论文,把生成式模型的多阶段采样蒸馏为一步完成,势必又可以加大不少生成模型端侧落地的可行性。我长期接触手机拍照的研发,发现一个学术界经常忽略的问题,再强大的算法如果遇到功耗的瓶颈,也会巧妇难为无米之炊,大模型在端侧落地最大的挑战还是在于功耗的把控。 Q:除此之外,端侧AI落地还有哪样的难点? 张磊:我们拿大语言模型(LLM)做例子,LLM通常包含数十亿或数百亿的参数,其输入的序列长度是动态变化的,在端侧我们往往只能用CPU或GPU来优化,但CPU或GPU功耗相对较高。如果我们想使用功耗低很多的NPU来优化,往往只能固定序列长度,这就会导致模型效果的损失。因此,目前只能在功耗和效果之间做痛苦的权衡。 同时,这些模型在运行时需要大量的内存来存储模型参数和临时数据,而手机芯片通常具有有限的内存资源。而一旦涉及芯片硬件平台的升级,周期就会变得漫长,随随便便就得一两年。这也成为了大模