您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西部证券]:人工智能行业系列报告(五):重新定义操作系统240528 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能行业系列报告(五):重新定义操作系统240528

信息技术2024-05-28西部证券单***
人工智能行业系列报告(五):重新定义操作系统240528

重新定义操作系统 人工智能系列报告(五) 核心结论 证券研究报告 行业专题报告|计算机 2024年05月28日 行业评级超配 前次评级超配 AI与终端的结合,将重塑人机交互——从响应式进化为主动式,从“人找服 评级变动维持 务”进化为“服务找人”。谷歌安卓与微软windows领衔,大模型加持下,“服 务找人”理念已初步体现在最新系统中。传统情况下用户主动搜索应用、手动启动服务的行为模式,将逐渐让位于一种更为智能化、前瞻性的互动体验终端OS通过与大模型融合,实时分析用户上下文并预测需求,进而自主推断并执行服务,无需用户显式指令,人机交互向更加自然、无感的境界迈进 我们认为实现从被动响应到主动服务的跨越,达成“服务找人”的愿景,首先需要打造系统级AI,即将大模型技术与操作系统深度融合,因为只有系统级AI才能跨越单一应用边界,打破数据与功能的孤岛,无缝融入用户的日常交互流程。 1)谷歌宣布即将推出的Android15将以AI为核心,Gemini将成为Android的基础部分,可在系统层面运行。同时,谷歌还使用本地小模型GeminiNano来保障用户数据安全,端云AI协同为用户带来更好的体验。Gemini将在Android上充当AI助手,而不是GoogleAssistant,GeminiAI将能够作为任何正在使用的应用程序的叠加层出现。 2)苹果有望与OpenAI合作,把一系列生成式AI功能加入即将推出的iOS18中。一个代号为“ProjectGreymatter”的AI工具套件或将集成到Safari、照片、语音备忘录等苹果的核心应用之中。 3)微软发布Copilot+PC,大模型技术从应用层向下延伸至系统层面,新增多项系统级AI功能,如Recall、理解屏幕内容并与用户实时交互、系统级AI实时翻译功能等。 4)鸿蒙OS也将与AI深度融合。早在2021年,华为就设想未来的万物智联是通过智能助手“小艺”实现统一交互,解决不同IoT设备入口的差异,然后从海量应用中找到合适的服务并主动推荐给用户。 随着AI技术的深度整合,操作系统地位抬升,价值将被重新定义。大模型时代的操作系统正逐渐进化为一个更加智能的平台,除了传统的为应用程序提供运行环境和支持外,还将成为调度中心,作为“入口”衔接用户和APP。而这一转变中,我们认为操作系统需具备两大核心能力:1)读懂屏幕的能力;2)跨应用调度的能力。 推荐:软通动力、中科创达。建议关注:中国软件国际、中国软件、诚迈科技。 风险提示:AI技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。 近一年行业走势 计算机沪深300 17% 9% 1% -7% -15% -23% -31% -39% 2023-052023-092024-01 相对表现 1个月 3个月 12个月 计算机 -4.92 -6.14 -28.07 沪深300 1.44 5.37 -5.59 分析师 郑宏达S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 相关研究 计算机:阿里通义千问:从模型到生态全方位领先—AI行业跟踪点评2024-05-27 计算机:从高通看端侧智能时代的到来—计算机行业周观点第12期2024-05-26 计算机:端侧模型与操作系统的融合—计算机行业周观点第11期2024-05-19 索引 内容目录 一、从响应式到主动式,从“人找服务”到“服务找人”3 二、大模型将与操作系统深度融合,系统级AI将成为AI终端标配3 三、操作系统将成为APP调度中心,价值量有望跃升8 四、风险提示10 图表目录 图1:Gemini会主动询问用户对刚刚接收的PDF长文档有什么疑问3 图2:谷歌将Gemini嵌入Android4 图3:谷歌Android系统级AI4 图4:Android15将以AI为核心4 图5:TalkBack读屏功能5 图6:AI帮助预防电话诈骗5 图7:AppleInsider制作的语音备忘录实时转文字界面预测5 图8:Recall功能帮用户回到曾经浏览过的鞋子页面6 图9:Recall功能的时间轴6 图10:Copilot在《我的世界》中与用户语音对话并提供指导6 图11:看外国足球比赛实时翻译7 图12:跨国会议实时翻译形成字幕7 图13:鸿蒙万物智联愿景7 图14:应用程序-操作系统-硬件结构图8 图15:Ferret-UI能很好地处理从基础到高级的11种任务,从简单的寻找按钮到复杂的描述具体功能9 图16:荣耀任意门一拖打车导航9 图17:荣耀任意门一拖购物比价9 一、从响应式到主动式,从“人找服务”到“服务找人” AI与终端的结合,将重塑人机交互——从响应式到主动式,从“人找服务”到“服务找人”。在传统响应式交互中,用户通常是交互的发起者,系统或服务在接收到用户的明确指令后作出响应,用户需要清楚地知道自己的需求,并采取相应的行动来满足这些需求。例如,用户通过搜索引擎输入关键词来获取信息,或者通过菜单选择来执行特定的任务。 而在AI技术高速发展的过程中,人机交互正在向主动式转变,系统或服务能够预测用户的需求,甚至在用户尚未明确表达需求之前就主动提供服务。这种模式下的交互是主动和预测性的,系统能够根据用户的历史数据、上下文信息、行为模式等来推断用户的意图,并据此提供个性化的服务。例如,未来的主动式AI可以跨多个娱乐平台如电影、音乐等,根据用户的娱乐偏好、观看历史和社交活动,主动在合适的时间点询问并为用户播放符合其喜好的娱乐内容。 谷歌安卓与微软windows领衔,大模型加持下,“服务找人”理念已初步体现在最新系统中。在I/O2024大会上,谷歌宣布安卓新版本将以AI为核心,我们认为其中有些功能已体现了“主动式AI”理念,如Gemini可以感知到用户在看视频,弹出提示来询问是不是想了解关于这个视频的问题,用户可以直接询问视频中的细节,Gemini可以根据视频做出回答;而当用户接收到一个匹克球长文档时,Gemini会检测并询问是不是要了解这个PDF,如果用户需要,Gemini会化身匹克球专家,可以基于该文档解答各种问题。而微软Copilot +PC中也有“服务找人”,如用户收到邮件需要发送一份PPT给同事,Copilot可以直接根据邮件里的需求,找出具体的PPT,用户点击发送既可。 图1:Gemini会主动询问用户对刚刚接收的PDF长文档有什么疑问 资料来源:智东西微信公众号、西部证券研发中心 二、大模型将与操作系统深度融合,系统级AI将成为AI终 端标配 我们认为实现从被动响应到主动服务的跨越,达成“服务找人”的愿景,首先需要打造系统 级AI,因为只有系统级AI才能跨越单一应用边界,打破数据与功能的孤岛,无缝融入用户的日常交互流程。 图2:谷歌将Gemini嵌入Android图3:谷歌Android系统级AI 资料来源:智东西微信公众号、西部证券研发中心资料来源:智东西微信公众号、西部证券研发中心 谷歌宣布即将推出的Android15将以AI为核心,Gemini将成为Android的基础部分,可在系统层面运行。与底层操作系统的集成,能最大化AI的价值。Gemini将在Android上充当AI助手,而不是GoogleAssistant,GeminiAI将能够作为任何正在使用的应用程序的叠加层出现,且能基于较强的上下文感知能力,预测用户的操作并提供即时帮助,如为文本和社交媒体创建图像等等。 图4:Android15将以AI为核心 资料来源:爱活网微信公众号、西部证券研发中心 同时,谷歌还使用本地小模型GeminiNano来保障用户数据安全,端云AI协同为用户带来更好的体验。GeminiNano是谷歌的设备AI,目前能在消息应用中生成智能回复,总结语音备忘录。GeminiNanowithMultimodality(GeminiNano多模态模型)将于今年晚些时候在Pixel手机上推出,支持新的设备内AI功能,如TalkBack——帮助盲人和低视力用户更好地理解周围世界。谷歌还在开发一种呼叫筛选功能,该功能会主动听取通话,并帮助用户判别是否为诈骗电话。 图5:TalkBack读屏功能图6:AI帮助预防电话诈骗 资料来源:智东西微信公众号、西部证券研发中心资料来源:智东西微信公众号、西部证券研发中心 苹果有望与OpenAI合作,把一系列生成式AI功能加入即将推出的iOS18中。据彭博社记者MarkGurman报道,OpenAI将为苹果iOS操作系统的下一次重大更新提供生成式AI功能,一个代号为“ProjectGreymatter”的AI工具套件将集成到Safari、照片等苹果的核心应用之中,带来的升级包括:1)更灵活的主屏幕布局、自定义app图标颜色;2)语音备忘录转文字;3)AI照片编辑;4)随短信内容变化的自定义表情符号;5)Spotlight搜索更快速、准确;6)Safari搜索改进;7)邮件和短信的自动回复建议。 除了使用AI对原有应用进行升级,Gurman指出苹果还会在系统层面带来新的“智能回顾”功能——收集用户错过的通知,以及用户关注的网页、新闻文章,需要用到的文档、笔记和其他形式媒体,然后创建一个摘要总结提供给用户。 图7:AppleInsider制作的语音备忘录实时转文字界面预测 资料来源:APPSO微信公众号、西部证券研发中心 微软发布Copilot+PC,大模型技术从应用层向下延伸至系统层面,新增多项系统级AI功能。5月21日,微软发布首款Copilot+PC,装载了基于AI重新设计的Windows11系统;同时搭载高通最新款Arm处理器,其内置AI算力超40TOPS的NPU。新款AIPC增加了多项AI功能,其中最具亮点的系统级AI功能遍及浏览器、系统设置、通知以及各类系统应用。微软表示每台笔记本电脑上可能要运行40多个大模型,其中AI助手Copilot则使用了OpenAI最新发布的GPT-4o。以下为两个比较具有代表性的系统级AI功能: 1)Recall功能:记忆一切并搜索回溯 Copilot+PC为PC用户提供Recall功能,可以“记住”用户几周甚至几个月前在电脑上访问或操作过的所有内容和应用程序,即用户使用一些简单提示,可以快速直观地检索到要查找的内容。微软表示,Recall可以在颜色、图像等之间建立关联,让用户在PC上以自然语言搜索几乎任何内容。此外,Recall使用Copilot+PC高级处理功能,每隔几秒钟拍摄一次活动屏幕的图像,这些快照会被加密保存在PC的硬盘上,用户可以控制快照时间线,选择特定的时间区间,通过搜索找到想要的结果。 图8:Recall功能帮用户回到曾经浏览过的鞋子页面图9:Recall功能的时间轴 资料来源:智东西微信公众号、西部证券研发中心资料来源:智东西微信公众号、西部证券研发中心 2)理解屏幕内容并与用户实时交互 用户在玩《我的世界》时,接入GPT-4o的Copilot可以实时看到屏幕内容并理解,同时和玩家对话,为其出谋划策。 图10:Copilot在《我的世界》中与用户语音对话并提供指导 资料来源:新智元微信公众号、西部证券研发中心 3)系统级AI实时翻译功能 Copilot+PC可以实现将40多种语言实时翻译成英文,并与视频通话、录音、流媒体内容无缝集成,在没有联网的状态下也可以使用。Copilot+PC可以将电脑中任何应用程序或视频平台中的任何实时或预先录制的音频,转换为用户选择的语言字幕体验,并且还允许用户使用转录和翻译语音的人工智能功能搜索他们参加的电话会议和观看的视频,例如看外国的足球比赛、参加跨国视频会议时,都能让AI翻译成英文并形成实时字幕。 图11:看外国足球比赛实时翻译图12:跨国会议实时翻译形成字幕 资料来源:新智元微信公众号、西部证券研发中心资料来源:新智元微信公众号、西部证券研发中心 鸿蒙OS也将与AI融合,大模型将