人工智能动态:1)产品应用:OpenAI将于1月初推出GPTstore;OpenAI拟向传媒公司支付数百万美元年费来获取授权;微软1月4日向Windows11的内测用户推出了Canary预览版Build26020;谷歌计划推出Bard的高级付费服务;语言学习平台多邻国拟用AI取代外包翻译工;阿里云通义千问App上线“通义舞王”,可以图生视频;网易有道推出子曰教育大模型2.0、虚拟人口语私教HiEcho2.0,QAnything正式开源;钉钉个人版全量上线; 美图AI视觉大模型MiracleVision(奇想智能)通过备案。2)底层技术:AI分析街景图片,准确率92%;清华&哈佛团队推出LangSplat,推动了三维空间中的语言搜索和识别技术。3)行业政策:科技部发布《指引》规范AI使用。 投资建议:海外宏观利率方面,12月FOMC会议联储对2024年利率政策转鸽。12月美国整体经济与数据偏弱,不支持继续加息,FOMC会议美联储主席发言与点阵图利率偏鸽,市场加速交易降息预期,10年期美债收益率从4.35%大跌至3.89%,月-46bp,市场风险偏好大幅提升,纳指与北美科技股表现强劲。国内经济政策方面,近期地产政策持续松绑、货币利率政策进一步宽松,国内整体仍处于经济复苏阶段,政策支持持续推出,有望对需求持续形成支撑。综合海外利率流动性与国内经济政策边际优化,持续推荐增加恒生科技配置。 风险提示:政策风险,疫情反复的风险,短视频行业竞争格局恶化的风险,宏观经济下行导致广告大盘增速不及预期的风险,游戏公司新产品不能如期上线或者表现不及预期的风险等。 AI相关网站流量数据 图1:AI相关网站周访问量(百万) 图2:第一梯队AI相关网站周访问量变动(百万) 图3:第二梯队AI相关网站周访问量变动(百万) 图4:第三梯队AI相关网站周访问量变动(百万) 图5:新增聊天、教育类AI相关网站周访问量变动(百万) 人工智能动态:GPTstore即将推出,阿里云、网易有道、美图、钉钉上线AI工具 (一)产品应用 OpenAI将于一月初推出GPTstore。在发送给GPTBuilders签约成员的邮件中,OpenAI宣布,旗下的GPT商店将于下一周正式上线,届时用户可在平台上买卖和分享基于OpenAI先进语言模型打造的聊天机器人(GPT)。开发者的收益将依赖于其GPT被使用的频次。“GPT商店”将设有搜索功能,便于用户寻找所需的聊天机器人;同时,一个排行榜会展示最受欢迎的GPT,OpenAI也将特别关注那些被认为极具价值的用户创造内容。此外,OpenAI提到,定制版的ChatGPT同样能够创造图像,这一功能得益于GPT与其最新的图像生成模型DALL-E 3的整合。 DALL-E3在解释用户指令的准确性上超越了前代产品,并增添了更多的安全特性。 OpenAI拟向传媒公司支付数百万美元年费来获取授权。OpenAI提出了向多家媒体机构支付年费100万至500万美元(约合716万至3580万元人民币)的提议,以换取使用他们的新闻内容来训练其大型语言模型的授权。据报道,即便对一些较小的出版商而言,这样的金额也被认为是“微不足道”的,因此OpenAI完成这样的交易可能会面临挑战。目前,OpenAI正在与十余家出版商洽谈中,希望能够达成之前和AxelSpringer所签署的类似的协议。 微软1月4日向Windows 11的内测用户推出了Canary预览版Build 26020。这一更新不仅引入了新功能,还暗示了微软的智能助理Copilot将被整合到文件管理器中。Copilot是微软推出的类似于ChatGPT的智能助理,已被整合到多种微软应用和服务中。此外,微软目标是让2024年成为“AIPC之年”。新款笔记本电脑和PC将配备一个全新的Copilot键。用户只需简单地按下这个特定的键,便可以直接访问微软强大的AI助手——WindowsCopilot。 谷歌计划推出Bard的高级付费服务。谷歌正计划推出其AI语言模型Bard的高级付费服务——BardAdvanced,类似于ChatGPTPlus的付费订阅。BardAdvanced旨在在现有免费版本的基础上增加额外的特性和性能提升,主要包括:1)数据获取范围的扩展:Bard Advanced计划连接更广泛的数据源,为用户提供更全面和细致的回答。2)回答质量的增强:通过改进算法,BardAdvanced将提供更准确、流畅且更紧密匹配用户需求的输出。3)优先处理:BardAdvanced用户将享有更快的处理速度和优先级队列服务。同时,谷歌预计将保留免费版的Bard,并计划提供一段时间的免费试用期,以便用户在付费前能够体验到Bard Advanced的高级功能。 语言学习平台多邻国拟用AI取代外包翻译工。语言教学应用Duolingo过去在世界范围内雇用了众多的翻译合同工,他们的工作是为该应用的学习材料及界面提供翻译服务。然而,Duolingo目前正在逐渐采用AI技术替换这些外包的翻译人员。在Reddit社区中,有用户发帖称该公司已经解雇了数千名员工,剩余的合同工现在的主要工作是审查由AI生成的翻译,以确保其质量。Reddit上的一些用户表示担忧,认为Duolingo这一变动可能会影响应用的服务质量。他们指出,当前的AI还不能完全替代人工翻译的高质量,尤其是在处理较为罕见的语种时,AI生成的内容在语法上“可能不够地道”。 图6:多邻国解雇邮件 阿里云通义千问App上线“通义舞王”,可以图生视频。阿里云下属的通义千问App最近推出了一个免费的新功能“通义舞王”。用户上传个人全身照片并稍等十几分钟后,就能收到一段自动生成的舞蹈视频。这项服务背后的技术是阿里通义实验室自主研发的视频生成模型AnimateAnyone。这个模型可以在生成的舞蹈视频中保留人物的原始面部表情、身材比例、服装甚至背景等细节特征。目前,“通义舞王”内置了12种舞蹈模板供用户选择,包括流行的“科目三”舞蹈,以及蒙古舞、划桨舞、鬼步舞等多种风格。这意味着用户可以轻松制作出具有个性化特征的舞蹈视频,享受个性化的娱乐体验。 图7:“通义舞王”发布 网易有道推出子曰教育大模型2.0、虚拟人口语私教HiEcho2.0,QAnything正式开源。近日,网易有道成功举办了名为“POWEREDBY子曰”的发布会,推出了一系列基于“子曰教育大模型”的创新教育产品和技术。发布的新产品和功能包括子曰教育大模型2.0、小P老师、虚拟人口语私教Hi Echo2.0以及有道翻译的新功能——有道速读。此外,网易有道宣布将其“QAnything”技术正式开源。 子曰教育大模型2.0是一项重大升级,它在数据、模型、系统和应用四个方面进行了全面优化,涵盖了三个能力层面的提升:口语对话能力、教育场景下的知识问答能力和文字处理能力。这一升级包括收集更多高质量数据以增强数据多样性,特别是加入更多业务相关的数据;将上下文窗口扩大至16K以提高模型的训练和解码效率;通过优化prompt来激发模型的潜能,并通过检索增强技术来提高输出的可信度;此外,还增加了与agent相关的功能。针对各种教育场景下的应用,如口语教练、家庭老师和文档助手等,都进行了适配和增强,以满足不同用户的需求。 图8:网易有道“POWEREDBY子曰”发布会 钉钉个人版全量上线。1月4日,钉钉官方宣布钉钉个人版正式全面上线。用户现在可以通过点击手机或PC左上角的个人头像来在“钉钉”和“钉钉个人版”之间切换。官方表示,钉钉个人版集成了多项AI服务,包括基于通义千问技术的对话机器人“贾维斯”和基于通义万相技术的绘画机器人“缪斯”。此外,该版本还内置了一个包含超过300个Prompt模板的指令中心。用户可以根据自己的需要,为“贾维斯”设置多种角色,如助教、程序员、心理健康顾问等。同时,“缪斯”绘画机器人能够创作出多种风格的艺术作品,包括水彩、素描、油画、3D卡通等。 此外,钉钉个人版还增添了多款AI工具,如鹿班相机、灵动人像、涂鸦作画和法律助手等,提供AI写真、数字分身、AI作画、AI律师等服务。其中,“鹿班相机”能通过上传个人照片生成多种风格的AI写真;而“灵动人像”可以将照片、文字和声音合成为视频。至于“法律助手”,它能在理解了用户的需求后提供包括知识咨询、法律文书检查、案情分析和文书或办案报告生成等服务。 图9:钉钉个人版界面 美图AI视觉大模型MiracleVision(奇想智能)通过备案。1月2日,美图公司自主研发的AI视觉大模型MiracleVision(奇想智能)已通过《生成式人工智能服务管理暂行办法》的备案,并计划向公众开放。这一大模型自2023年6月开始内测,为美图秀秀、美颜相机、Wink、美图设计室、WHEE、美图云修等多款知名影像和设计产品提供AI模型能力,同时协助美图公司构建了由底层、中间层和应用层组成的人工智能产品生态。MiracleVision(奇想智能)目前已经升级至4.0版本,不仅被全面应用于美图旗下的多个产品,还在逐步扩展到电子商务、广告、游戏、动漫、影视等五大行业中。美图公司表示,到目前为止,在所有通过备案的国内大模型中,MiracleVision(奇想智能)是唯一专注于视觉领域的,并且也是福建省唯一通过备案的大模型。这标志着美图公司在AI视觉技术领域的领先地位,以及其对提升行业标准和推动技术发展的承诺。 图10:美图业务生态 (二)底层技术 AI分析街景图片,准确率92%。斯坦福大学的科研团队利用OpenAI的CLIP神经网络,开发出了名为PIGEON的项目,该项目专注于分析街景图片并预测图片的地理位置。PIGEON应用程序表现出色,能够有效地分析街景照片并确认其确切位置,其准确率高达92%。更值得注意的是,超过40%的猜测能够将位置定位到距离实际位置25公里以内的范围。这项技术的高准确率展示了利用先进神经网络进行地理位置预测的巨大潜力,同时也开启了街景图像分析的新可能性。 清华&哈佛团队推出LangSplat,推动了三维空间中的语言搜索和识别技术。 清华大学和哈佛大学合作开发了一个名为LangSplat的先进AI系统,该系统旨在三维空间内高效且准确地搜索开放式词汇。LangSplat是首个基于3D语言场(3DGS) 的方法 , 采用了SAM(Softmax Approximation Method) 和CLIP(Contrastive Language-ImagePretraining)技术,专门用于三维对象的定位和语义分割任务。相比于其他先进的方法,LangSplat在处理开放词汇三维对象定位和语义分割方面展现了优越性能 , 同时其处理速度比LERF(Language-Embedded Radiance Fields)快199倍。LERF是加州大学伯克利分校在2023年3月推出的技术,它通过将语言嵌入从现成的模型(如CLIP)嵌入到NeRF(NeuralRadianceFields)中,使得在三维环境中识别物体无需专门训练。用户可以在三维环境如书店的NeRF模型中,使用自然语言搜索特定书名等。 LERF的这一技术不仅有助于机器人技术,也可用于模拟机器人视觉训练以及增强人类与三维世界的互动。 (三)行业政策 科技部发布《指引》规范AI使用。中国科技部监督司于上月发布了《负责任研究行为规范指引(2023)》,旨在为科研人员和各类科研单位提供关于负责任研究的道德准则和学术规范。《指引》涵盖了研究选题与实施、数据管理、成果署名、同行评议、伦理审查、监督管理等11个重要方面,确立了科研活动中应遵循的基本标准。特别地,《指引》明确规定禁止使用生成式人工智能直接生成申报材料,也不允许将其列为研究成果的共同完成人。此外,强调科研人员应将科技伦理要求贯穿于研究活动的全过程。关于成果发布,要求科研成果在公布前必须得到科研单位同意,并且经过科学验证和同行评议。同时禁止重复发表论文或数据、图片等内容,或将多篇已发表论文的部分内容拼凑为“新成