您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:人工智能周报(24年第29周):微软AI设计应用全平台上线,阿里云开源两款新语音基座模型 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能周报(24年第29周):微软AI设计应用全平台上线,阿里云开源两款新语音基座模型

文化传媒2024-07-23张伦可、陈淑媛国信证券单***
人工智能周报(24年第29周):微软AI设计应用全平台上线,阿里云开源两款新语音基座模型

人工智能动态:1)产品应用:腾讯智影小程序上线AI视频功能,限时免费一键生成日漫风格的风格化视频;三星OneUI6.1.1引入“手稿到图像”等AI功能;蚂蚁集团推出EchoMimic,实现自动对口型视频技术;百度推出全新AI社交应用“文小言”,开启数字化交友新体验;百度网盘推出AI英语学习小程序“盘盘单词”;科大讯飞推出SparkPro-128K大模型API,助力复杂任务与内容创作;微软AI设计应用全平台上线;亚马逊AI购物助手Rufus全面上线;谷歌Gemini推出新功能,全面增强用户体验谷歌。 2) 底层技术:阿里云通义千问开源两款语音基座模型;微软推出SpreadsheetLLM:专为电子表格设计的AI大语言模型;谷歌推出Project Oscar助力开源软件开发;OpenAI发布全能小型AI模型GPT-4omini;英伟达携手MistralAI发布Mistral-NeMo大语言模型。 3)行业政策:德国法院裁定AI发明可获专利,需人类列为发明人;欧盟《人工智能法案》8月1日生效,严格监管AI技术应用;美参议员提出COPIED法案以打击深度伪造;Meta因监管问题新AI模型在欧盟受限;谷歌等14家公司组建安全AI联盟。。 投资建议:港股互联网板块开启长期基本面修复行情。①估值角度凸显价值洼地属性:月初我们汇总港股互联网公司扣除现金、短期投资的估值,相关标的估值在24年PE 15x左右水平,相比较美股纳斯达克24年PE24x,港股互联网板块进入到深度价值区域,投资价值凸显。②资金配置角度:外资长线资金积极加仓带动南向资金流入,持续推动上涨。 ③公司经营与回报方面:年初以来各家如阿里、美团、字节在收缩不必要的投入,利润率压力预计有所缓和。同时也在增加股东回报,比如腾讯、美团等持续大额回购。④国内经济政策方面:近期地产政策持续松绑、货币利率政策进一步宽松,国内整体仍处于经济复苏阶段,政策支持持续推出,有望对需求持续形成支撑。综合以上因素,继续坚定推荐恒生科技配置,尤其是长期竞争格局清晰的腾讯、短期边际变化明显的美团和京东集团、AI驱动增长的美图公司。 风险提示:政策风险,疫情反复的风险,短视频行业竞争格局恶化的风险,宏观经济下行风险,游戏公司新产品不能如期上线或表现不及预期风险等。 AI相关网站流量数据 图1:AI相关网站周访问量(百万) 图2:第一梯队AI相关网站周访问量变动(百万) 图3:第二梯队AI相关网站周访问量变动(百万) 图4:第三梯队AI相关网站周访问量变动(百万) 图5:新增聊天、教育类AI相关网站周访问量变动(百万) 微软AI设计应用全平台上线,阿里云开源两款新语音基座模型 (一)产品应用 腾讯智影小程序上线AI视频功能,限时免费一键生成风格化视频。腾讯智影小程序推出了AI视频功能,用户能一键生成日漫风格的风格化视频,此功能目前免费使用。该功能通过风格化处理提升视频美感、趣味性和传播力,支持10秒视频快速转化,并提供多样模板。智影自2023年3月上线,整合了AI创作能力,提供虚拟数字人、文本配音等智能创作工具。新功能的加入进一步丰富了用户的创作手段,提升了内容创作的效率和趣味性。 三星One UI6.1.1引入“手稿到图像”等AI功能。三星在GalaxyUnpacked发布会上推出新手机及OneUI 6.1.1更新,其中“手稿到图像”功能利用AI将手绘草图转化为精美图像,与背景完美融合。“人像工作室”则允许用户将照片转换成多种风格。这些AI功能旨在提升用户的创意体验,并需云端支持,确保图片无透明背景以生成高质量的3D头像。新功能预期将扩展至更多Galaxy设备。 图6:“手稿到图像”生成效果展示 蚂蚁集团推出EchoMimic,实现自动对口型视频技术。蚂蚁集团近日发布了开源的EchoMimic项目,该技术利用人工智能算法分析人像照片的面部特征和音频,生成同步口型的视频。该技术结合了面部标志点和音频特征,确保视频的稳定性与自然度,支持多语言和多风格,适用于包括歌唱在内的多种场景。这一创新为视频制作带来新可能,用户可轻松创建富有真实感的对口型视频,将推动多媒体内容创作领域的进一步发展。 百度推出全新AI社交应用“文小言”,开启数字化交友新体验。百度发布了首款基于文心大模型的AI数字人社交应用“文小言”。用户可以与仿真数字人进行实时互动,并建立情感连接。虽然功能与同类AI聊天产品相似,但“文小言”的仿真数字人提供了更真实的交互体验。尽管肢体动作尚不流畅,且不支持创建专属数字人,但每个AI数字人都拥有独特的聊天服务,旨在成为用户的知心伙伴。 百度网盘推出AI英语学习小程序“盘盘单词”。百度网盘新推出AI英语学习微信小程序“盘盘单词”,用户可通过照片学习英语,摆脱传统单词书。该小程序利用生成式AI技术,从用户照片中提取关键元素,生成与实际生活相关的英语单词和例句,助力用户加深记忆。普通用户每日限20张照片,会员用户无限次使用,会员月卡仅需9.9元,年卡39.9元。百度网盘表示,该工具基于千帆大模型,能不断优化学习算法,确保复习计划的有效性。 科大讯飞推出SparkPro-128K大模型API,助力复杂任务与内容创作。科大讯飞近日宣布开放讯飞星火API的长上下文版本——SparkPro-128K大模型,价格低至0.21元/万tokens。该模型具备强大的长文本处理能力,可提升复杂对话、长篇内容创作及数据分析等任务的解决效果。此外,新版本还首发了内容溯源功能,增强回答的可信度。个人用户还可免费领取200万tokens的服务量。 微软AI设计应用全平台上线。微软公司近日在苹果iOS和谷歌安卓平台发布了正式版的MicrosoftDesigner应用,经过近一年的预览测试后,该应用现可在多个平台上使用。通过这款应用,用户可以利用AI技术进行图片编辑、生成个性化贺卡和手机壁纸等创意设计工作。微软表示,该应用旨在释放用户的创造力,提供全平台、跨设备的体验,以满足不同场景下的AI项目需求。 图7:MicrosoftDesigner界面 亚马逊AI购物助手Rufus全面上线。亚马逊宣布,经过五个月测试,其生成式AI购物助手Rufus已对美国客户全面开放。Rufus旨在助力用户节省时间,做出明智购物决策,通过亚马逊App文本聊天界面回答各类购物问题,如商品推荐、订单查询等。此外,Rufus还具备广泛知识,能建议旅游目的地甚至创作短篇小说。这一创新将为电商领域带来全新智能购物体验。 谷歌Gemini推出新功能,全面增强用户体验谷歌。Gemini近期将迎来多项重大更新。定制GPT“GEM”让用户可自由查看、编辑和复制,打造专属智能助手。记忆或个性化回复功能,让用户享受更为人性化的对话体验。同时,新版本还集成了录音、Google Photos上传功能,方便用户随时分享生活点滴。此外,Chrome浏览器扩展的加入,更是让操作更加便捷。这些新功能的推出,无疑将进一步巩固Gemini在人工智能助手领域的领先地位。 (二)底层技术 阿里云通义千问开源两款语音基座模型。阿里云通义千问近日开源了SenseVoice和CosyVoice两款语音基座模型。SenseVoice主打高精度多语言语音识别,情感辨识及音频事件检测,其识别效果优于OpenAI的Whisper模型。而CosyVoice则擅长多语言语音生成、零样本语音生成等功能。这两款模型的推出,不仅丰富了开源社区的语音技术资源,也为开发者提供了更多选择和创新可能。 图8:SenseVoice-Large数据对比 微软推出SpreadsheetLLM:专为电子表格设计的AI大语言模型。微软最新研究显示,其开发的SpreadsheetLLM模型,专为Excel等电子表格应用设计,通过结构锚压缩、反向索引转换等技术,性能比传统方法提升25.6%,词元使用成本降低96%。尽管该模型在处理背景颜色和边框等复杂电子表格时存在局限,但已展现出显著优势。目前,微软尚未公布该模型的具体发布计划。 谷歌推出Project Oscar助力开源软件开发。谷歌近日发布Project Oscar,旨在通过AI智能体帮助开源开发团队更高效地管理软件项目。该平台可监控开发中的问题,支持自然语言交互,无需重写代码。目前已在Go项目中得到应用,能处理错误报告、丰富问题信息并与贡献者互动。Go项目拥有93000次提交和2000名贡献者,ProjectOscar的引入将大幅提升了问题跟踪的效率。 OpenAI发布全能小型AI模型GPT-4omini。OpenAI推出了“GPT-4omini”,旨在扩大聊天机器人应用,声称它是功能最强、成本效益最高的小型模型。该模型支持多模态技术,可生成文本、图像、音频和视频,计划整合这些功能。GPT-4omini已面向ChatGPT各类用户开放,作为5月发布的GPT-4o的衍生产品,GPT-4o提升了音视频和文本处理能力,支持50种语言,是OpenAI最快的模型。 英伟达携手MistralAI发布Mistral-NeMo大语言模型。英伟达与法国初创公司MistralAI联手推出了拥有120亿参数的Mistral-NeMoAI大语言模型,旨在为企业提供高效、低成本的AI解决方案。该模型可在本地硬件上运行,解决了数据隐私、延迟及高成本等问题,有望颠覆AI软件市场,为小型企业带来福音。模型的发布采用了Apache2.0许可,进一步加速其在企业中的应用。 (三)行业政策 德国法院裁定AI发明可获专利,需人类列为发明人。德国一家法院裁定,AI生成的发明在人类被列为发明人的情况下,可以申请专利。这一裁决由“人工发明者项目”推动,旨在探讨AI技术下的知识产权保护。此前,日本和英国法院均因发明人必须为自然人而驳回AI发明专利申请。德国法院的这一决定可能引发全球范围内对AI发明知识产权保护的重新审视。 欧盟《人工智能法案》8月1日生效,严格监管AI技术应用。欧盟《人工智能法案》将于8月1日生效,规定学校和工作场所不得使用实时情绪识别系统,部分AI应用将被禁止。AI开发者需遵循行为准则,OpenAI等公司须满足透明度要求。 生成式AI内容必须明确标记,训练大模型的公司遵守《版权法》。这一法案旨在全面监管AI技术,确保其安全、透明并尊重版权。 美参议员提出COPIED法案以打击深度伪造。美国参议员提出跨党派提案,旨在打击有害深度伪造,建立AI生成内容透明度准则。该提案要求NIST制定出处信息和水印标准,保护创作者权益,禁止未经授权使用其内容训练AI。同时,赋予个人起诉违法者权利,并严禁篡改AI生成内容的出处信息。此法案将有助于维护内容真实性,保护记者、艺术家等免受AI剽窃侵害。 Meta因监管问题新AI模型在欧盟受限。Meta计划推出多模态Llama模型,但因欧盟监管环境不确定,将不在该地区发布。此决策涉及GDPR合规性及使用欧盟客户数据训练模型的难题。Meta将提供仅支持文本的Llama3模型。此前,苹果也因监管问题 , 决定iOS 18和macOS Sequoia新系统在欧盟无法使用Apple Intelligence等功能。这反映了美科技巨头在应对欧盟严格数据隐私法规时的困境。 谷歌等14家公司组建安全AI联盟。近日,谷歌、微软、OpenAI等14家AI巨头在阿斯彭安全论坛上宣布联合组建安全人工智能联盟(CoSAI)。该联盟旨在提供设计安全AI系统的指导和工具,降低模型盗窃、数据中毒等风险。CoSAI将致力于开发AI安全最佳实践,应对行业挑战,并确保AI应用的安全。这一举措标志着AI行业在安全性方面迈出了重要一步。 (四)重点事件预告 8月7日-8月8日:2024Google谷歌开发者大会 投资建议 港股互联网板块开启长期基本面修复行情。①估值角度凸显价值洼地属性:月初我们汇总港股互联网公司扣除现金、短期投资的估值,相关标的估值在24年PE 15x左右水平,相比较美股纳斯达克24年PE 24x,港股互联网板块进入到深度价值区