您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[CCSA TC601 大数据技术标准推进委员会]:数据智能白皮书(2024年) - 发现报告
当前位置:首页/其他报告/报告详情/

数据智能白皮书(2024年)

数据智能白皮书(2024年)

数据智能白皮书 (2024年) CCSATC601大数据技术标准推进委员会 2024年6月 版权声明 本报告版权属于CCSATC601大数据技术标准推进委 员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,本组织将追究其相关法律责任。 编制说明 本报告的撰写得到了数据智能领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 参编单位:大数据技术标准推进委员会、交通银行股份有限公司、中国平安人寿保险股份有限公司、中国海洋石油集团有限公司、南方电网数字平台科技(广东)有限公司、中邮信息科技(北京)有限公司、中移动信息技术有限公司、恒丰银行股份有限公司、小米通讯技术有限公司、中电信人工智能科技(北京)有限公司、联通数字科技有限公司、华为云计算技术有限公司、腾讯云计算(北京)有限公司、普元信息技术股份有限公司、中电金信软件有限公司、浙江大华技术股份有限公司、瓴羊智能科技有限公司、杭州阿里妈妈软件服务有限公司、星环信息科技(上海)股份有限公司、电科云(北京)科技有限公司、北京数势云创科技有限公司、北京市盛廷律师事务所、北京盛汉律师事务所、江苏联著实业股份有限公司、北京国电通网络技术有限公司、北京科杰科技有限公司、中国移动紫金(江苏)创新研究院有限公司、一网互通(北京)科技有限公司、杭州比智科技有限公司、杭州观远数据有限公司、深圳市明源云科技有限公司、海亮教育科技服务集团、芜湖明瞳数字健康科技有限公司、上海零数众合信息科技有限公司、天元瑞信通信技术股份有限公司、南京中新赛克科技有限责任公司、湖北数据集团、泽拓科技(深圳)有限责任公司、杭州网易数帆科技有限公司 参编人员:王卓、姜春宇、马鹏玮、康宸、田稼丰、王超伦、刘 宾、杨靖世、郝志婧、尹正、周一帆、梅宇婷、朱晟、张义德、郑会丽、刘朝晖、范维、高健祎、杨光、包新晔、吴凡、王文颖、阮宜龙、陈卓、代莎、任鹏飞、余弘铠、刘涓、卫伟、高波、张淑娟、燕媛媛、 史赟、李阳、高华超、龚禧、龙江、赵丽丽、李沐霖、叶嘉梁、贾宇航、蔡洛维、杜啸争、王笑非、王东风、周明伟、陈立力、江文龙、 马里、孙蕾、陈思、胡晋渊、董鹏飞、侯承环、武文超邢笑生、张广庆、方正、丁乙、韩秀锋、沈迪、李紫薇、毕文强、李永卓、张云龙、肖敬仁、姜怀舒、王楠、唐志涛、卢彩霞、余芳、朱建勇、贾光锋、王帅、彭涛、包岩、周晓阳、寇振芳、崔壤丹、何徐麒、张进、严林刚、石凯、曾伟雄、苑国跃、余震宇、谢耀圣、项灵刚、谭立何、杨 博、闫阳阳、刘�、兰春嘉、杨珍、李树磊、卢云川、顾欢欢、张全、 钱龙、古伟、彭聪、石松、赵伟、孙国良、闫晶、宋昌 前言 以“数据”和“智能”为代表的信息技术在数十年间快速融入全社会的生产、分配、流通、消费、社会服务管理等环节,不断带动生产力提升,推动社会进步。 近年来,伴随数据增列为生产要素、生成式人工智能技术实现突破,“数据”和“智能”产业均进入剧烈变革期,两者间的发展关系也发生巨大变化,“数据智能”顺势成为产业焦点。 为梳理数据智能相关知识体系,总结先进实践经验,研判未来发展趋势,指引企业顺利实现数智化转型,大数据技术标准推进委员会牵头,联合行业专家和头部企业首次共同编制《数据智能白皮书(2024年)》。本白皮书聚焦数据智能这一话题,梳理概念的诞生背景及发展历程,系统性厘清完整技术体系,深入剖析应用现状问题,展现产业生态全景,以期为企业未来的数据智能实践提供参考。由于时间仓促,水平所限,本白皮书仍有不足之处,欢迎联系wangzhuo@caict.ac.cn交流探讨。 目录 一、数据智能综述1 (一)数据智能概念探讨1 (二)数据智能的历史发展沿革3 (三)数据智能的价值和意义5 二、数据智能技术8 (一)数据智能技术体系概览8 (二)数据智能关键技术发展态势9 (三)数据智能技术未来展望21 三、数据智能应用22 (一)数据智能应用发展态势23 (二)数据智能应用当前问题26 (三)数据智能应用未来展望28 四、数据智能产业生态34 (一)数据智能全景化布局提速,产业体系逐步完善34 (二)全球数据智能产业快速发展,规模化效应初显37 (三)数据智能产业挑战与机遇并存40 五、总结与展望44 图目录 图1数据和智能间关系的变化1 图2数据智能发展脉络3 图3数据智能技术体系概览8 图4部分生成式大模型发布情况统计17 图5数据智能应用体系概览22 图6大模型赋能的数据智能应用场景29 图7数据智能产业图谱35 图8数据智能企业营收分布情况36 图9数据智能企业研发人员数量占比情况37 表目录 表1数据智能应用发展阶段24 表2各行业数据智能应用落地的头部场景25 一、数据智能综述 (一)数据智能概念探讨 近年来,智能领域突破“量变引发质变”的临界点,相关技术、产业进入剧烈变革期。自1956年人工智能(AI)概念诞生以来,智能计算领域历经多个阶段的技术方向探索,逐渐收敛在深度学习这一主线,但仍以“决策式人工智能”为主要发展领域。近两年,在以Transformer模型为代表的算法、极致算力支撑下的千亿级模型参数、大规模高质量的训练数据三者共同的作用下,生成式大语言模型的应用效果出现跨越式提升。以GPT-4为代表的大模型能实时对图像、音频、视频等多种形式输入进行理解,根据要求完成高效问答、内容生成等多种任务,甚至以前10%的成绩通过美国模拟律师考试,由此“生成式人工智能”的发展成为全球焦点,带动人工智能技术产业进入剧烈变革期。 伴随智能领域变革,“数据”与“智能”间的发展关系亦呈现两点重要变化,“数据智能”概念亟需明确。如图1所示,数据和智能间的关系变化在近期主要体现为两点: 图1数据和智能间关系的变化 一是“智能”将成为“数据”价值释放的主要路径,“数据”成为“智能”成效进一步跃迁的胜负手,两者关系由“松耦合”转向“紧耦合”。长期以来,受制于智能技术的局限性,数据仍以非智能化的传统应用方式发挥价值,同时,智能应用效果的明显提升主要由算法驱动,数据仅作为研发过程中的基础一环,两者呈现“松耦合”式发展关系。然而,随着生成式大语言模型应用效果的飞跃式提升,人工智能对于生产生活各领域将逐渐不可或缺,进而成为数据价值释放的主要路径;同时,随着算力、算法的演进模式逐渐收敛,数据对智能持续发展的价值愈发突出。由此,助力智能发展将成为数据工作的核心,智能的效果提升也更加依赖数据工程及技术的托底,两者后续将转向“紧耦合”式发展关系。 二是智能化技术开始反向助力数据技术发展和非结构化数据应用。一方面,智能化技术开始应用至数据技术领域,在生成式人工智能的赋能下,数据的汇聚技术、存算技术、管理技术、开发技术、安全技术等快速向智能化升级,相应环节的生产效率有望得到大幅提升;另一方面,智能化技术突破传统数据技术面向非结构化数据的能力瓶颈,占据未来数据总量约80%的文档、视频、音频等非结构化数据在生成式人工智能技术的助力下,可被迅速处理和分析,从而实现全形态数据的价值释放。 通过以上两点变化可见,数据与智能的融合大势所趋,由此“数 据智能”的概念也应运而生。数据智能的概念可以初步概括为,以全形态数据为关键资源,以大数据和人工智能深度融合后的新技术体系 为关键手段,以决策式、生成式人工智能和传统数据应用形式协同应用于生产生活各领域为最终目标,由此形成的新兴生产生活方式,以及相应延展出的新技术、新产业、新生态。 (二)数据智能的历史发展沿革 数据和智能是信息技术领域中最受关注的方向,其历史最早可以追溯到计算机的诞生,随后至今的近80年大致可分为三个阶段,总体的技术演进脉络如下图所示。 图2数据智能发展脉络 第一个阶段是技术准备时期(2000年以前),这一阶段主要是由技术驱动的发展阶段。在计算机诞生后的20年内,通过计算能力形成人造智能的人工智能(AI)概念,和对数据进行管理和处理的数据库理论均已提出。随后,人工智能经历了从基于规则的推理方法到基于统计的机器学习方法的转变,经典机器学习和早期人工智能理论逐渐形成体系。数据领域则由关系型数据库完成大多数据管理和处理需求,同时诞生了数据仓库理论,指导企业使用数据库等相关工具实现基本的经营管理数据分析。这一阶段中,新兴信息技术不断涌现,为企业、产业、社会带来革新的生产力,信息技术的重要性为人所熟知。第二个阶段是大数据时期(2000年~2020年),这一阶段主要是 由数据驱动的发展阶段。随着互联网时代的全面到来,数据量的爆发式增长、数据类型的多样复杂化、时效性需求的愈发强烈,为数据的处理能力、智能算法的计算效率与效果均带来了新的要求,也使传统机器学习和数据库技术出现瓶颈,催生出以分布式处理为代表的提升数据处理规模和效率大数据技术,及通过多层神经网络学习加深模型效果的深度学习技术,数据和智能各自的技术发展进入快速迭代阶段。这一阶段中,数据量和数据类型的飞速增长进一步引领了技术的被动式革新,数据开始作为关键角色登场,受到的重视程度也与日俱增。 第三个阶段是融合应用时期(2020年至今),这一阶段是由应用驱动的发展阶段,也是当前所处的发展阶段。近年来,移动互联网的普及和应用推动数据和智能技术的发展更加极致,更多样化和复杂的 需求催使技术的发展和应用趋向融合,流批一体、湖仓一体、多模化 处理、多模态深度学习等已成为前沿发展方向,数据与智能技术进入相互融合深度应用以促进共同发展的道路。这一阶段中,单一技术的发展速度逐渐放缓,如何深化对已有技术的应用,充分发挥数据的内蕴价值,将数据和智能更为有机的结合成为更受关注的问题。当下,以大语言模型为代表的生成式人工智能技术实践效果突出,其结合大量场景的应用正在加速落地,围绕其应用落地相关的数据供给、模型优化、场景发掘、伦理安全等一系列问题成为时下热点。 (三)数据智能的价值和意义 价值产生的本质,是能量、物质、信息三者内部或之间转换效率的增加。因此价值的具象化,也往往以效率提升的形式体现。数据智能借由传统数据技术加速了信息的收集和处理加工,借由智能化技术提升了信息精炼过程和人机信息传递交互的效率,从结果上实现了信息流动过程中更多环节由人工处理向智能化自动处理的靠拢和转变。 人力由于自身生理条件制约效率有限,相较由庞大能量支撑、运转速率高且信息传递顺畅的信息系统,更多的成为人机混合流程中的瓶颈环节,阻碍着串行流程运行的总体效率。随着智能化技术的持续进步,智能化自动处理模块相较人工处理造成的有效信息损失被压缩至相对可控和可接受的范围,使得智能化自动处理替代人工带来的整体效率提升更为可观,为更多人工环节的替换提供了现实基础。 在数据智能的实践下,以人为核心的生产环节,或被替代,或受 益于技术赋能带来的生产效率提升,或受益于技术效果突破可用性临界点带来的新型生产方式及由此诞生的新生产环节。其中,被替代的 是具体环节而非人员本身,相反每个个人作为独立的信息生产处理系统在综合作用下将得到最大程度的效率提升,进一步的,随着规模效应的放大,将逐渐为企业、产业、社会等各层面带来新的价值和意义。 在企业层面,数据智能的实践能提升企业从数据中提取有效信息、精炼转化为知识、最终指导决策这一过程的总体效率,半自动化、自动化决策方式逐步落地。决策效率的提升和决策方式的转变,能够显著提高企业经营的响应速度和市场适应能力,促进业务流程优化和创新。例如,在金融业,帮助企业实现精准营销、风险控制和欺诈检测;在制造业,优化生产流程、预测设备故障、降低运营成本;在外卖、出行等行业,系统自动形成最佳调度方式并直接完成决策,显著提高效率和响应速度。 在产业层面,数据智能的实践在直接带动相关技术服务产业发展的同时,还将带来模式创新和对生产关系的重塑,以改善产业链总体产出效率。一方面,对于更高效专业化技术服务的持续性需求,将催熟联合运营等新兴产业合作模式。另一方面,生产端个人生产能力的水位上升将带动部分行业领域离散型个体供给模式的进一步兴起。例如,在内容