您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:AI时代的数据处理技术 - 发现报告
当前位置:首页/行业研究/报告详情/

AI时代的数据处理技术

信息技术2024-08-22陈文光-在***
AI智能总结
查看更多
AI时代的数据处理技术

AI时代的数据处理技术 陈文光 清华大学/蚂蚁技术研究院 物联网、边缘设备和用户行为产生大量数据 •数据量(Volume)和数据生成速度(Velocity) 大数据:数据量,数据生成的速度和多模态 (inzettabytes) 多模态数据(Variety) •图片,文档,图,时序,交易 •Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025©Statista2021 https://www.statista.com/statistics/871513/worldwide-data-created/ 数据处理的深度也在增加 https://medium.com/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007 向量数据库是提升模型服务能力的核心技术 搜索增强的内容生成:RAG Vectordatabase User Nearestneighbors Question? Answer Prompt 高质量训练数据是进一步提升基础模型性能的关键 80%Data+ = BetterAI 吴恩达的“二八定律”: 深度学习应当从Model-centric向Data-centric转变 吴恩达(AndrewNg.) •大模型需要大数据 •如何获得更多数据?如何提升数据质量?如何高效处理海量数据? 20%Model 大模型崛起引领大数据新需求 模型 发布时间 参数量 预训练数据量 GPT-1 2018年6⽉ 1.17亿 约5GB GPT-2 2019年2⽉ 15亿 40GB GPT-3 2020年5⽉ 1750亿 45TB GPT-3.5(ChatGPT) 2022年11⽉ 千亿级 百TB级? GPT-4 2023年3⽉ 万亿级(估) 未披露 大模型崛起引领大数据新趋势 在线离线一体化 向量数据库与关系数据库一体化 数据处理与AI计算一体化 趋势一:在线离线一体化 问题 在线模型(策略)表现与离线不一致 •数据不一致 •模型效果不一致 ModelServing(PyTorch,TF) Apps RealTimeETL (Flink,SPARK) Queue(Kafka) Database(MySQL) OnlineModelUpdate(PyTorch,TF) ETL (Flink,Spark +HUDI) DataLake BatchTraining/Test(PyTorch,TF) (MPPDB,HDFS) 实时链路 OLTP (Hbase,KV,ES) OLAP (Presto,CK) Analysts 离线链路 HTAP引擎(TP+AP) SQL优化器 并行执行 存储过程 原生多租户架构 Oracle兼容性 MySQL兼容性 单机分布式一体化架构 分布式存储 分布式事务 分布式调度 2-in-1Architecture:TP&AP一体化 架构创新 可以独立部署,也可以分布式部署 双计算引擎 用于事务和分析工作负载的一份数据副本 兼容MySQL和Oracle 与多租户高度兼容,实现资源隔离 •ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everythingDatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023. OceanBase:分布式HTAP数据库 HTAP+DBaaS:成本优化和简化维护 OLTPsystem OLAPsystem OLTPworkload OLAPworkload HTAP引擎 成本优化,维护方便 实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP) TP&AP同一套引擎 Traditionalprocessing HTAPprocessing Step1OLTPrequests OLTP+OLAPrequests Step2OLAPrequests OceanBasecluster 混合负载 复杂查询优化 •自动计划不断演变 TP&AP同一套引擎 •同时处理TP和AP查询 线性化实时OLAP处理能力 •水平可扩展性(数百亿条数据记录)和低延迟(秒) 集群级别的并发控制 •优化资源分配和流量控制的灵活策略, TuGraphDataflow •流图计算系统,支持Gremlin 图风控方案中的在线离线一体化:问题 Application MessageQueue DataServing TuGraph DB StreamingWrite TuGraph Dataflow TuGraph Dataflow RulebasedServing DecisionMaking DecisionEngine Historical Playback 在线近线数据不一致 模型效果不一致 TuGraphDB •分布式图数据库,支持自定义图查询 语言GQuery 在线近线系统使用同样的查询语言 •避免不同语言语义的不一致性 •很多细节,比如Nodelimit 图风控方案中的在线离线一体化:解决方案 Application MessageQueue DataServing TuGraph DB StreamingWrite TuGraph Dataflow TuGraph Dataflow RulebasedServing DecisionMaking DecisionEngine Historical Playback TuGraphDB:分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraphDataflow:流图计算系统,支持国际标准图查询语言ISO-GQL 保证在线近线数据一致 •以在线数据库内容为准,同步到近线系统 查询请求 查询处理器 SQL查询 向量查询 SQL引擎 向量搜索引擎 事务引擎 向量索引 存储引擎 向量存储 OceanBase 蚂蚁VSAG库 趋势二:向量数据库与关系数据库一体化 指将向量数据处理能力和关系型数据管理能力结合在一起的技术策略 应用场景 一体化的优点 OceanBase以插件形式实现向量数据库 蚂蚁VSAG VSAG是面向蚂蚁的通用向量索引库 •提供通用向量检索和构建接口(与Faiss形式类似) -Add/Build:增量/批量构建向量索引 -KnnSearch/RangeSearch:向量检索(返回行号和距离) -Serialize/Deserialize:向量索引序列化/反序列化 包含目前主流的向量索引实现 •提供最佳实现的HNSW •生产可用的DiskANN •支持INT8类型向量检索(非SQ/PQ) •PQ(进行中) 针对场景的优化 •自适应指令集加速(SIMD指令集加速) •索引分区 •Top1/TopK召回优化 •向量间距离计算优化 VSAG与Faiss的区别 VSAG FAISS •提供最佳实现的HNSW•提供生产可用的DiskANN•支持INT8类型向量检索(非SQ/PQ)•提供x86、ARM平台编译和SIMD运行 •提供大量lowlevel的算法,可自由组合(IVF、PQ、SQ、Refine)•提供最佳实现的GPU支持•提供Binary向量索引算法•IVF算法对于批量搜索有很大加速 •低门槛使用,无需算法专业知识,不需要算法选型,直接通过简单接入,可以快速获得向量检索能力,拥有内存和磁盘两个场景下极致解决方案的索引库 •向量检索工具箱,可以深度定制向量检索算法,对于特定的场景/workload可以有更好的性能,需要用户对于检索算法/参数非常了解,有最好的GPU算法实现,面对高写入/高QPS场景有巨大优势 OOcOeceaeananBnBaBasasesePePrPororxoxyxy VectorSearchRequest OceanBaseNode Extensions OceanBaseNode Extensions OceanBaseNode Extensions VSAGLib VSAGLib VSAGLib 在OceanBase中集成VSAG OceanBase提供模块化机制引入VSAG OceanBase新增向量二级索引 与OceanBase中的本地二级索引类似 检索过程与分析型索引类似 •针对所有OceanBase节点进行检索 •对所有节点结果进行合并 CCNet流程 大数据流程 AI流程 CommonCrawl原始数据 解析 从WARC中分离HTML请求与响应头、HTML内容。 删冗 以正则化后的文档哈希值为键,保留首次出现的文档 语言分类 基于fastText的预训练语言分类模型(126MB) 清洗后高质量文本数据 过滤分桶 根据用户提供的语言白名单、黑名单过滤,根据质量分桶 质量评估 使用KenLM库中的一个文本质量模型评估perplexity 分词 基于SentencePiece分词器,支持48种语言 趋势三:数据处理与AI计算一体化 大模型训练数据处理——Data+AI典型场景 •CommonCrawl是一个海量的、非结构化的、多语言的网页数据集,包含近10年的随机网络数据,PB级规模,可从AmazonS3上免费获取。GPT-3训练数据的60%来自CommonCrawl。 •CCNet是Facebook发布的数据清洗流程,希望从 CommonCrawl中能够提取出高质量的文本数据集。 AI和大数据处理在硬件层面也有很大差别 数据处理与AI融合问题 处理器 网络 AI GPU或AI加速器 大数据处理 通用CPU 小数据处理 CPU NVLink+IB/100Gbps+ 10Gbps–25Gbps - 主要编程语言 Python Java/Scala Python 编程框架 PyTorch,Tensorflow,PaddlePaddle SQL,Spark,DataFrame Pandas,NumpySciPy,Notepad AI计算在数据中心的比例将持续显著增加,主要是Python生态 分布式大数据处理主要是Java生态 “小数据”处理主要是Python生态 1.两类软硬件生态的开发、调试、部署和维护都更加复杂 2.系统间数据传输开销降低性能 3.需要招聘两类程序员,或精通两者的程序员 数据与AI独立生态的问题 预处理 神经网络 后处理 Spark TF/PyTorch Spark 一种尝试:BigDL*深度学习的Java化 问题 •只支持CPU,不支持GPU和异构加速器 •重新开发深度学习模块,不能复用TF中的功能 •Spark本身性能有缺陷 *Dai,J.J.,Wang,Y.,Qiu,X.,Ding,D.,Zhang,Y.,Wang,Y.,...&Wang,J.(2019,November).Bigdl:Adistributeddeeplearningframeworkforbigdata.SoCC2019 另一种尝试:Spark的Python化 KoalasEvolution LaunchedatSpark+AlSummit2019Now~3millionPyPIdownloadspermonth. •PySpark支持Dataframe和SQL •Koalas是Pandas的Spark封装,现在已经被合并进入S