TencentCloudDataPlatform -MetaInsight数据智理解决方案 主讲人: 王登宇腾讯云存储专家解决方案架构师 目录 01 TencentCloudDataPlatform 02 MetaInsight数据智理解决方案 01TencentCloudDataPlatform TencentCloudDataPlatform DataLake&Warehouse ContentsManagement DataMining Training&Inference SparkPyTorch ObjectStorage SemanticSearch&Metadata DataProcessing DataComputing&All-Flash S3,COS RESTAPI, ES/SQLBasedEngine RESTAPI POSIX,HDFS,CSI COS DataStore MetaInsight DataCatalog 数据万象 DataEngine DataProcess GooseFS DataAccelerator TencentCloudDataPlatform TencentCloudDataPlatformSolutionArchitecture Apps 数据接入DataIngest 数据加速DataAccelerator 数据智理DataInsight HDFSPOSIXPOSIX 数据迁移MSP ComputerSide GooseFS-CacheGooseFS-Lite 数据万象 DataIngestService 全球加速 DataIngestAccelerator StorageSide Storage-Less HDFS MetadataAccelerator POSIX GooseFS-X Provisioned-Cluster Gateway COS/S3 COSAccelerator MetaInsight DataCatalog DataEngine DataProcess COS DataStore COS对象存储:功能全面、高可靠性、高性价比的DataPlatform 存储底座 对象存储 采高可靠 12个9的数据可靠性 接入层 海量公网接入 流量负载均衡 无感扩缩容 故障监测自愈 YottaStore 存高可用 原生多AZ 元数据分级存储 数据自动均衡 过载智能保护 99.995%的数据可用性 AZ3 AZ2 AZ1 用超大规模 单集群最大可管理百EB级文件 数据万象:构建了DataPlatform的数据处理、数据管理双引擎 数据万象 DataEngine Dataprocess Query&Understand MetaInsight DataCatalog RunningFunctions MakeitStructuredData StoreUnstructuredData COS DataStore 病毒查杀 文件打包压缩 文件解压缩 文件Hash计算 文件处理 文档翻译 文档水印 HTML预览 转图片预览 文档服务 语音识别ASR 语音合成TTS 音频编辑 音频降噪 音频转码 音频处理 数据万象-DataEngine:数据处理引擎,提供一站式数据处理及内容审核服务 数据工作流批量处理 内容审核 图片审核视频审核 文本审核音频审核 色情查处广告查处 暴恐查处文档审核 图片处理 图片水印画质优化 图片压缩图像评分 基础处理图像理解 图像编辑 视频处理 基础转码视频编辑 边转边播画质优化 视频理解视频评分 视频水印视频生成 智能处理 图片智能处理 音频智能处理 视频智能处理 图片标签质量评分 听歌识曲唱歌打分 视频标签精彩集锦 以图搜图OCR识别 智能作曲歌词识别 老片修复智能封面 图像增强图像修复 音乐标签 质量评分画质增强 商品抠图…… 视频DNA…… 数据万象-MetaInsight:数据管理引擎,全媒体跨模态检索服务,进一步释放内容价值 非结构化数据 MetaInsight 智能算子 文档检索 人脸聚类 音频搜音频 视频搜视频 媒体管理 人脸检索 以文搜图 以图搜图 内容向量特征内容标签对象元信息 存储检索 对象存储COS 跨模态全覆盖高性能 支持文搜图,图搜图、文搜视频,视频搜视频,文本搜音频,音频搜音频等多种数据检索手段 支持对象元信息的高效查询、统计分析 已覆盖1000+细分场景,用户可根据业务场景挑选预置模版,快速搭建检索应用,最大化释放内容价值 千亿数据查询 毫秒级延时 召回率95+% GooseFS:近计算端缓存,为AI、大数据业务提供数据加速服务 GPUNode CPU GPU GPU Mem … NVMESSD GooseFS- -CacheL1 GooseFS MEM NVMESSD MEM CPU CacheL2 GPUNode GPU GPU Mem Tbps吞吐 亚毫秒延迟 数据本地存储,提供计算亲和性 任务就近调度,提升节点内流量 丰富缓存策略,精细化管理数据流动,提升加速效果 客户端缓存即时命中加速 支持数据预读和并行IO,减少GPU等待时间 网络开销优化,支持RDMA网络 GooseFS-CacheL3 对象存储COS 百万级IOPS 元数据节点平行扩展,均衡海量请求 高效线程模型,优化内存分配,减少请求积压 高并发高吞吐KVDB实现 MetaInsight+GooseFS,让数据更智能、更高效地计算 通过查询MetaInsight,从COSDataStore中提取有价值的数据,并将数据缓存到GooseFS,高效投递到计算节点,让数据接近计算端,进行更智能、更高效地计算 Datasets SemanticSearch MetadataQuery MetaInsight Metadata&Embedding GooseFS DataAccelerator POSIX/HDFSS3/COS Dataview D D D COS DataStore DataEngine+MetaInsight,自动识别标签,建立标签索引,高效管理数据 AutoLabeling DataEngine DataProcess 万象图文大模型 MetaInsight "CustomLabels":[ ”weather":”sunny", "trafficlights":”red” ], DataCatalog dataset MetadataQuery COS DataStore 02MetaInsight数据智理解决方案 MetaInsight:COSDataCatalog MetaInsight提供多场景、跨模态的检索服务,通过自然语言或结构化的检索条件,分析存储在对象存储COS中的数据,满足存储数据的管理、分析、检索需求。 Metadata&Embedding StructuredData POSIX&Object UnstructuredData Embedding 人脸图像检索、图片内容检索 COS DataCatalog Metadata 文件的聚合统计查询 MetaInsight通过提取数据的Metadata和Embedding特征,来构建COSDataCatalog MetaInsight:图文大模型V-LLM(vision-languagelargemodel)架构 视频集 数据万象MetaInsight采用视觉-语言大模型V-LLM(vision-languagelargemodel),能够通过对图片、文本多模态的语义理解和特征抽取,建模图文之间的相似度,从而实现图文检索、图像标签等下游任务应用。多模态特征表达能力,也可以扩展到文本与视频的特征提取&匹配,从而实现文本-视频检索。 图片集 Imageencoder Videoencoder I1 I2 I3 I4 In V1 V2 V3 V4 V5 T1 I1*T1 T1 I1*T1 T4 T2 文本集 Textencoder Textencoder In*Tn T5 41*T4 I3*T3 T3 文本集 I3*T3 T3 I2*T2 T2 I2*T2 Tn In*Tn T4 41*T4 MetaInsight:结合图文大模型,为DataPlatform提供数据智能检索服务 API url:cos://bucket_name/… [ [ url:cos://bucket_name/…vector:[0.23,-0.84,0.12…] ] 腾讯云 CloudVectorDB 万象图文大模型 CallAPIto ] 构建数据索引库 [ url:cos://bucket_name/…url:cos://bucket_name/… … ] COS对象存储 [ [ text:……………………….. vector:[0.23,-0.84,0.12…] ] CallAPIto API ] text:……………………….. 检索数据 MetaInsight:Dataset&Dataview dataset dataview(SemanticSearch) dataview(MetadataQuery) MetaInsight Metadata&Embedding MetaInsight:通过定制化标签、提取特征向量来建立索引 MetaInsight DataCatalog CreateFileMetaIndex [ "DatasetName":”training001", "File":[ "URI":"cos://trainingdataset-1250000000/clip001.jpg","CustomId":"001", "CustomLabels":[ ”weather":”sunny", "trafficlights":”red" ], "MediaType":"image","ContentType":"image/jpeg", ] ] POST/filemetaHTTP/1.1 Host:<AppId>.ci.<Region>.myqcloud.com dataset万象图文大模型 Index特性向量提取 COS DataStore MetaInsight:元数据检索查询 DatasetSimpleQuery MetaInsight Query DataCatalog POST/datasetquery/simpleHTTP/1.1Host:<AppId>.ci.<Region>.myqcloud.com [ "DatasetName":"training001","Query":[ "Operation":"and", "SubQueries":[[ "Field":"CustomLabels.weather","Value":"sunny", "Operation":”eq" dataset COS DataStore 万象图文大模型 ], [ "Field":"CustomLabels.trafficlights","Value":"red", "Operation":”eq" [ "Files":[[ "CustomLabels":[ ”weather":”sunny", "trafficlights":”red" ], "DatasetName":"training001", "Filename":"trainingdataset-1250000000/clip001.jpg", ]], ] ] ] ], "MaxResults":100 ] MetaInsight:语义和图像检索查询 POST/datasetquery/imagesearchHTTP/1.1Host:<AppId>.ci.<Region>.m