您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱可生]:TensorDB向量数据库白皮书. - 发现报告
当前位置:首页/行业研究/报告详情/

TensorDB向量数据库白皮书.

综合2023-10-08-爱可生心***
AI智能总结
查看更多
TensorDB向量数据库白皮书.

向量数据库白皮书 目录 CONTENT 01产品介绍 02TensorDB® 私域大模型应用开发框架 04 05ChatDBA 03产品优势06推荐系统 产品介绍 向量数据库是一种专门用于存储和处理向量数据的新型数据库 什么是向量数据呢? 我们可以把向量看作是一组有序的数值,每个数值代表一个特定的属性或特征。比如,我们可以用一个向量来表示一张图片的特征,其中每个数值表示该图片在某个方面的描述,如颜色、形状或纹理。 卷积神经网络 向量空间 Merge y [1.4,2.1,3.1] Output x z ConvolutionsConvolutionsFlatten Pooling Pooling Fullyconnected 向量检索是指利用向量数据的特征进行相似度匹配和搜索。它能够帮助我们在大量的向量数据中快速找到与给定向量最相似的其他向量。 向量数据库则是支持高效存储和检索向量数据的数据库系统。它采用特定的数据结构和算法,能够快速地索引和查询向量数据。通过使用向量数据库,我们可以轻松地存储大规模的向量数据集,并以高效的方式进行相似度搜索和匹配。 卷积神经网络 向量空间 Merge y [1.4,2.1,3.1] Output x z [1.7,2.8,2.4] [2.3,1.5,1.1] ConvolutionsConvolutionsFlatten Pooling Pooling Fullyconnected TensorDB® TensorDB®是上海爱可生信息技术股份有限公司研发的向量数据库企业版软件 TensorDB® 执行节点 IndexNode QueryNode TensorDB®具有灵活的索引结构,能够以毫秒级延时返回千亿级别的数据中的相似匹配结果; 向量检索引擎TensorSearch TensorDB®可支持10万+QPS的超高并发,并针对图像检索、 针对不同场景的自研索引类型 多种自定义索引类型 语音识别、文本分析等AI应用场景进行深度优化,提供多模态数据的高效检索能力; GPU与昇腾等国产化硬件支持 TensorDB®提供金融级高可用方案,通过动态水平扩缩容实现应用无感知的服务负载能力拓展。 产品优势 TensorDB®的产品优势 产品优势 内核引擎强大 系统高可用性 系统按需扩容缩 TensorDB®基于高性能的向量检索引擎TensorSearch,该引擎可以实现数据插入与删除均在常数时间范围内,不仅能够支持千亿级数据查询的毫秒延时,还能保证数据的一致性和可靠性,满足用户复杂的应用场景。同时TensorSearch实现了与Faiss的全兼容,在易用性与稳定性上得到了大幅度增强。 TensorDB®能够满足在业务不中断的情况下支持故障的自动切换与恢复,采用多副本的形式满足数据的可用性,保证用户业务系统平稳运行。爱可生十余年来始终耕耘在开源数据库整体解决方案领域,技术团队通过对超大规模数据库集群管理平台的开发经验推出的金融级高可用能够更好保障核心业务系统的数据一致性和业务连续性。 TensorDB®具备强大的负载均衡与水平扩缩容能力,支持在不影响服务的情况下对数据库进行弹性扩容,对应用透明,系统拓展性强,并可以根据工作负载情况,支持在线缩容节省成本。 系统按需扩容缩 TensorDB®支持大规模数据的实时索引构建, 当数据更新时,索引随之更新而无需重复构建,降低维护成本,时变适应性优。 产品优势 混合字段检索 TensorDB®引入灵活的字段拓展,改变了传统基于异构数据库查询的多级筛选模式。通过单条语句即可完成对传统属性字段和向量型数据的混合检索,更加便捷地满足多样化应用场景。 异构计算支持 TensorDB®利用CPU/GPU等异构计算平台 资源优势,支持10万+QPS高吞吐数据并发检索,最大程度地满足用户的低延时、高并发的需求,进一步提高服务能力。同时TensorDB®还适配了国产的操作系统与ARM架构,实现国产生态的全兼容。 DMP 管理平台支持 通过爱可生的数据库管理平台DMP,用户可 以轻松地查看、管理(部署,配置,升级,备份与恢复)和监控多TensorDB®集群,包括数据的增删改查、索引的创建与调整、系统状态的查看等。同时在管理平台中我们也支持多用户权限管理与资源隔离划分,保证数据的安全性与合规性。 私域大模型应用开发框架 爱可生还将大模型与TensorDB®相结合,实现了私域大模型应用的快速开发,方便用户更加高效地使用向量数据库进行数据存储和处理,提高了整个应用开发过程的效率。 Query Result 端到端的大模型应用开发平台 RelatedDataChunk 模型转换层 Embeddingmetadata [1.0,2.0,3.0] Doc1seg1 非结构化数据储存层向量数据库 应用场景 医疗行业 通过对生物分子结构进行分析,实现蛋白质性质预测,智能病理分析, 智能问诊,缓解目前医疗行业资源紧张的问题。 安防行业 通过对智能物联网设备收集到的数据进行存储与分析,解决目前安防行业需要大星人工与重复性工作的问题,提高智能安防,数据智能归档与风险监测等业务场景的服务能力。 金融行业 工业制造 业务场景 安防 金融 互联网 医疗 通过对金融行业中的用户,行为,图像,视频等信息进行高维向量提取,加速金融支付,提高风控能力,保障金融行业服务质量稳步提升。 应用场景 工业制造 工业制造 业务场景 安防 金融 互联网 医疗 通过对工业数据进行理解与分析,将工业生产中的流程,图像,视频等数据转化为高维向量进行存储与检索,赋能工业图像检测,质量监控与良率分析等多角度工业场景。 互联网服务 通过AI模型实现对音视频,图像,文本等非结构化数据进行理解,实现多模态信息检索能力,例如以图搜图,商品搜索,行为分析与多模态数据推荐等泛互联网场景。 ChatDBA ChatDBA是⼀款集成了⼤模型与私域运维知识库的智能运维产品。 举例说明pt-query-digest的使用 使用pt-query-digest来比较查询语句的摘要: 1.使用pt-query-digest命令,指定一个比较查询语句摘要的參数: pt-query-digest—functionquery_digest—argsDIGEST 2.使用query-digest函数,指定一个布尔值,用于print条件: "function":[ "name":"query_digest","args":"DIGEST” ] ``| 1.使用top命令查看服务器整体的负载情况,确定是MySQL进程CPU使用率高后,进行下一步分析。引用1 2.登录MySQL,执行showprocesslist命令查看线程情況,关注Time、State、Info三个指标,分析是否有某些SQL执行很慢。引用2 3.使用pt-query-digest工具,分析指定时间范围内,按扫描行数排序的慢查询,定位问惠SQL。引用3 4.找到问题SQL,可以使用kill连接杀掉这些连接,也可以优化SQL来解决问题。引用4 ChatDBA是一款集成了大语言模型与私域运维知识库的智能运维产品。它可以自动化地定位问题并给出解决方案,大幅提升运维效率,降低交付成本。ChatDBA实现流程如下: 1将用户提问的问题与本地知识库通过AI模型转化为向量化表示 2通过向量数据库搜索与问题相关的向量数据,并返回原始语料 3将返回的原始语料作为上下文输入大语言模型 4大语言模型生成最终回答给到用户 embedding Document vectors Vector Database embedding Query vector vector similarity prompt related document Local document Local document answer LLM ChatDBA是⼀个基于大语言模型的智能问答系统。它利⽤了LLM的自然语 言处理能力,结合先进的向量搜索技术, 实现对DBA问题的精准回答。这是⼀款全新的、智能化的数据库管理⼯具,旨在助⼒运维⼈员实现问题的快速定位和解决。 本地数据库向量数据库TensorDB®大模型 爱可生拥有丰富的数据库领域交付经验,我们的专业技术交付团队在多年的工作中深入研究、不断优化,用近20年的时间积累了大量的数据库运维知识。 TensorDB®是爱可生研发的向量数据库企业版软件,不仅能够支持千亿级数据查询的毫秒延时,还能保证数据的一致性和可靠性,满足用户复杂的应用场景 爱可生的技术团队在对开源大模型进行深度探索的同时,更进一步对其进行细致的测试与优化。利用模型微调的策略,极大地提升了产品的整体表现。 推荐系统 背景 近年来,证券行业经历了快速发展和竞争加剧,为了提供更好的投资体验和个性化的服务,推荐系统在证券公司中变得越来越重要。然而,传统的推荐系统面临着一些挑战,如处理大规模用户和产品数据、准确预测用户兴趣和行为等。为了解决这些挑战,某证券公司决定引入向量数据库技术,而且推荐系统影响着用户的直接体验,如何保证推荐系统业务的可用性与稳定性也是该用户迫切关注的问题。 客户需求 该证券公司希望能够构建一个高效、准确且可扩展的推荐系统,以提供个性化的投资建议,产品与相关咨询内容推荐给他们的客户。他们希望能够利用大规模的用户和产品数据,准确地理解用户兴趣和需求,从而为客户提供更精准的投资策略和产品推荐。 解决方案 为了满足客户的需求,我们提供了一种基于向量数据库的推荐系统解决方案。该解决方案利用了向量数据库的高性能存储和快速检索能力,能够处理大规模的用户和产品数据,并能够实时计算用户和产品之间的相似性。 用户AI 模型 内容 用户 特征向 量数据 内容库 特征 对内 mapping象容 储推 存荐 解决方案 首先,我们利用向量数据库的索引和查询功能,能够高效地计算用户和产品之间的相似度。当用户需要投资建议或产品推荐时,系统可以迅速地搜索并找到与用户兴趣最相关的产品。这种实时计算相似度的能力可以提供快速且个性化的服务,提高用户体验和满意度。 其次,我们利用水平拓展的能力来保证系统根据实际需求进行弹性扩展,能够处理大规模的用户和产品数据,确保系统能够高效地存储和检索海量数据,解决了信息过载的问题。 另外,我们的向量数据库具备数据冗余和备份机制,确保数据的高可用性和可靠性。即使在数据中心发生故障或网络中断的情况下,系统仍能保持稳定运行,避免了数据丢失和服务中断的风险。 最后,我们的向量数据库支持自动故障转移和负载均衡,可以在节点故障时自动切换到备用节点,确保系统的连续性和稳定性。这意味着用户可以始终获得可靠的服务,无论发生任何意外情况。 1234 实际效果 通过引入向量数据库的推荐系统解决方案,该证券公司取得了显著的成效。首先,他们能够更好地理解和预测客户的投资偏好和行为,从而提供更加个性化的投资建议。其次,他们能够快速地响应客户的需求,在千万规模的向量数据规模下,top50响应时间在50ms以内提供与其兴趣相关的产品推荐,提高了客户的参与度。最重要的是,该解决方案的高扩展性和高性能使得系统能够处理日益增长的用户和产品数据,为证券公司的未来发展奠定了坚实的基础。 THANKS