当PostgreSQL遇上AI大语言模型 中国PG分会魏波 CONTENTS 01. 02. 03. PostSQL生态概要 人工智能发展概要 大语言模型与向量数据库 PostgreSQL生态概要 --PostgreSQL衍生分支版本 --PostgreSQL扩展功能 --PsotgreSQL与AI融合发展 PostgreSQL中国生态 交通运输 ISV.集成商金融 云数据库 移动互联网高校能源 数据库厂商 PostgreSQL 生态链 关于中国开源软件推进联盟 中国开源软件推进联盟(ChinaOSSPromotionUnion)与“中日韩三国IT局长OSS会议”暨“东北亚开源软件推进论坛”同步于2004年成立,受工信部中国电子信息产业发展研究院直接管理。 联盟致力于推动中国开源软件的发展和应用,促进中国与全球 开源组织的沟通、交流与合作。 成立:2017年,在工业和信息化部赛迪研究院(中国电子信息产业发展研究院)指导下,依托中国开源软件推进联盟,特成立PostgreSQL分会(简称中国PostgreSQL分会或PG分会) 目的:基于PostgreSQL数据库的影响以及国内数据库技术的发展现状,为推动国内PostgreSQL产业生态建设和产学研用发展,加强国内开源技术建设和应用,加深对国际主流数据库的理解。 官网:www.postgresqlchina.com 成立仪式: 陆首群(前国务院信息化联席会议办公室常务副主任、中国开源软件推进联盟名誉主席) DebGoodkin(FreeBSD基金会执行董事) JimZemlin(Linux基金会执行董事)苗健(瀚高软件董事长) 刘澎(中国开源软件推进联盟秘书长) 微信公众号、微信群 pgfans.cn问答社区 自媒体矩阵(PG专栏) PGACE影响力计划 用户、内容 运营 人才培养 中国PG培训认证体系 生态产品HGDB培训认证体系 开源PG/信创国产数据库课改(选修) 数据库全栈工程师课程培训 PGConf.Asia&CN年度生态、技术大会 PG.Live线下沙龙 走进高校主题宣讲,”PG象牙塔“计划 活动运营企业服务 企业内训:开源&商业数据库技能提升 技术服务:健康巡检、问题诊断、性能优化、高可用架构方案、容灾备份方案 工作方向 主要内容 用户、内容运营 微信公众号、视频号:“开源软件联盟PostgreSQL分会”分享国内外PG优质技术文章、活动动态、招聘信息等,关注用户3万+人。微信群:运营管理微信社群5000多人,促进数据库技术在线交流pgfans.cn问答社区:平台在线互动问答,解决技术难题,沉淀技术问题、文章。自媒体矩阵(PG专栏):CSDN、PGfans、开源中国、知乎、B站、思否、ITPUB、墨天轮等平台PG专栏内容运营。PGACE影响力计划:发展激励PG社区活跃用户、影响力专家100+人。 活动运营 PG技术峰会:举办PGConf.Asia年度技术大会、PG中国技术大会、PG中国生态大会共7届。示例:2022年中国PG数据库生态大会相关链接:https://2022.postgresconf.cn/线下沙龙:企业、高校行20多场,开展线下数据库技术主题分享、交流。PG.live线上直播沙龙,专家在线分享40多场 人才培养 中国PG培训认证体系:联合知名专业数据库培训机构,培训PG应用管理认证学员5000多人。PG生态产品国产数据库培训认证代理:联合国产数据库厂商培训资源,培养国产数据库人才力量。数据库全栈工程师技能培训:提供专业的PG应用管理、内核开发、瀚高HGDB、腾讯TDSQL、阿里PolarDB、运维开发、虚拟容器技能培训课程。开源/信创主题宣讲(高校行):宣传普及推广开源文化、信创通识,分享职业发展观点,引导开源与信创相关人才就业。开源、国产数据库课改(选修/必修):助力10多所高校面向开源PG、国产数据库进行数据库教学改革。共建开源、国产数据库人才培训基地、信创实验室、信创学院:为高校、高职提供课程资源、实训平台方案,促进面向开源、信创国产进行教学优化改革。 企业服务 企业数据库技能培训:包括PG应用管理、内核开发、瀚高HGDB、腾讯TDSQL、阿里PolarDB、运维开发、云计算等内容,可根据企业需求定制化培训。数据库相关产品方案:数据库产品、高可用方案、数据同步传输方案、数据库智能运维方案。人才推荐:每周招聘信息发布,为企业人资主管推荐人才。 PostgreSQL[/ˈpoʊstɡrɛsˌkjuːˈɛl/] http://www.postgresql.org/files/postgresql.mp3 PG国际社区官网:http://www.postgresql.org PG发展概要:https://www.postgresql.org/docs/9.4/history.html PG维基百科:https://en.wikipedia.org/wiki/PostgreSQL#History BruceMomjian:https://momjian.us/main/writings/pgsql/decade.pdf PostgreSQL(简称PG)是世界最强大的开源企业级关系型数据库; 从80年代加州大学伯克利分校MichaelStonebraker(图灵奖获得者)创造的POSTGRES软件包发展而来;聚合了世界范围的PG贡献者和爱好者;多年来版本保持稳定迭代。 PostgreSQL全球开发小组每年会发布一个主要版本,目前版本PostgreSQL17Beta3; 同时支持维护5个主 要版本。 左图来源:https://www.postgresql.org/files/community/conference06/conference_group.html 右图来源:https://en.wikipedia.org/wiki/Template:Timeline_PostgreSQL 2010-->2024年强安全、云原生、分布式、多模态、AI融合 图片来源:https://zhuanlan.zhihu.com/p/346699584?utm_id=0 设计之初扩展生态 引文链接:https://dsf.berkeley.edu/papers/ERL-M85-95.pdf 12 PostgresML:PostgresML是一个在PostgreSQL数据库上的机器学习平台,实现了在SQL中进行ML任务。支持多种算法和库如Scikit-learn、XGBoost等,提供多种语言SDK。通过在数据库内进行ML,简化了数据处理和模型部署流程,使得在任何支持Postgres的环境中都能方便地进行机器学习。 MADlib:ApacheMADlib是Pivotal与UCBerkeley合作的一个基于SQL的数据库内置的可扩展的开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析;提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机等。支持PostgreSQL、Greenplum数据库和ApacheHAWQ PG+AI融合新成员PGAI:In-DatabaseAIAgents:TeachingClaudetoUseToolsWithPgai(timescale.com) 13 PG+AI融合新成员PGAI:In-DatabaseAIAgents:TeachingClaudetoUseToolsWithPgai(timescale.com) 信息来源:https://www.timescale.com/blog/in-database-ai-agents-teaching-claude-to-use-tools-with-pgai/ 14 人工智能发展概要 --什么是人工智能 --发展历程 --发展路径 --主要技术 人工智能(ArtificialIntelligence,简称AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似方式做出反应、学习、推理和决策的智能机器 。 信息来源:https://aws.amazon.com/cn/what-is/artificial-intelligence/ 从社会发展角度来看,人工智能能够极大提升生产力,譬如各种AI工具包括机器人的出现,能够辅助或解放人力,提升效率。也必将会对生产关系产生影响,譬如人类劳动得到解放之后,物质或财富分配方式、管理方式也会随之发生变化。 16 技术的目的是让我们的生活更为轻松! 所以我们尽量放轻松,然后学会善加利用各种AI工具。 图片来源:https://baijiahao.baidu.com/s?id=1636094085269721388&wfr=spider&for=pc17 信息来源:https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD#18 19 信息来源:https://baijiahao.baidu.com/s?id=1589827770039736464&wfr=spider&for=pc20 、 计算机视觉(CV):使计算机能够从图像或多维数据中解释和理解视觉世界,包括图像识别、物体检测场景重建等。 自然语言处理(NLP):致力于使计算机能够理解、解释和生成人类语言,包括语言识别、机器翻译、情感分析等。 机器学习(ML):使计算机系统利用数据和算法不断自动学习、改进性能,而无需明确编程。 深度学习(DL):一种特殊的机器学习方法,使用多层神经网络来模拟人类学习方式,处理复杂的数据模式。 专家系统(ES):专家系统模拟人类专家的决策能力,提供专业领域的建议或自动化决策过程。 语音识别、神经网络、进化计算、机器人…… 图片来源 https://www.163.com/dy/article/DG3ASKEG0511E520.html21 大语言模型与向量数据库 --什么是大语言模型 --大语言模型分类 --大语言模型的几点问题 --解决之道:RAG --向量数据库&pgvector 大语言模型(LargeLanguageModel,简称LLM):指的是那些在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,是一系列的人工智能模型,旨在理解和生成人类语言。 大语言模型在自然语言处理(NLP)领域中扮演着重要角色,广泛应用于文本生成、机器翻译、情感分析、问答系统等多种任务。 LLM主要特点: •规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。 •基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。 目前的大语言模型(如GPT和BERT)采用与小模型类似的Transformer架构和预训练目标(如LanguageModeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。拿GPT来说,GPT其实出现了好几代,GPT-3它有45tb的训练数据,整个维基百科里面的数据只相当于他训练数据的0.6%。 信息来源:https://www.jianshu.com/p/2ada2266d185 23 LLM:LargeLanguageModel 人工智能技术维度 模型输入 用途 我今天在餐厅 点的菜有鱼香茄子和宫保鸡丁 经过了一年多的长跑,微软动用678亿美元巨资收购… 微软完成收购动视暴雪 发货太慢了,衣服质量也一般差评 你是不是有病 What'swrongwithyou AI 机器学习 深度学习 生成式AI LLM LLM 模型输出 定义:Large,general-purposelanguagemodelscanbepre-trainedandt