您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:人人都能学会的AI指南:从机器学习到大模型全流程解析 - 发现报告
当前位置:首页/行业研究/报告详情/

人人都能学会的AI指南:从机器学习到大模型全流程解析

人人都能学会的AI指南:从机器学习到大模型全流程解析

aliyuncom 海量电子手册免费下载 阿里云瑶池数据库公众号获取阿里云数据库最新信息 导论 AI以极快的速度融入到每个人的日常,影响工作、学习、生活等方方面面。云计算、AI等浪潮下,IT从业者面临新挑战,也迎来新机遇。未来,AI预计会成为像计算机语言一样的基础IT技能。 本书面向广大IT从业者及学生,作者将尽可能通俗易懂的把机器学习、深度学习、神经网络等基本原理讲解清楚,并分享大语言模型、知识库等当下很火爆的AIGC应用,探讨大语言模型“知识茧房”问题及解法。期望本书能成为AI技术爱好者的启蒙书籍、学习手册。希望人人都能了解AI,知其然并知其一点所以然,看完后能有感而发:“原来AI是这么回事”,且能自己动手实践,构建自己的AI应用。 目录页 序6 AI应用已无处不在7 AI到底是什么9 尝试给AI一个定义9 机器学习训练及推理过程12 AI三要素:数据、算法、算力13 来一个AI的“Helloworld”样例14 数据集和模型的数学表达与抽象16 损失函数CostFunction17 梯度下降20 多变量扩展23 小结26 讲解视频28 深度学习及神经网络29 神经网络的由来31 回看线性回归33 激活函数34 Softmax:多分类38 卷积:空间特征提取39 多输入通道及多输出通道43 特殊的卷积:11卷积45 卷积的难以解释性45 池化汇聚Pooling:MaxPooling、AveragePooling46 全连接(FullyConnected)48 深入理解经典CNN48 像搭积木一样构建神经网络51 动手实践:搭建一个自己的神经网络手写数字识别CNN53 更多经典CNN55 动手实践:在云上搭建深度学习notebook开发环境57 讲解视频60 AIGC及大模型61 硅基智能vs碳基智能:AIGC带给我们的惊喜61 大语言模型(LLM)63 语言的数据特征63 文本转向量(数字化)64 应用开发新范式:对话即编程67 LLM在实际应用中的难点问题69 LLM“知识茧房”破解之法:RAG71 知识库LLM智能问答系统的构建流程73 Langchain简介76 系列动手实践79 在云上从0开始搭建LangchainChatGLMLLM环境79 从0开始搭建LLM知识库智能问答钉钉机器人84 讲解视频90 如何把AI技术融入到产品91 产业界在干什么91 学术界在干什么91 AI落地三问94 附录96 笔者简介96 参考资料96 序6 序 AI以极快的速度融入到每个人的日常,影响工作、学习、生活等方方面面。云计算、AI等浪潮下,IT从业者面临新挑战,也迎来新机遇。未来,AI预计会成为像计算机语言一样的基础IT技能。笔者作为云计算行业从业者,对AI一直保持着强烈好奇心和关注。 本书面向广大IT从业者及学生,作者将尽可能通俗易懂的把机器学习、深度学习、神经网络等基本原理讲解清楚,并分享大语言模型、知识库等当下很火爆的AIGC应用,探讨大语言模型“知识茧房”问题及解法。期望本书能成为AI技术爱好者的启蒙书籍、学习手册。希望人人都能了解AI,知其然并知其一点所以然,看完后能有感而发:“原来AI是这么回事”,且能自己动手实践,构建自己的AI应用。 借此机会诚挚致谢吴恩达、周志华、李沐等学者以及斯坦福大学等机构推出的优秀AI课程,从中受益匪浅。本文也将引用其个别示例和图表,用于加深大家对AI原理的理解。 AI应用已无处不在 AI似乎已无处不在,早已深入到各行业:金融、制造、消费、医疗、教育、交通等等。随着chatGPT引爆的新一轮AI浪潮,使AIGC也进一步融入到每个人的工作、学习、生活等方方面面。随处可见的例子:图像人脸识别、语音识别、自动驾驶、游戏对战、商品推荐、内容推荐、信用评估、风控、垃圾邮件识别等等。 数据类型角度: 比如图像领域,我们常见的人脸识别,车牌识别等。去上班的时候,都不需要带工卡,门禁系统就能自动识别员工,停车场能自动识别车牌,消费购物的时候可以直接刷脸等。视频领域,道路上、园区里随处可见的视频监控,包括现在的依然很火的自动驾驶,也是视频图像相关的AI应用。音频领域,语音识别,人机对话,智能音箱等。随着大模型的发展,文本领域的AI应用越来越火,包括现在的ChatGPT, 也是NLP应用。再比如,我们刷短视频或者网上购物,系统总是会推荐你很感兴趣的东西。以及其他方方面面的AI应用,和人们的工作、生活已密不可分,随处可见。 AI到底是什么 尝试给AI一个定义 AI无疑是当下最大热点话题之一,似乎人人都在谈论AI,那AI到底是什么呢?耳熟能详的机器学习、神经网络又是什么呢?原理是什么呢?不知大家是否思考过这些问题。如果不探究AI的原理,就很容易陷入毫无根据的浮想联翩。比如,AI是不是能炒股实现一夜暴富,是不是能自我进化成新物种,颠覆人类,控制人类等等。我们无需花太多时间放在这些问题的争论上,希望看完本书,可以带给大家新的感悟,形成自己对AI的认知。 类比到人类自身认知世界的方式:通过对已有的知识、信息等不断的学习实践,积累成自己处理问题的知识和经验,再使用学习到的知识和经验针对新问题做决策判断。绝大部分AI技术也有些类似:从已有的数据样本(既有知识、信息)中使用数学、统计学等理论,通过不断的算法训练(后文会详细介绍训练过程和原理),得出AI模型(类比为处理问题的知识和经验,也可以直观的理解为一个函数),再使用该模型针对新的输入做推理决策。比如自然语言处理(NLP),数据样本可能是一些相关的文本语料、文章。图像领域,数据样本是大量的相关图片,模型训练好后,再给一个新的图片作为输入,就可以输出一个答案,或者是给出一个判断,比如说这个图片是只猫还是一只狗。 AI的定义,在不同的资料上或许有不同的定义,我们也可以尝试给AI做一个自己的定义:AI是以数学、统计学为基础理论的工程实践。从数据中通过暴力计算挖掘出规律(算法模型训练),再使用规律(模型)预测结果(推理)。 AI的训练过程,可以简单理解为从一堆该场景关联的数据中,通过暴力计算,寻找一个合适的数学函数,该函数可以表征或拟合已知数据样本的规律。训练好后,再有新的输入,就可以用这个函数做一个预测(输出)。此外,AI是以数学、统计学为基础理论的工程实践。回顾AI发展史,每次新的AI浪潮来袭,不仅仅是算法、理论上的进步,更是工程实践的进展,目前依然大火的ChatGPT更是工程实践上的大获成功。 AI的分类:大致可分成机器学习和知识推理,目前大家所说的AI,主要是指机器学习。机器学习又可以粗略的分成三类:监督学习,非监督学习,强化学习。其中监督学习发展最为迅速,应用最为广泛。 监督学习和非监督学习的主要区别:数据样本是有标注的,还是没有标注。举个例子,图片分类场景,给一个样本图片,并且标明这个图片上是一只猫,就称这个样本是有标注的数据。用这些标好的数据去训练AI模型,这就是监督学习,也是应用更广泛的一类,本文也将重点讲监督学习。而非监督学习,用于训练的数据样本无需标注。 监督学习又可分为两大类:第一类是回归问题(称为线性回归),第二类是分类问题(称为逻辑回归)。回归问题可以简单理解为,对应的AI模型可以预测连续的值,或直观理解为该函数的输出是由连续值构成的。举个例子,训练一个模型去预测房价,房价可以理解是一个有连续输出值的函数,而分类问题的输出是离散值,全部输出值是一些离散值组成的集合。比如,预测一张图片中的动物,是一只猫还是狗,输出就是动物所属的类别,而这些类别就是一个个离散值。 此外,还有一块重要内容:深度学习,属于机器学习里的一个分支,早期也称为模仿大脑的机器学习。很多大规模应用的近现代AI模型,基本上都和深度学习相关, 包括现在大火的Transformer、BERT、GPT等。深度学习又分成多个类别,比如常见的CNN(卷积神经网络),在机器视觉领域应用广泛;RNN(循环神经网络),早期在NLP领域用的非常多;还有所谓的DNN深度神经网络等等。 机器学习训练及推理过程 接下来,可以从机器学习中的监督学习出发,继续探究AI的原理,看如何从数据样本中,通过模型训练找到一个合适的函数。 当需要用AI解决的问题(或场景)确定后,训练过程可粗略分为四大步: Step1:搜集和该问题相关的数据,进行预处理,构建特征值,整理成数据样本,这是AI数据工程师的主要任务之一。比如,最终要训练出一个函数,那函数就有很多 的输入变量x1,x2xn,每一个变量也称为一个特征。 Step2:函数集合(根据经验选择试模型)、或开发定义新模型。处理一个问题,可能有多个函数(AI中通常称为模型)适用,我们可以把这些函数想象成一个集合。 最初,我们也不知道哪一个函数(或哪些函数的组合),最适合解决此问题。算法工程师根据自身经验选择可能适合的模型,或者采用最粗暴的方式,将各可能适合的模型逐个都训练一遍(这也是暴力计算的体现之一),逐个试效果。模型选定后,就可以用数据样本开始训练,得出该模型对应变量的参数。参数确定后,整个函数 也就确定了。 Step3:定义模型的好坏。有一套方法论来定义模型效果的好坏,后文将做详细讲解。 Step4:找出最佳函数(及其最优参数)。通过前三步,可得出最佳模型,或者说最佳函数。就可以拿这个函数去做推理:给定一个新输入,可以通过这个函数计算出 结果。模型的推理效果也常称为泛化能力:也即从有限的训练数据中学习得出的模型,如何确保在未知的新输入数据上的预测能力、准确性。 AI三要素:数据、算法、算力 数据:AI是一门数据科学,或者说是一门从数据中发掘规律的科学。数据是AI模型的知识源头,如果数据本身就缺乏规律,没有规律可发掘;或者该场景存在数据规律,但收集的数据样本质量很差,那不管使用何种算法去训练,都很难取得效果。 没有高质量数据,AI将是无源之水,寸步难行。数据量、数据质量从根本上决定模型的推理质量。 算法:有了高质量数据之后,有各种各样的算法都可以训练出一个模型。算法的好坏也会直接决定模型推理的效果(泛化能力)。 算力:算力对于AI也是至关重要的,回顾前面的定义,我们特意强调了AI的训练过程就是通过不断的暴力计算,去找寻最优函数及其参数。尤其是现在已经进入深度神经网络、大模型时代,如果没有充足的算力,是难以训练出模型的。chatGPT等 LLM(大语言模型)类人智能的诸多惊艳表现,放在十年前是难以想象的,因为缺 乏如此强悍的算力来完成模型训练。 此外,个人认为AI的核心,除了上述3要素,还有个点容易被人轻视,但至关重要,就是应用场景。AI技术并非万能,并非每一类问题都适合使用AI来解决,找到合适 的应用场景十分关键,如果一开始场景就选错了,后面做再多工作也是徒劳。此外,应用生态的构建、应用效果的持续优化,往往是比模型训练更具挑战的工作。 有资料显示,自1970年到2020年,数据样本有超过1000倍的增长,算力更有 上万倍的增长。尤其是进入21世纪,CPU、GPU、云计算等算力的增长尤为迅猛,加上2006年后逐步完善的深度学习等算法上的创新突破。进一步引爆了AI这一上世纪50年代就已诞生的古老学科,AIGC(ChatGPT等LLM、文生图、文生代码等)、AGI等有诸多类人智能的AI应用不断涌现。 来一个AI的“Helloworld”样例 如果问学习AI的捷径是什么,建议是从AI的实现原理入手,分析原理,并动手实战,就如同习武先打通任督二脉(原理实践)。接下来,就像学一门编程语言一样,先从一个监督学习里的回归问题的“Helloworld”示例入手:已有一批已标注的数据样本,看如何通过AI训练,找到一个函数来表征这个数据样本集。 在此,引入吴恩达老师机器学习教学视频中的一个示例:房价预测。先将这个场景,抽象成一个回归问题(线性回归):给定一个数据集,这个数据集由“正确答案”组成。在房价的例子中,数据样本就是一系列已成交房价相关的数据,数据集中每个样本包含