营销领域AIGC 展与挑战 卫海天 A全rch球Su架mm构it师峰会 前沿进 InfoQ极客传媒 AIGC发展趋势 .LLM ·多模态 ·大模型+插件 ArchSummitInfoQ极客传媒 LLM技术发展 ChatGPT所能实现的人类意图,来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。Transformer建模方法成熟 以后,使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟,随后GPT-1、GPT-2、GPT-3模型持续演化升级,最终孵化出ChatGPT文本对话应用。人工智能需要巨大的算力和数据投入,未来将形成大科技场提供基础AI能力,中小场围绕不同场景做应用的生态竞争格局。 基于模板和根据一定范 规则的前深围的数据进 开始模仿人 脑进行大量 对人脑学习进行海量数据学习训练,人类的反馈信息成ChatGPT 过程进行重为模型学习的内容 度学习阶段行参数分类数据的标记点关注 和训练2018年 2019年 2020年2022年 基于规则 神经网络 CNN GPT-1GPT-2GPT-3 M2m Instruc tGPT 的少量数据处理 MachineTransfoT5BART LearningRNN-rmer 100 BigBird GAN BERTRoBERTaXLMALBERT 1950年开始1980年开始 1990年开始; 2006年获得突破 2017年ELECTRA ArchSummitInfoQ极客传媒 LLM技术发展 ndino Probabilities4 Step1Step2Step3 Collectdemonstrationdata,Collectcomparisondata,Optimizeapolicyagainst Softmaxandtrainasupervisedpolicy.andtrainarewardmodel.therewardmodelusing Linear Add&Norm ApromptisApromptand reinforcementlearning. ®Anewprompt sampledfromourseveralmodelissampledfrom FeedExplainthe Forward promptdataset.landingtoa6yearoldoutputsarelandingtoa6yearoldthedataset. sampled.A+ Add&Norm Add&Norm Alabeler Thepolicy PPO Multi-Headdemonstratesthegenerates FeedAttentionanoutput. ForwardNx desiredoutput behavior.lepeoplewent tothemoon. NxAdd&NormAlabelerranks Add&NormMaskedtheoutputsfrom Multi-HeadMulti-Headbesttoworst. Thisdataisused 0-0-0-0 AttentionAttention tofine-tuneGPT-3Therewardmodel withsupervisedcalculatesa learning.rewardfor PositionalPositional L.Thisdataisused theoutput. EncodingEncodingtotrainour+ Input rewardmodel.Therewardis EmbeddingEmbedding0-0-0-0usedtoupdaterk T Inputs thepolicy usingPPO. 全Arc球hSu架m构mit师峰会 (shiftedright) InfoQ极客传媒 LLM技术发展 研究人员发现模型扩展可以提高性能,他们进一步通过增加模型大小来研究扩展效果。有趣的是,当参数规模超过一定水平 时,这些放大的语言模型不仅实现了显著的性能改进,而且还展现了一些小规模语言模型(例如BERT)所没有的特殊能力 (例如上下文学习) Prompting Fine-tuningFine-tuning PromptingPhase change 0.1B1B10B100B0.1B1B10B100B ScalingLaw(~2020-2021)EmergentAbility(fromearly2022) A全rc球hSu架mm构it师峰 InfoQ极客传媒 LLM技术发展 为了区分参数规模的差异,研究界为具有显著规模(例如包含数十亿或数百亿个参数)的PLMs创造了一个新术语一一大型语言 模型LLM。近年来存在的大型语言模型(大小大于1OB)时间线,黄色标记为开源的LLM 15GShardmT5Open-Source 20192020 2021 2PanGu-aA/21 Jurassie-1 abs GPT-3 PLUGNAVERHyperCLOVA 5-8 Ernie3.0 BLOOM01-6 CFLAN CLaMDA WebGPT Codex MT-NLGnspurYuan1.0 TO11-12 BAALCPM-2 GopherAlphaCode GLaMChinchilla PanGu-z Ernie3.0Titan2022 InstructGPTUL2Sparrow mTo BLOOMZ GPT-NeoX-20B CodeGen GLM Tk-InstructAi2 OPTOO 1-3 GPaLM 7-10 11-12 Flan-T5 Flan-PaLM Bard ERNIEBot COLLaMA Galatica 8AlexaTMa 2023 OPT-IML00ChatGPTGPT-48 A全rc球hSu架mm构it师峰会 InfoQ极客传媒 CV AIGC技术:从有约束生成到逼真多样生成 图片-》图片的风格迁移 深度学习技术的升级迭代为计算机视觉发展奠定基础 图像与视频AI换脸 Input视频分析与自动剪辑 创意级图像、视频生成 (0.008,0.005)(0.0025,0)二维图像三维化 文本+图片-〉图片文本提示词->创意图片 p(ar-1/at) (x.y)~Prar (zrt-1) 2012年 卷积神经网络(CNN) 2014年2020年2022年 生成式对抗网络(GAN)VisionTransformer模型扩散模型(diffusion) 在图像分类任务上表现远超传统算生成模型和判别模型的互相博奔,将NLP领域霸榜的模型引入视觉领域,实现模对数学本质的探索,带来深度学习新范 法,一战成名,开启深度学习时代 A全rc球hSu架mm构it师峰会 欺骗与反欺骗中生成最佳的内容。型规模与计算精度的跨越式提升。式,成就引人惊叹的生成效果。 InfoQ极客传媒 MLLM 尽管在处理自然语言场景中取得巨大的突破,但LLMs在处理图像和音频等多模态数据方面仍然存在困难。而在人类的日常生活中,我们不仅仅通过语言进行交流,还会使用其他感官,如视觉、听觉和触觉等。且随着互联网的普及和各种传感器的广泛应用,我们可以收集到大量的多模态数据,图像、音频、视频等数据的总量远远超过文本。同时现实中大量复杂问题的解决也必然涉及到多个模态的交互,因此在LLMs之后,多模态大模型将成为未来研究的重点 DatasetM6-Corpus RedCaps WSCD MEP-3M YFCC-100M LAITAltTextProductiMWuDaoMM MSProduct CC3MHT100MLocalizedNarrativesCC12MLAION-400MWukong 2019202020212022个2023 多模态统一大模型 LXMERTUNITER Unicoder-vl CLIPVATTGLIPFlamingo GPT-4 VisualBERTOSCARERNIE-ViLJi-CodeBriVLPaLM-E AlgorithmVideOBERT 12-IN-1 PixelBERTDALL-EOPTM6 NUWAAudiocUp CoCa CogViewNOWAERNIE-ViLGDALL-E2stable-diffusionRe-Imagen Baia百牌OpenAIstabilityaiGoogle 進摩院 多模态文图生成大模型 May.2021Nov2D21Dec,2021Apr.2022Aug.2022Now,2022 Fob,2021 Ot.2021 Dec,2021Feb,2022May.2022 Oct2022 DALL-EUMT-BITGGLIDEOFAImagenERNIE-ViLG2.0Parti A全rc球hs架 OpenAr OpenAI建摩院GoogleBarGooge M专媒 MLLM VQA,模型+传感器等等 MovethegreencircleMovethebluetriangle totheyellowhexagon tothegroup SUCQESS Question:ExplainwhyQuestion:WhydidtheQuestion:WhatistheQuestion:Whenwillthe thisphotoisfunny?littleboycry?Answer:hairstyleoftheblondmoviebereleased? Answer:called?AnswerAnswer: Thecatiswearinga Becausehisscooter maskthatgivesthebroke. catasmile. ponytail OnJune27 (1)(2)(3)(4) 5+4 one-shot:"Movetheremainingblockstothegroup' 谷歌5620亿参数PaLM-E,将真实世界的传感 WhatisTorchScale? Question:Theresult is?Answer:Question:WhatistheheartThetimenowis rateinthispicture?Answer: 器信号与文本输入相结合,建立语言和感知的链 Alibrarythatallows5+4=957bpm10:10onalargeclock接,可操控机器人完成任务规划和物品操作。 transformerstoworkefficiently andeffectivelyatanyscale. (5)(6)(7)(8) ArchSummitInfoQ极客传媒 大模型+插件的交互形式 Model:PluginsALPHAEnabledplugins:E CHLookingtoeatveganfoodinSan ExpediaFiscalNote Bringyourtripplanstolife-getProvidesandenablesaccessto there,staythere,findthingstoseeselectmarket-leading,real-time Franciscothisweekend.Couldyougetmeanddo.datasetsforlegal,political,andregulatorydataandinformation. onegreatrestaurantsuggestionfor SaturdayandasimplerecipeforSunday (justtheingredients)?PleasecalculateK. thecaloriesfortherecipeusing KlarnaShopping MiloFamilyAl SearchandcomparepricesfromGivingparentssuperpowerstoturn WolframAlpha.Fi