@新媒沈阳团队、AIGC 2023年5月16日 (如有错误,提醒修订) AIGC发展研究 (1.0版修订号0.91) 清华大学 新闻与传播学院元宇宙文化实验室 团队简介 @新媒沈阳 沈阳为清华大学新闻学院教授、博导,清华大学新闻学院元宇宙文化实验室主任,清华大学新闻学院新媒体研究中心主任。从事多个教学科研领域,包括新闻传播学、计算机科学、信息管理学。 团队学术研究共有20多人。并指导AI元宇宙和机器人两个产业团队。团队已有众多元宇宙和AIGC实施案例,有需要可留言联系。 团队坚持:整体主义的跨学科整合力,实证主义的实践导向,社会建构的产学研结合,进步主义的先锋探索精神,科学服务于大众的社会责任。邮箱:124739259@qq.com;微博:@新媒沈阳; 主 要 研元宇宙 方 究发布元宇宙发展研究报告1.0版、2.0版、3.0版,阅 向 读人数超过千万 新媒体 连续多年研究推特、微博、微信、短视频、XR,有一定数量的报告、讲座、论文 AI和大数据 近三年国内外AI比赛荣获30余项大奖,数据规模千亿量级,知识图谱7000万个节点 ,近期推出“先问”大模型 网络舆论 研发含八个语种的网络舆论分析平台,提出舆论领域若干新概念和新方法 机器人 研发的0.4~0.6版机器人开始应用于多个社会场景 元宇宙/虚拟数字人/大数据/AI系列研究 虚拟数字人发展研究报告3.0 虚拟数字人系列 ——产业发展与技术标准 虚拟数字人发展研究报告2.0 ——社会价值与风险治理 虚拟数字人发展研究报告1.0 ——溯源应用与发展 大数据/AI/5G生态报告 未来媒体报告 数字藏品发展研究报告1.0时空智能发展研究报告1.0 2022 元宇宙系列 韩国元宇宙动态研究报告 2021 元宇宙发展研究报告3.0版元宇宙发展研究报告2.0版 2020 元宇宙发展研究报告1.0版 2019 2017 2016 2015 5G下一代风口:ARVR的新浪潮 2007 虚拟社区与虚拟时空隧道 3 清华大学新闻学院元宇宙文化实验室 国内高校最早一批成立的元宇宙实验室,国内首个带有文化属性的元宇宙实验室。 中文在线是实验室产学研的支持单位,在未来媒体技术发展、元宇宙文创、元宇宙指数、虚拟数字人指数等元宇宙领域展开研究。 打造成世界一流的具有行业前瞻性、理论开拓性、研发创新性的元宇宙科研机构。 实验室提供了数十个体验环节。截至2023年4月底,元宇宙文化实验室已接待1531拨访客,共计约6606人次,涵盖中央和地方新闻媒体、各级政府机构、学界研究人员、研究学会、高校师生,业界知名互联网企业、中小型科技创新企业。 2021年11月16日 筹建中的元宇宙研究室,接待第一批参观者 2022年3月10日 接待文旅部领导参观 2022年3月29日 在线举办第一场元宇宙沙龙 2022年4月16日 清华大学新闻与传播学院元宇宙文化实验室正式成立 2022年4月24日 接待院士参观 2022年7月22日 高中生第一次参观实验室 4 中文在线的元宇宙布局横跨内容IP、虚拟数字人、区块链、数字藏品、XR、垂类模型、应用场景、商业模式等。 公司提出MWA(Metaverse、Web3.0、AIGC)科技系统驱动新一轮的内容革命,并发布元宇宙产品RESTART重启宇宙,是以 《流浪地球》为世界观基底的国内首个科幻主题元宇宙。 中文在线拥有的海量优质正版数据本身是庞大且高质量的语料库,能够大幅提高模型训练效果,数据体量已经超过了55TB。 虚拟数字人VR/AR 制定内容IP领域的虚拟数字人应用场景及商业变现模式 清华大学党委副书记向波涛(左)中文在线集团董事长兼总裁童之磊(右) 坐拥550万种数字内容资源、450万原创驻站作家、600余家签约版权机构的平台优势,AIGC的多模态能力作用于IP衍生孵化链条上,助力文字作品的有声化、动漫化、影视化等 合规性 图片大部分都是AIGC制作,碳基生物做图片较少,因为法律明确规定碳基生物(人类面部)版权,而硅基生物暂未有相关规定。 图片 公共性 在公共知识领域,尽量使用AIGC和ChatGPT抓取信息。本报告文字超过60%由AIGC自动生成,并经过人类进行适当修改 文字 创新知识和思考主要来自自然人,会利用AIGC完善自然人的理论创新和初步思考,加快知识生成速度。 思维创新性 在体系和系统性上参考AIGC和ChatGPT 结构系统性 在跨语种知识使用上依赖ChatGPT,学会所有语种对自然人是不可能的,如法语、德语、俄语、日语等等,现在借助ChatGPT能到任意语种熟练表达。 语种广泛性 技术篇 已发生的关键步骤 人工神经网络的诞生反向传播算法的提出GPU的使用 大数据的出现 预训练和迁移学习 即将发生的关键步骤 通用人工智能(AGI)全维适应模型间的有效沟通与协作共享协作人机共生融合与共生 模型解释性透明智慧 模型道德和伦理价值同构,道德编码 能源和计算效率环境兼容 生成对抗网络(GAN)的发明 强化学习的成功应用 未来发展方向和挑战 新型学习方法 模型压缩与优化 网络结构和设计创新 多模态学习 安全性和鲁棒性 社会影响和监管 自然语言处理的突破 元学习、生物启发式学习,生态学习、泛化能力 微缩优化 创新结构主义 模态融合 公正监管 深度学习模型有望逐步演变为具有更高智能和自主性的新型生命体 灰色:词向量及早期训练模型蓝色:仅解码器模型 粉红色:仅编码器模型 绿色:编码器-解码器模型 模型时间线的垂直位置:代表发布日期开源模型:实心方框 闭源模型:空心方框 右下角堆叠条形图:来自各公司和机构的模型数量 分布式表示:用高维空间稠密向量捕获语言的复杂性规模效应:性能通常与模型大小(即参数数量)和训练 数据量成正比 领域自适应:源领域知识如何应用到目标领域 引用:HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond,JINGFENGYANG等 Transformer •并行计算力 •自注意力机制 •序列顺序灵活 Transformer •模型简化 ~“分散式思维” ~“自我聚焦” ~“时空松弛” ~“极简主义” 自注意力 AIGC 内容 Google于2017年发布的一篇论文,引入了Transformer模型,在自然语言处理(NLP)中引发了一场革命 ChatGPT:事实性通过图灵测试 01为什么是chatGPT? 非线性创新 主流偏离,边缘性技术突破 黑天鹅 偶然性创新 02ChatGPT闭源之后,未公开的可能的秘密 数据洪流之后的涌现,增强学习的算法 维度扩展和神经网络复杂度增加,优化了自我监督学习的算法 对人类的反馈进行强化优化 提升模型可解释性 新的全局算法思维和实现,多模态学习算法,更先进的生成对抗网络(GANs)算法 chatGPT类软件的研发过程 Stage01 Stage02 Stage03 Stage04 Stage05 预训练过程→人机对话系统 数据收集 需要大量的文本数据作 为训练的基础 微调 在特定任务,如对话系统中,可借助RLHF(基于人类反馈 的强化学习)对模型进行微调以优化其在特定任务上的性能。 数据预处理 预处理的步骤包括文本清理、标准化、分词。 模型训练 训练过程是基于自监督的;通过反向传播和梯度下降进行,以最小化预测错误 模型选择 GPT3.5使用的Transformer 模型由多个编码器和解码器层组成,每一层都使用自注意力机制和全连接网络。 验证和测试 在一个单独的测试集上评估模型的性能。 系统设计 设计一套系统来处理用户的输入,生成模型的响应,以及管理对话的上下文。 评估和优化 评估模型在特定任务上的表现,如对话生成质量、准确性等。 部署和维护 将对话系统部署到实际生产环境,并进行持续维护和更新。 ChatGPT1/2/3/4:知新悟旧纳微入精 5GB预训练数据 1.17亿参数 GPT-1 40GB预训练数据 15亿参数 GPT-2 45TB预训练数据 1750亿参数 GPT-3 基于人类反馈的强化学习(RLHF) GPT-3.5 理解图像、人类水平的专业和学术基准 GPT-4 参数扩展:参数规模数量呈指数级增长 预训练-微调范式:无标签文本数据预训练、特定任务微调、任务特化学习、细粒度的控制策略 Transformer架构:高效并行计算和长距离依赖捕捉 自回归生成式预训练:生成连贯、富有逻辑的文本、连贯性生成 模型泛化能力:NLP任务中展现出更强的泛化能力、跨任务适应 零样本/少样本学习:有效学习、降低数据标注成本 多语言支持:跨语言的知识迁移和应用 开源与闭源:ChatGPT从开源到闭源引发巨大争议 注:GPT3.5和GPT4预训练数据和参数量官网尚未公布确切数据 GPT8 GPT6 GPT5 GPT7 技术特性 •更大的模型规模 •多模态学习与融合 •更强的领域适应性和可定制化 •更强的解释性和可控性 •强化学习和自适应能力 •知识表示与推理 •能量效率与模型优化 •人机协同与伦理道德 •通用人工智能 •混合推理和学习方法 •多智能体协作 •安全和可持续发展 •人类水平的自然语言理解 •高度集成的跨领域知识 •更强的自适应和在线学习 •强化道德伦理和人工智能政策 可能趋势 •模型规模持续扩大 •多模态学习 •优化与压缩 •可解释性与可控性 •更强的领域适应性 •更广泛的应用场景 •协同学习和迁移学习 •社会和道德影响关注 分层服务 Plus订阅服务 插件生态 Plugin,构建插件生态 0 行业定制 ModelInstance 弹性计费 API接口和tokens计费 蓝海试探 免费试用 040 035 20 6 0 10 7 灰度演进 如联网查找等。满足需求,保持的稳定,模块聚合 敏捷迭代 快速小版本迭代 理解输入:分布式语义解析,首先会接收文本序列,转化为词向量,也称为嵌入。该过程基于分布式语义假设,即词义由其在上下文中的使用决定。 参数关联:上下文焦点连锁,将这些词向量输入到Transformer的Encoder中生成上下文表示。可以看作是在其内部参数模型中寻找与输入相关的信息,也可视为一种连锁反应,因为每个词的上下文表示都取决于其前面的词的上下文表示。 生成回答:生成性概率建模,模型初始化Transformer的Decoder部分,并将Encoder的输出(即上下文表示)和当前的输出序列一同输入到Decoder中。Decoder会生成下一个词的概率分布。选择概率最大或其他设定的概率分布的词作为输出,这个词将被添加到输出序列。 选择最适回答:动态词串演化,重复上述步骤,每次都向输出序列中添加新的词,直到生成一个完整的输出序列。 尽管该过程被称为推理,但ChatGPT开源版本并不进行明确的逻辑推理,它不能理解或推导复杂的事实。因为开源版本的ChatGPT并没有明确的知识或推理引擎,所有知识都是隐含在模型参数中的。 chatGPT缺陷:高阶推理定位迷雾 推理门槛 需高阶推理能力,如因果关系推断、扰动变量分析及反事实推理等。 定位迷雾 需精准定位问题根源,对于更复杂问题的定位仍显得迷雾重重。 知识盲区 对于涉及专业秘密或整个大项目背景的知识,存在知识盲区。 自我修正阻力 每次回答产生错误的概率超过了能改正的概率,则系统的错误率难以实现有效的自我修正。 可扩展性挑战 对于更复杂的问题,正确率指数级下降。 提示语:激发灵感生成精彩 03 01 引导性 02 提示语为模型提供了处理任务的方向,需要简短、明确具体,包含主要信息。 提示语为模型提供了处理任务的上下文和方向。提示语可以帮助模型更好地理解任务,生成高质量的输出。 理解任务,并且可以处