您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:AIGC发展研究资料2.0(2024.1) - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC发展研究资料2.0(2024.1)

AI智能总结
查看更多
AIGC发展研究资料2.0(2024.1)

@新媒沈阳团队AIGC2024年1月(Sora发布之前) (本报告部分内容由AI生成,如有错误,告知修改) AIGC发展研究资料 (2.0版修订号0.90) 清华大学新闻与传播学院 元宇宙文化实验室 AIGC系列研究资料 聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。 AIGC 报告1.0 AIGC 报告2.0 报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索,致力于向读者提供全面了解AIGC动态的指南,共同探寻人工智能和人类未来发展的和谐之道。 注:图片为报告内容示例 技术与演进 为什么是OpenAI率先突破 2017年6月,谷歌大脑团队发表论文《Attentionisallyouneed》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。 WHY——OpenAI&ChatGPT 2018年10月,提出3亿参数的BERT 前瞻性AI视野多样应用探索 2019年10月,提出110亿参数的新预训练模型-T5 2021年1月,推出1.6万亿参数的SwitchTransformer 2021年5月,发布1370亿参数的LaMDA 人性化AI愿景 正确合作对象…… 强大技术实力 长期研究投入 2018年6月,推出1.17亿参数的GPT-1模型 2019年2月,推出15亿参数的GPT-2 2020年5月,发布了1750亿参数的GPT-3 2022年3月,InstructGPT发布,回答更加真实 2022年11月,ChatGPT发布,并率先破圈 坚定的科技信仰:坚持不断改进GPT 开放的合作伙伴:与微软达成合作 较少的商业顾虑:声誉成本、利益冲突 ChatGPT创新:持续迭代迈向AGI 已实现的创新 自然语言处理(NLP)的进步 ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。 上下文感知对话管理 能够在一定程度上理解和记忆对话历史,实现 尚未实现的创新 高级情感智能 虽然具备基本的情感识别能力,但在理解和表达复杂情感方面仍有局限。 深层次常识推理 上下文顺畅的交流。 在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。 跨领域知识应用 集成了广泛的领域知识,可以在多种主题上进行交流和生成信息。 用户意图识别与适应性回应 具备识别用户意图并据此调整回答的能力,能够根据不同的查询提供相应的信息和服务。 多模态交互能力 集成并理解多种类型的数据(如文本、图像、声音)进行综合交互。 无偏见输出 由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见 长期记忆和持续学习 长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强) ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。 基本理解全部的问题含义回答问题的增量创新和组合创新能力 多模态能力 上下文的逻辑关联能力 AI幻觉&AI想象扩展了异感世界的构建能力学科能力的全维、全知、全量 OpenAI联合创始人、前CEO山姆·奥特曼(SamAltman) OpenAI联合创始人、前总裁格雷格·布罗克曼(GregBrockman) OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(IlyaSutskever) OpenAI首席技术官米拉·穆拉蒂(MiraMurati) 微软公司首席执行官萨提亚·纳德拉(SatyaNadella) OpenAI临时首席执行官埃米特·谢尔(EmmettShear) OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。 11月16日:苏茨克维通知奥特曼开会。 11月17日:奥特曼、布罗克曼和OpenAI高级研究员相继离职。 11月18日:投资者愤怒并要求奥特曼回归,董事会初步同意。 11月19日:奥特曼等加入微软,近750名OpenAI 员工威胁集体辞职,要求奥特曼回归。 11月20日:奥特曼、布罗克曼与OpenAI董事会谈判,微软对奥特曼的回归持开放态度。 11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。 结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。 观念博弈 “加速派”和“末日论派”在人类与AI的关系上的分歧。 “加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。 “末日论派”:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。 事件核心人物 五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频 高性能推理硬件成本AI幻觉率 复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。 提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。 图像多语种文字生成生成内容一致性 目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。 保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。 文本生成视频 文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。 用户:我昨天晚上去了一个音乐会,主要是为了看我最喜欢的乐队,但是开场乐队也非常棒。 对话 人机交互自注意力机制体现 AI:听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌曲给你留下了深刻印象? 用户:他们演奏了《深夜》,那是他们最新的单曲,非常激动人心。不过,我也很惊讶于开场乐队的表现。 AI:是啊,《深夜》是一首很有力量的歌曲。关于开场乐队,你最喜欢他们的哪个部分? 绘画 用户描述:“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边,背景是雪山。”该描述中有三个关键信息:红色连衣裙的女人、蓝色的湖、雪山背景。 自注意力机制帮助AI关注到用户最关心的问题。 AI注意到用户提到了关键信息点“最喜欢的乐队”,机器人据此询问了更多的细节。 AI注意到用户对“开场乐队”的正面评价,机器人随后询问了更多关于开场乐队的信息。 自注意力机制为每一个关键信息分配一个“注意力权重”。 生成图像时,根据权重来确定每个部分的细节和重要性。 例如,红色连衣裙的女人可能会被赋予较高的注意力权重,因此在图像中她的细节和颜色可能会被更加准确地渲染。 同样,蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。 “世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如 视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。 自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确 答案。 ——图灵奖得主YannLeCun 世界模型可能带来? 提升自主学习能力:不再依赖于大量的手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。 【学习方法】:自监督学习,通过创建外部世界 的内部模型来学习 【模型目标】:实现更高级的图像分析和理解, 理解外部世界的内部模型 【核心技术】:图像联合嵌入非生成式预测架构, 学习表示的层次结构 【应用领域】:图像分析和理解类任务 JointEmbeddingPredictiveArchitecture (JEPA) 提升认知能力:随着机器对复杂环境和抽象概念理解的加深,世界模型可以推动AI在需要高级认知能力的领域的应用,如法律分析、财务规划等。 提升决策和预测能力:世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。 属性 单模态 多模态 理论问题 未来研究 数据丰富性 单一信息源 多信息源 高效地从单一信息源提取特征 发现并利用跨模态间的隐含关系 鲁棒性 单一模态的数据质量可能会影响整体性能 可以通过其他模态 补偿某个模态的不足 提高单一模态的抗干扰能力 确保多模态数据的一致性和完整性 决策准确性 决策基于单一信息源可能受限 综合各种信息决策更为准确 优化单模态的决策策略 权衡并结合不同模态的决策 处理复杂性 处理流程相对简单 需要处理和融合各种模态的数据复杂性增加 优化单一模态的处理流程 有效融合和处理多模态数据 信息冗余 无法从其他模态中获取冗余信息 可能从不同模态中获取重复冗余的信息 消除单一信息源中的冗余 识别和处理跨模态的信息冗余 上下文理解 上下文理解可能受限于单一信息源 能够结合多种信息更好地理解上下文 提高单一模态的上下文理解能力 结合多模态信息进行深度上下文理解 特征维度 特征维度相对较低 由于融合了多种信息源特征维度可能会更高 从有限的特征中获取最多的信息 管理和选择跨模态的高维特征 可解释性 由于只有一个信息源可能更易于解释 多种信息源的融合可能会降低模型的可解释性 增强单一模态的模型解释能力 提高多模态模型的可解释性和透明度 数据同步 不需要考虑不同模态之间的同步问题 需要确保不同模态的数据是同步的 优化单一模态的数据处理速度 确保不同模态数据的实时同步和对齐 计算资源 计算资源需求相对较低 需要更多的计算资源处理和融合多种模态数据 提高单模态的计算效率 优化多模态的计算资源分配和管理 多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。 在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如: 文本生成图像 文本生成视频 图像生成视频 图像理解 视频理解 夏日的海滩日落图海底世界静态转为动态地标识别足球解说 关键技术 难点 自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。 环境动态性:环境和任务需求经常变化,实时评估和选择最优模态是一个复杂的问题。高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)上 进行优化,这增加了问题的复杂性。 实时多模态处理与决策:强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。 实时性与准确性的权衡:在有限的时间内进行复杂的多模态数据分析是一个挑战。数据同步:在实时环境中,来自不同模态的数据需要准确地同步,以便进行有效的分析 和决策。 人机交互的多模态适应:在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。 用户多样性:由于用户的需求和习惯都是独特的,实现个性化的多模态适应性是一个复杂的问题。实时反馈:获取并处理