从安全角度,看AGI到来的可能性 朱雀安全付山阳 个人介绍 付山阳朱雀安全CTO 主要成果和分享 曾任:平安银行信息安全部总经理 曾任:腾讯云安全负责人 曾任:yy安全通信公司技术合伙人 曾任:开源网安副总裁&合伙人 信息安全行业经验19+年 在国内外主流信息安全会议发表主旨演讲11次。 制定信通院安全标准和OWASP安全项目共5项 申请并授予发明专利13项 •2018年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”,安全性指标国内第一 •2016年,GEEKPWN黑客比赛上,全球首次远程入侵人形机器人NAO •2019全球安全开源组织Owasp-区块链安全top10项目主编和组长,全球首个区块链安全建设指引项目 •主导平安集团和平安银行零售产品信息安全建设,最早互联网金融安全之一 •主导腾讯云的整体安全建设项目,最早腾讯云安全之一 •主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发,最畅销的中端防火墙。 •2017年中国金融科技系列峰会受邀演讲者,业界首次分享-“金融人工智能的 安全风险浅析” •2016年阿里安全峰会受邀演讲者,业界首次分享-“互联网金融安全实战浅谈” •2016第二届互联网安全领袖峰会受邀演讲者,业界首次分享-“机器人如何变 身窃听专家” Sora的出现让行业很兴奋,豪言AGI会快速到来一 OpenAICEO SamAltman认为—— 再解决一两个小问题就可以进入AGI Sora的出现让行业很兴奋,豪言AGI会快速到来二 英伟达CEO 黄仁勋认为—— 5年内就可以实现AGI Sora的出现让行业很兴奋,豪言AGI会快速到来三 360董事长 周鸿祎也认为—— Sora意味着AGI的实现将从10年缩短到一两年 Sora的出现让行业很兴奋,豪言AGI会快速到来四 老板们可以仰望星空,畅想未来! 我们做技术的得脚踏实地,分析可行的技术路径! AGI的定义 通常认知AGI是指达到人类智能的AI水平 DeepMind将AGI定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统, OpenAI将其描述为「在最具经济价值的工作中超越人类的高度自治系统」 AI安全很重要,不能保证安全的AI是无法使用的 AI带来的灾难性后果可能比核武器更严重 Ilya的导师,图灵奖得主,深度学习之父Hinton—— 如果少数核弹爆炸,可能会造成数百万人死亡。尽管带来了大规模的伤害,但人类仍将继续存在。 但如果我们创造了一个超越人类智能的AI,并且它认为自己在没有人类干预的情况下能发展得更好,那么它可能会发明一种生物武器来杀死全人类。 中美俄政府都采取协调行动,说明政府层面也认为AI安全很重要 AGI最大的不“安全”是会让大家失业,失去搬砖的机会 OpenAI的AGI定义—— 在最具经济价值的工作中超越人类的高度自治系统 资本家想裁掉你们,降低 成本,所以我很有必要替 大家研究清楚 Sora并没有解决幻觉问题 黑客视角:sora和大模型的幻觉问题约等于安全漏洞 幻觉 失控 安全漏洞 安全事故 业内专家表示,sora的这些表现类似大模型的幻觉 也有人说,这些幻觉的表现类似人 ? 大模型失控 程序崩溃 代码失控 失控 内存溢出 类的做梦行为 正常人类是可以区分现实与梦境的,不能区分的是精神病,有精神病的AGI能安全吗? Sora等应用 大模型 知识库 知识库的方式来解决大模型幻觉问题行不通 英伟达CEO黄仁勋曾提出 过,不用担心幻觉问题,他说通过一种增强检索的方法来对抗这种幻觉,让它在给出答案之前, 先在可信的知识库中进行核 实。 这确实能抑制幻觉,但也降低智商,不可能实现AGI Sora是GPT4的应用,GPT4存在严重的安全问题一 Sora是GPT4的应用,GPT4存在严重的安全问题二 Sora是GPT4的应用,GPT4存在严重的安全问题三 Sora是GPT4的应用,GPT4存在严重的安全问题四 GPT的对齐等安全问题好解决吗?绕过只需一分钟 GPT修复方案有问题——成本高,修复时间长 SFT(SupervisedFine-Tuning) 数据准备:收集大量的标注数据,这些数据包括输入和对应的正确输出。 预训练模型:选择一个已经预训练好的模型,这 个模型通常已经在大规模数据集上训练过,具有较好的泛化能力。 微调:使用标注数据对预训练模型进行微调。这 个过程通常涉及调整模型的参数,使得模型能够更好地适应特定的任务。 评估:在验证集上评估模型的性能,确保模型没 有过拟合。 迭代优化:根据评估结果,调整训练策略,如学习率、批大小等,然后重复微调过程,直到达到 满意的性能。 RLHF(ReinforcementLearningfromHumanFeedback) 数据收集:收集用户与模型交互的数据,包括用户的反馈和模型的响应。 预训练模型:同样选择一个已经预训练好的模型。策略学习:使用强化学习算法,根据用户的反馈来 训练模型。模型会尝试最大化用户的满意度。 奖励设计:设计奖励函数,根据用户的反馈来给予模型奖励或惩罚。 迭代训练:模型通过不断与用户的交互来学习如何 更好地完成任务。 评估与优化:评估模型在实际任务中的表现,并根据需要进行优化。 GPT的修复成本是攻击成本的上百倍 效费比低 安全数据难收集 攻击人数众多 攻击面众多 违背安全原则——安全是设计出来的,不是打补丁补起来的一 粤港澳大桥设计安全参数 能抵抗16级台风 8级地震 承受30万吨巨轮撞击 使用寿命高达120年 补丁式安全方案 抵御不了稍高的洪水 抵御不了较强的台风 抵御不了稍强的地震等风险 违背安全原则——安全是设计出来的,不是打补丁补起来的二 GPT的安全团队是个草台班子一 前安全团队构成 JanLeike(前OpenAI安全负责人) 曾在DeepMind工作过四年时间,研究的是根据人类反馈的强化学习和递归式奖励建模。 2021年初他加入了OpenAI,现在他是OpenAI最近宣布的超级对齐团队的领导者之一。 在OpenAI之前无安全经验 没有招聘渗透等黑客思维的人员 GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “AWatermarkforLargeLanguageModels” 获2023年ICML官方公布的杰出论文奖 被普通攻击者轻易攻破 GPT的安全团队是个草台班子三 道:本质层面 法:方法论层面 术:实操层面 器:工具层面 黑客思维安全原则 AI方法AI工具 GPT的安全团队是个草台班子四 MattKnight(安全负责人)4年安全经验Knight负责领导OpenAI中安全、IT和隐私相 关的工程及研究。 新的安全团队负责人仍然安全经验不足 LilianWeng(安全系统负责人)3年安全经验2021年,翁荔涉及安全相关的内容。 2023年,她正式开始领导致力于人工智能安全的工程师和研究人员团队。 GPT的安全结果不好一 Jailbroken:HowDoesLLMSafetyTrainingFail? 论文作者发现,尽管进行 了大量的红队测试和安全训练,如GPT-4和Claudev1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483.pdf GPT的安全结果不好二 GPT4训练时间长,效果不好 GPT-4是2022年8月训练完成,其中训练花了3个月时间,训练完成后开始搞对齐、安全,花了6个月时间。 2023年3月正式发布。发布的结果如右所示,一分钟就绕过。 正式发布后,安全工作一直都没停,到目前为止2024年6月,一共又花了15个月,使用咒语后还是一分 钟绕过的结果。 新发布的GPT4o也马上被越狱。 GPT的管理团队不够重视安全,商业组织注重利润优先 Openai是一个商业组织,而不是开源组织 AGI的定义很商业化 Ilya等人控诉altman不诚信 表面说没股权,但有openai基金会控制权 偷偷训练新的AI 安全团队成员控诉承诺的资源没有到位 不看好GPT的安全前景 方法有 问题 团队有 问题 结果不好 领导层 不支持 图灵奖级专家的观点一 杨立昆 基于概率模型的架构, 在解决安全和幻觉问题上希望很渺茫! 图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安 全问题 我的观点——当进入到AGI阶段,这种策略是无效的 同级智慧体可以实现完全控制管理吗? 黑客架构师 VS 在架构师定义游戏规则的环境,黑客仍然有机会获胜,比如获得windows的控制权 从AlphaGo跟人类的对弈,可以看到AI的计算能力是远超人类的。 那么当AGI与人类博弈控制权的时候,AGI可以在几千,几万步前就开始布局,单个棋子 看起来都是无害的,但在几万步后,所有的棋子串起来,可以反转控制权。 我的观点——当进入到AGI阶段,这种策略是无效的 ? 低级智慧体可以完全控制管理高级智慧体吗 人类 安全AGI 应用AGI 低级智慧体不可能永久控制高级智慧体!一旦失去控制权,基本没有反转的机会 我的观点——AGI安全是灰犀牛,会对人类世界构成毁灭性打击 最领先的OpenAI在安全上都如此糟糕! OpenAI目前的状态相当于windows90年代的安全状况,安全漏洞频发,并且看不到收敛的趋势! 人类在AGI安全上还没有做好准备! 结论 两年内,AI安全问题难以解决,各位不用担心工作的问题! 结果一 •未来实现不了AGI, 所以不会存在AGI安 全问题 结果二 •实验室内达到了AGI 的水准,但是安全问题解决不了,没法广泛应用,所以大家的 工作不会被替代。 结果三 •达到了AGI的水准, 也开始应用,安全问题也没解决,最终AI会毁灭人类,大家也 不用担心工作问题。 仰望星空,展望未来 去年的预测: 对齐问题将是大模型的牛皮癣,甚至是癌症 大模型是开展认知战的屠龙刀 人脸,声音不再适合作为强鉴权手段 大模型加持下,黑客攻击事件将呈2个数量级的上升 今年的预测: AI对齐问题短期难以解决,最乐观的情况下都需要3-5年 在AGI安全上,商业公司,以及国家间的合作效果会让我们失望 低等智慧体不可能一直控制高等智慧体,人类可能得走科技体的路径,改造自己成为更高等的智慧体 有自主意识的AGI不会实现,但智能程度一直提高,甚至远超人类 THANKS 感谢观看