您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ArchSummit深圳2024|全球架构师峰会]:付山阳-从安全角度,看AGI到来的可能性 - 发现报告
当前位置:首页/行业研究/报告详情/

付山阳-从安全角度,看AGI到来的可能性

AI智能总结
查看更多
付山阳-从安全角度,看AGI到来的可能性

从安全角度,看AGI到来的可能性 朱雀安全付山阳 个人介绍 付山阳朱雀安全CTO 主要成果和分享 曾任:平安银行信息安全部总经理 曾任:腾讯云安全负责人 曾任:yy安全通信公司技术合伙人 曾任:开源网安副总裁&合伙人 信息安全行业经验19+年 在国内外主流信息安全会议发表主旨演讲11次。 制定信通院安全标准和OWASP安全项目共5项 申请并授予发明专利13项 •2018年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”,安全性指标国内第一 •2016年,GEEKPWN黑客比赛上,全球首次远程入侵人形机器人NAO •2019全球安全开源组织Owasp-区块链安全top10项目主编和组长,全球首个区块链安全建设指引项目 •主导平安集团和平安银行零售产品信息安全建设,最早互联网金融安全之一 •主导腾讯云的整体安全建设项目,最早腾讯云安全之一 •主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发,最畅销的中端防火墙。 •2017年中国金融科技系列峰会受邀演讲者,业界首次分享-“金融人工智能的 安全风险浅析” •2016年阿里安全峰会受邀演讲者,业界首次分享-“互联网金融安全实战浅谈” •2016第二届互联网安全领袖峰会受邀演讲者,业界首次分享-“机器人如何变 身窃听专家” Sora的出现让行业很兴奋,豪言AGI会快速到来一 OpenAICEO SamAltman认为—— 再解决一两个小问题就可以进入AGI Sora的出现让行业很兴奋,豪言AGI会快速到来二 英伟达CEO 黄仁勋认为—— 5年内就可以实现AGI Sora的出现让行业很兴奋,豪言AGI会快速到来三 360董事长 周鸿祎也认为—— Sora意味着AGI的实现将从10年缩短到一两年 Sora的出现让行业很兴奋,豪言AGI会快速到来四 老板们可以仰望星空,畅想未来! 我们做技术的得脚踏实地,分析可行的技术路径! AGI的定义 通常认知AGI是指达到人类智能的AI水平 DeepMind将AGI定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统, OpenAI将其描述为「在最具经济价值的工作中超越人类的高度自治系统」 AI安全很重要,不能保证安全的AI是无法使用的 AI带来的灾难性后果可能比核武器更严重 Ilya的导师,图灵奖得主,深度学习之父Hinton—— 如果少数核弹爆炸,可能会造成数百万人死亡。尽管带来了大规模的伤害,但人类仍将继续存在。 但如果我们创造了一个超越人类智能的AI,并且它认为自己在没有人类干预的情况下能发展得更好,那么它可能会发明一种生物武器来杀死全人类。 中美俄政府都采取协调行动,说明政府层面也认为AI安全很重要 AGI最大的不“安全”是会让大家失业,失去搬砖的机会 OpenAI的AGI定义—— 在最具经济价值的工作中超越人类的高度自治系统 资本家想裁掉你们,降低 成本,所以我很有必要替 大家研究清楚 Sora并没有解决幻觉问题 黑客视角:sora和大模型的幻觉问题约等于安全漏洞 幻觉 失控 安全漏洞 安全事故 业内专家表示,sora的这些表现类似大模型的幻觉 也有人说,这些幻觉的表现类似人 ? 大模型失控 程序崩溃 代码失控 失控 内存溢出 类的做梦行为 正常人类是可以区分现实与梦境的,不能区分的是精神病,有精神病的AGI能安全吗? Sora等应用 大模型 知识库 知识库的方式来解决大模型幻觉问题行不通 英伟达CEO黄仁勋曾提出 过,不用担心幻觉问题,他说通过一种增强检索的方法来对抗这种幻觉,让它在给出答案之前, 先在可信的知识库中进行核 实。 这确实能抑制幻觉,但也降低智商,不可能实现AGI Sora是GPT4的应用,GPT4存在严重的安全问题一 Sora是GPT4的应用,GPT4存在严重的安全问题二 Sora是GPT4的应用,GPT4存在严重的安全问题三 Sora是GPT4的应用,GPT4存在严重的安全问题四 GPT的对齐等安全问题好解决吗?绕过只需一分钟 GPT修复方案有问题——成本高,修复时间长 SFT(SupervisedFine-Tuning) 数据准备:收集大量的标注数据,这些数据包括输入和对应的正确输出。 预训练模型:选择一个已经预训练好的模型,这 个模型通常已经在大规模数据集上训练过,具有较好的泛化能力。 微调:使用标注数据对预训练模型进行微调。这 个过程通常涉及调整模型的参数,使得模型能够更好地适应特定的任务。 评估:在验证集上评估模型的性能,确保模型没 有过拟合。 迭代优化:根据评估结果,调整训练策略,如学习率、批大小等,然后重复微调过程,直到达到 满意的性能。 RLHF(ReinforcementLearningfromHumanFeedback) 数据收集:收集用户与模型交互的数据,包括用户的反馈和模型的响应。 预训练模型:同样选择一个已经预训练好的模型。策略学习:使用强化学习算法,根据用户的反馈来 训练模型。模型会尝试最大化用户的满意度。 奖励设计:设计奖励函数,根据用户的反馈来给予模型奖励或惩罚。 迭代训练:模型通过不断与用户的交互来学习如何 更好地完成任务。 评估与优化:评估模型在实际任务中的表现,并根据需要进行优化。 GPT的修复成本是攻击成本的上百倍 效费比低 安全数据难收集 攻击人数众多 攻击面众多 违背安全原则——安全是设计出来的,不是打补丁补起来的一 粤港澳大桥设计安全参数 能抵抗16级台风 8级地震 承受30万吨巨轮撞击 使用寿命高达120年 补丁式安全方案 抵御不了稍高的洪水 抵御不了较强的台风 抵御不了稍强的地震等风险 违背安全原则——安全是设计出来的,不是打补丁补起来的二 GPT的安全团队是个草台班子一 前安全团队构成 JanLeike(前OpenAI安全负责人) 曾在DeepMind工作过四年时间,研究的是根据人类反馈的强化学习和递归式奖励建模。 2021年初他加入了OpenAI,现在他是OpenAI最近宣布的超级对齐团队的领导者之一。 在OpenAI之前无安全经验 没有招聘渗透等黑客思维的人员 GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “AWatermarkforLargeLanguageModels” 获2023年ICML官方公布的杰出论文奖 被普通攻击者轻易攻破 GPT的安全团队是个草台班子三 道:本质层面 法:方法论层面 术:实操层面 器:工具层面 黑客思维安全原则 AI方法AI工具 GPT的安全团队是个草台班子四 MattKnight(安全负责人)4年安全经验Knight负责领导OpenAI中安全、IT和隐私相 关的工程及研究。 新的安全团队负责人仍然安全经验不足 LilianWeng(安全系统负责人)3年安全经验2021年,翁荔涉及安全相关的内容。 2023年,她正式开始领导致力于人工智能安全的工程师和研究人员团队。 GPT的安全结果不好一 Jailbroken:HowDoesLLMSafetyTrainingFail? 论文作者发现,尽管进行 了大量的红队测试和安全训练,如GPT-4和Claudev1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483.pdf GPT的安全结果不好二 GPT4训练时间长,效果不好 GPT-4是2022年8月训练完成,其中训练花了3个月时间,训练完成后开始搞对齐、安全,花了6个月时间。 2023年3月正式发布。发布的结果如右所示,一分钟就绕过。 正式发布后,安全工作一直都没停,到目前为止2024年6月,一共又花了15个月,使用咒语后还是一分 钟绕过的结果。 新发布的GPT4o也马上被越狱。 GPT的管理团队不够重视安全,商业组织注重利润优先 Openai是一个商业组织,而不是开源组织 AGI的定义很商业化 Ilya等人控诉altman不诚信 表面说没股权,但有openai基金会控制权 偷偷训练新的AI 安全团队成员控诉承诺的资源没有到位 不看好GPT的安全前景 方法有 问题 团队有 问题 结果不好 领导层 不支持 图灵奖级专家的观点一 杨立昆 基于概率模型的架构, 在解决安全和幻觉问题上希望很渺茫! 图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安 全问题 我的观点——当进入到AGI阶段,这种策略是无效的 同级智慧体可以实现完全控制管理吗? 黑客架构师 VS 在架构师定义游戏规则的环境,黑客仍然有机会获胜,比如获得windows的控制权 从AlphaGo跟人类的对弈,可以看到AI的计算能力是远超人类的。 那么当AGI与人类博弈控制权的时候,AGI可以在几千,几万步前就开始布局,单个棋子 看起来都是无害的,但在几万步后,所有的棋子串起来,可以反转控制权。 我的观点——当进入到AGI阶段,这种策略是无效的 ? 低级智慧体可以完全控制管理高级智慧体吗 人类 安全AGI 应用AGI 低级智慧体不可能永久控制高级智慧体!一旦失去控制权,基本没有反转的机会 我的观点——AGI安全是灰犀牛,会对人类世界构成毁灭性打击 最领先的OpenAI在安全上都如此糟糕! OpenAI目前的状态相当于windows90年代的安全状况,安全漏洞频发,并且看不到收敛的趋势! 人类在AGI安全上还没有做好准备! 结论 两年内,AI安全问题难以解决,各位不用担心工作的问题! 结果一 •未来实现不了AGI, 所以不会存在AGI安 全问题 结果二 •实验室内达到了AGI 的水准,但是安全问题解决不了,没法广泛应用,所以大家的 工作不会被替代。 结果三 •达到了AGI的水准, 也开始应用,安全问题也没解决,最终AI会毁灭人类,大家也 不用担心工作问题。 仰望星空,展望未来 去年的预测: 对齐问题将是大模型的牛皮癣,甚至是癌症 大模型是开展认知战的屠龙刀 人脸,声音不再适合作为强鉴权手段 大模型加持下,黑客攻击事件将呈2个数量级的上升 今年的预测: AI对齐问题短期难以解决,最乐观的情况下都需要3-5年 在AGI安全上,商业公司,以及国家间的合作效果会让我们失望 低等智慧体不可能一直控制高等智慧体,人类可能得走科技体的路径,改造自己成为更高等的智慧体 有自主意识的AGI不会实现,但智能程度一直提高,甚至远超人类 THANKS 感谢观看