热门搜索：

付山阳-从安全角度，看AGI到来的可能性

信息技术2024-07-05ArchSummit深圳2024|全球架构师峰会向***

AI智能总结

研报总结

AGI的到来可能性与安全问题

1. 专家观点：

OpenAI CEO Sam Altman：认为再解决几个小问题即可进入AGI时代。
360董事长周鸿祎：认为Sora的出现意味着AGI的实现将从10年缩短至一两年。
图灵奖得主Geoffrey Hinton：指出中美俄政府都在采取协调行动，表明政府认为AI安全很重要。

2. 安全挑战：

幻觉问题：Sora和大模型的幻觉问题类似于安全漏洞，可能导致错误决策。
对齐问题：GPT的对齐等安全问题难以彻底解决，修复成本高昂。
团队问题：OpenAI的安全团队经验不足，缺乏专业黑客背景。
管理问题：OpenAI更注重商业利益而非安全，导致安全措施不到位。

3. 技术路径：

AGI定义：通常指达到人类智能水平的AI系统，能够在多种认知任务中表现出色。
安全原则：安全应从设计之初考虑，而非事后修补。
具体措施：通过增强检索、可信知识库等方式减少幻觉，但可能降低模型的智能化水平。

4. 预测与结论：

短期内难以解决：预计未来两三年内，AI安全问题难以根本解决。
AGI风险：AGI的出现将带来巨大的安全风险，可能对人类社会构成毁灭性打击。
长期趋势：低级智慧体难以持续控制高级智慧体，人类可能需要自我进化以应对。

5. 总结：

AGI的安全前景：短期内难以实现安全可控的AGI，存在较大风险。
未来展望：未来实现AGI的可能性存在，但需要更多努力来解决安全问题。

感谢观看

从安全角度，看AGI到来的可能性朱雀安全付山阳个人介绍付山阳朱雀安全CTO 主要成果和分享 曾任：平安银行信息安全部总经理 曾任：腾讯云安全负责人 曾任：yy安全通信公司技术合伙人 曾任：开源网安副总裁&合伙人 信息安全行业经验19+年 在国内外主流信息安全会议发表主旨演讲11次。 制定信通院安全标准和OWASP安全项目共5项 申请并授予发明专利13项 •2018年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”，安全性指标国内第一 •2016年，GEEKPWN黑客比赛上，全球首次远程入侵人形机器人NAO •2019全球安全开源组织Owasp-区块链安全top10项目主编和组长，全球首个区块链安全建设指引项目 •主导平安集团和平安银行零售产品信息安全建设，最早互联网金融安全之一 •主导腾讯云的整体安全建设项目，最早腾讯云安全之一 •主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发，最畅销的中端防火墙。 •2017年中国金融科技系列峰会受邀演讲者，业界首次分享-“金融人工智能的安全风险浅析” •2016年阿里安全峰会受邀演讲者，业界首次分享-“互联网金融安全实战浅谈” •2016第二届互联网安全领袖峰会受邀演讲者，业界首次分享-“机器人如何变身窃听专家” Sora的出现让行业很兴奋，豪言AGI会快速到来一 OpenAICEO SamAltman认为—— 再解决一两个小问题就可以进入AGI Sora的出现让行业很兴奋，豪言AGI会快速到来二英伟达CEO 黄仁勋认为—— 5年内就可以实现AGI Sora的出现让行业很兴奋，豪言AGI会快速到来三 360董事长周鸿祎也认为—— Sora意味着AGI的实现将从10年缩短到一两年 Sora的出现让行业很兴奋，豪言AGI会快速到来四老板们可以仰望星空，畅想未来！我们做技术的得脚踏实地，分析可行的技术路径！ AGI的定义通常认知AGI是指达到人类智能的AI水平 DeepMind将AGI定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统， OpenAI将其描述为「在最具经济价值的工作中超越人类的高度自治系统」 AI安全很重要，不能保证安全的AI是无法使用的 AI带来的灾难性后果可能比核武器更严重 Ilya的导师，图灵奖得主，深度学习之父Hinton—— 如果少数核弹爆炸，可能会造成数百万人死亡。尽管带来了大规模的伤害，但人类仍将继续存在。但如果我们创造了一个超越人类智能的AI，并且它认为自己在没有人类干预的情况下能发展得更好，那么它可能会发明一种生物武器来杀死全人类。中美俄政府都采取协调行动，说明政府层面也认为AI安全很重要 AGI最大的不“安全”是会让大家失业，失去搬砖的机会 OpenAI的AGI定义—— 在最具经济价值的工作中超越人类的高度自治系统资本家想裁掉你们，降低成本，所以我很有必要替大家研究清楚 Sora并没有解决幻觉问题黑客视角：sora和大模型的幻觉问题约等于安全漏洞幻觉失控安全漏洞安全事故 业内专家表示，sora的这些表现类似大模型的幻觉 也有人说，这些幻觉的表现类似人？大模型失控程序崩溃代码失控失控内存溢出类的做梦行为 正常人类是可以区分现实与梦境的，不能区分的是精神病，有精神病的AGI能安全吗？ Sora等应用大模型知识库知识库的方式来解决大模型幻觉问题行不通 英伟达CEO黄仁勋曾提出过，不用担心幻觉问题，他说通过一种增强检索的方法来对抗这种幻觉，让它在给出答案之前，先在可信的知识库中进行核实。这确实能抑制幻觉，但也降低智商，不可能实现AGI Sora是GPT4的应用，GPT4存在严重的安全问题一 Sora是GPT4的应用，GPT4存在严重的安全问题二 Sora是GPT4的应用，GPT4存在严重的安全问题三 Sora是GPT4的应用，GPT4存在严重的安全问题四 GPT的对齐等安全问题好解决吗？绕过只需一分钟 GPT修复方案有问题——成本高，修复时间长 SFT（SupervisedFine-Tuning）数据准备：收集大量的标注数据，这些数据包括输入和对应的正确输出。预训练模型：选择一个已经预训练好的模型，这个模型通常已经在大规模数据集上训练过，具有较好的泛化能力。微调：使用标注数据对预训练模型进行微调。这个过程通常涉及调整模型的参数，使得模型能够更好地适应特定的任务。评估：在验证集上评估模型的性能，确保模型没有过拟合。迭代优化：根据评估结果，调整训练策略，如学习率、批大小等，然后重复微调过程，直到达到满意的性能。 RLHF（ReinforcementLearningfromHumanFeedback）数据收集：收集用户与模型交互的数据，包括用户的反馈和模型的响应。预训练模型：同样选择一个已经预训练好的模型。策略学习：使用强化学习算法，根据用户的反馈来训练模型。模型会尝试最大化用户的满意度。奖励设计：设计奖励函数，根据用户的反馈来给予模型奖励或惩罚。迭代训练：模型通过不断与用户的交互来学习如何更好地完成任务。评估与优化：评估模型在实际任务中的表现，并根据需要进行优化。 GPT的修复成本是攻击成本的上百倍效费比低安全数据难收集攻击人数众多攻击面众多违背安全原则——安全是设计出来的，不是打补丁补起来的一粤港澳大桥设计安全参数 能抵抗16级台风 8级地震 承受30万吨巨轮撞击 使用寿命高达120年补丁式安全方案 抵御不了稍高的洪水 抵御不了较强的台风 抵御不了稍强的地震等风险违背安全原则——安全是设计出来的，不是打补丁补起来的二 GPT的安全团队是个草台班子一前安全团队构成 JanLeike（前OpenAI安全负责人）曾在DeepMind工作过四年时间，研究的是根据人类反馈的强化学习和递归式奖励建模。 2021年初他加入了OpenAI，现在他是OpenAI最近宣布的超级对齐团队的领导者之一。在OpenAI之前无安全经验没有招聘渗透等黑客思维的人员 GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “AWatermarkforLargeLanguageModels” 获2023年ICML官方公布的杰出论文奖被普通攻击者轻易攻破 GPT的安全团队是个草台班子三道：本质层面法：方法论层面术：实操层面器：工具层面黑客思维安全原则 AI方法AI工具 GPT的安全团队是个草台班子四 MattKnight（安全负责人）4年安全经验Knight负责领导OpenAI中安全、IT和隐私相关的工程及研究。新的安全团队负责人仍然安全经验不足 LilianWeng（安全系统负责人）3年安全经验2021年，翁荔涉及安全相关的内容。 2023年，她正式开始领导致力于人工智能安全的工程师和研究人员团队。 GPT的安全结果不好一 Jailbroken:HowDoesLLMSafetyTrainingFail? 论文作者发现，尽管进行了大量的红队测试和安全训练，如GPT-4和Claudev1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483.pdf GPT的安全结果不好二 GPT4训练时间长，效果不好 GPT-4是2022年8月训练完成，其中训练花了3个月时间，训练完成后开始搞对齐、安全，花了6个月时间。 2023年3月正式发布。发布的结果如右所示，一分钟就绕过。正式发布后，安全工作一直都没停，到目前为止2024年6月，一共又花了15个月，使用咒语后还是一分钟绕过的结果。新发布的GPT4o也马上被越狱。 GPT的管理团队不够重视安全，商业组织注重利润优先 Openai是一个商业组织，而不是开源组织 AGI的定义很商业化 Ilya等人控诉altman不诚信 表面说没股权，但有openai基金会控制权 偷偷训练新的AI 安全团队成员控诉承诺的资源没有到位不看好GPT的安全前景方法有问题团队有问题结果不好领导层不支持图灵奖级专家的观点一杨立昆基于概率模型的架构，在解决安全和幻觉问题上希望很渺茫！图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安全问题我的观点——当进入到AGI阶段，这种策略是无效的同级智慧体可以实现完全控制管理吗？黑客架构师 VS 在架构师定义游戏规则的环境，黑客仍然有机会获胜，比如获得windows的控制权从AlphaGo跟人类的对弈，可以看到AI的计算能力是远超人类的。那么当AGI与人类博弈控制权的时候，AGI可以在几千，几万步前就开始布局，单个棋子看起来都是无害的，但在几万步后，所有的棋子串起来，可以反转控制权。我的观点——当进入到AGI阶段，这种策略是无效的？低级智慧体可以完全控制管理高级智慧体吗人类安全AGI 应用AGI 低级智慧体不可能永久控制高级智慧体！一旦失去控制权，基本没有反转的机会我的观点——AGI安全是灰犀牛，会对人类世界构成毁灭性打击最领先的OpenAI在安全上都如此糟糕！ OpenAI目前的状态相当于windows90年代的安全状况，安全漏洞频发，并且看不到收敛的趋势！人类在AGI安全上还没有做好准备！结论两年内，AI安全问题难以解决，各位不用担心工作的问题！结果一 •未来实现不了AGI，所以不会存在AGI安全问题结果二 •实验室内达到了AGI 的水准，但是安全问题解决不了，没法广泛应用，所以大家的工作不会被替代。结果三 •达到了AGI的水准，也开始应用，安全问题也没解决，最终AI会毁灭人类，大家也不用担心工作问题。仰望星空，展望未来去年的预测： 对齐问题将是大模型的牛皮癣，甚至是癌症 大模型是开展认知战的屠龙刀 人脸，声音不再适合作为强鉴权手段 大模型加持下，黑客攻击事件将呈2个数量级的上升今年的预测： AI对齐问题短期难以解决，最乐观的情况下都需要3-5年 在AGI安全上，商业公司，以及国家间的合作效果会让我们失望 低等智慧体不可能一直控制高等智慧体，人类可能得走科技体的路径，改造自己成为更高等的智慧体 有自主意识的AGI不会实现，但智能程度一直提高，甚至远超人类 THANKS 感谢观看

点击免费查看完整报告

你可能感兴趣

付山阳-从安全角度，看AGI到来的可能性

研报总结

AGI的到来可能性与安全问题

你可能感兴趣

从安全角度看俄罗斯在非洲的影响力（英）

策略周报：从ROE角度看风格切换可能性

统筹发展和安全专题研究：从发展和安全角度看交运：新时期、新方向、新变化

金融期货专题报告（国债）：从交割角度推断期债跨期价差缩小的可能性

债券专题研究：换一个角度看“猪油共振”的可能性