研报总结
一、研究背景与目的
未来生命研究所(FLI)发布了2024年度人工智能安全指数(AI Safety Index),旨在评估领先的人工智能公司在这方面的安全实践。该指数由独立专家评审团进行评估,涵盖了风险评估、当前危害、安全框架、存在性安全策略、治理与问责、透明度与沟通六个关键领域。
二、主要内容与指标
- 风险评估:评估公司在模型开发中的风险评估能力。
- 当前危害:评估公司在应对现有风险方面的工作。
- 安全框架:评估公司的安全政策和措施。
- 存在性安全策略:评估公司为确保人工智能系统在人类控制下的安全性而制定的战略。
- 治理与问责:评估公司的治理结构和问责机制。
- 透明度与沟通:评估公司的透明度和与公众的沟通情况。
三、主要发现
- 风险管理差异显著:部分公司在建立初步的安全框架或进行严肃的风险评估方面做得较好,但其他公司尚未采取基本的安全预防措施。
- 漏洞问题:所有旗舰模型均被发现存在对抗攻击的漏洞。
- 控制问题:尽管各公司在发展通用人工智能(AGI)方面有雄心壮志,但目前的策略被认为不足以确保这些系统的安全性和可控性。
- 外部监督不足:缺乏独立监督导致公司难以抵制因追求利润而忽视安全的做法。虽然Anthropic和OpenAI的部分治理结构受到肯定,但专家呼吁所有公司进行全面的风险评估验证。
四、评审团成员
评审团由来自世界各地的知名人工智能专家组成,包括尤西夫·本吉奥、杰西卡·纽曼、阿托莎·卡西尔扎德等。
五、评价标准
采用美国大学绩点制,从A+到F,对应分数分别为4.3, 4.0, 3.7, 3.3, ... , 0。
六、关键公司评分
- Anthropic: C+ .13
- Google DeepMind: D+ 1.55
- OpenAI: D+ 1.32
- Zhipu AI: D+ 1.11
- Meta: D+ 0.65
七、结论
尽管部分公司在某些领域表现良好,但整体上仍存在较大差距。需要进一步加强风险评估、安全框架建设以及外部监督机制,以促进更负责任的人工智能发展。