您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:如何信任AI:零知识机器学习(ZKML)提供怎样的思路? - 发现报告
当前位置:首页/行业研究/报告详情/

如何信任AI:零知识机器学习(ZKML)提供怎样的思路?

信息技术2023-06-25宋嘉吉、任鹤义国盛证券孙***
如何信任AI:零知识机器学习(ZKML)提供怎样的思路?

区块链 证券研究报告|行业专题研究 2023年06月25日 如何信任AI:零知识机器学习(ZKML)提供怎样的思路? 随着AI以超乎想象的速度演化,必将引起对AI利剑的另一“刃”——信任——的担忧。首先是隐私方面:AI时代,人类从数据隐私的角度如何信任AI?也许AI模型的透明度是更为担忧的关键:类似大规模语言模型的涌 现能力,对人类来说无异于一个无法看透的科技“黑匣子”,一般用户并不能理解模型是如何运行的、运行结果又是如何获得的——更麻烦的是,作为用户可能并不知道服务商提供的AI模型是否如承诺的那样运行。尤其是在一些敏感数据上应用AI算法和模型,如医疗、金融、互联网应用等,AI模型是否具有偏见(甚至恶意导向)、或者服务商是否按照承诺那样准确无误地运行模型(以及相关参数),成为用户最为关心的问题。零知识证明技术在这方面有着针对性的解决方案,于是零知识机器学习(ZKML)成为最新崛起的发展方向。 综合考虑到计算的完整性、启发性优化以及隐私,零知识证明和AI的结合下,零知识机器学习(Zero-KnowledgeMachineLearning,ZKML)应运而生。在AI生成内容越来越逼近与人类产生的内容的时代,零知识密证明的技术特点可以帮助我们确定特定内容是通过特定模型产生的。对于隐 私保护,零知识证明技术特别重要,即可以在不泄露用户数据输入或模型具体细节的情况下完成证明和验证。 零知识证明应用于机器学习的�种方式:计算完整性、模型完整性、验证、分布式训练和身份验证。最近大型语言模型(LLM)的快速发展表明这些模型变得越来越智能,这些模型完善了算法与人类的重要接口:语言。通用人工 智能(AGI)的趋势已经不可阻挡,但就现在的模型训练结果来看,AI可以在数字交互中完美模仿高能力的人类——且在快速的演进中以不可想象的速度达到超越人类的水平,使得人类不得不惊叹这种进化速度、甚至产生被AI迅速替代的忧虑。 社区开发者利用ZKML对Twitter推荐功能进行验证,具有一定启发性。 Twitter的“ForYou”推荐功能利用一种AI推荐算法,将每天发布的大约5 亿条推文提炼成少数几条热门推文,最终显示在用户主页的时间轴上。2023年3月底,Twitter开源该算法,但因模型细节未公开,用户依然无法验证算法是否准确、完整运行。社区开发者DanielKang等利用密码学工具ZK-SNARKs来检查Twitter推荐算法是否正确、完整运行而无需公开算法细节——这正是零知识证明最吸引人之处,即不透露关于对象的任何具体信息 (零知识)的前提下证明该信息的可信性。最理想的情况是,Twitter可以使用ZK-SNARKS来发布其排名模型的证明——证明当该模型应用于特定用户和推文时,它会产生特定的最终输出排名。该证明则是该模型可信的基础:用户可以自行验证模式算法的计算是否按承诺执行——或者交给第三方来进行审计。这一切都是在不公开模型参数权重细节的基础上进行。也就是说,利用官方公布的模型证明,用户对具体的有疑问的推文,利用该证明来验证特定推文是否按照模型承诺那样诚实运行。 投资建议:AI迅速演化的背景下,我们聚焦:1)算力:中际旭创、新易盛、天孚通信、太辰光、腾景科技、中兴通讯、紫光股份、锐捷网络;2)三大 运营商,中国电信、中国移动、中国联通;3)内容审查与IP保护:人民网、新华网、博汇科技。 风险提示:ZKML商业模式落地不及预期;监管政策的不确定性。 增持(维持) 行业走势 通信沪深300 32% 16% 0% -16% -32% 2022-0 作者 分析师宋嘉吉 执业证书编号:S0680519010002邮箱:songjiaji@gszq.com 分析师任鹤义 执业证书编号:S0680519040002邮箱:renheyi@gszq.com 相关研究 1、《通信:国内AI算力的机遇:交换机、服务器与光器件》2023-06-25 2、《通信:光通信的三个强化逻辑》2023-06-17 3、《通信:智源大会群星璀璨,AIGC应用如火如荼》 2023-06-14 请仔细阅读本报告末页声明 内容目录 1.核心观点3 2.AI利剑的“另一刃”:如何信任AI?3 3.ZKML:零知识证明与AI结合带来信任5 3.1.零知识证明:zk-SNARKS、zk-STARK等技术日趋成熟5 3.2.零知识机器学习(ZKML):去信任化的AI6 3.3.启发性案例:验证Twitter推荐排名算法10 投资建议:重视数据要素、算力与网络安全及内容审查板块12 风险提示12 图表目录 图表1:对比GPT-3.5和GPT-4在各项基本测试中的表现,深度习模型的性能正在快速提升4 图表2:对AI信任的三个角度4 图表3:零知识证明的工作原理5 图表4:SNARK、STARK与Bulletproofs等几种主流方案性能对比6 图表5:ZK与AI机器学习结合的思维导图7 图表6:零知识证明用于AI机器学习的几种方式8 图表7:随着模型参数的增加,不同零知识证明系统的表现9 图表8:三款硬件ZK证明计算潜力对比9 图表9:推特“ForYou”推荐功能10 图表10:推特“ForYou”推荐算法主要组件10 图表11:使用基于ZK-SNARK工具的ZKML来审计Twitter推荐模型11 图表12:通过ZKML技术鉴别推特排名模型是否更改11 1.核心观点 随着AI以超乎想象的速度演化,必将引起对AI利剑的另一“刃”——信任——的担忧。首先是隐私方面:AI时代,人类从隐私的角度如何信任AI?也许AI模型的透明度是更为担忧的关键:类似大规模语言模型的涌现能力,对人类来说无异于一个无法看透的科技“黑匣子”,一般用户并不能理解模型是如何运行的、运行结果又是如何获得的(本身模型就充满了难以理解或者预测的能力)——更麻烦的是,作为用户可能并不知道服务商提供的AI模型是否如承诺的那样运行。尤其是在一些敏感数据上应用AI算法和模型,如医疗、金融、互联网应用等,AI模型是否具有偏见(甚至恶意导向)、或者服务商是否按照承诺那样准确无误地运行模型(以及相关参数),成为用户最为关心的问题。 零知识证明技术在这方面有着针对性的解决方案,于是零知识机器学习(ZKML)成为最新崛起的发展方向。本文探讨了ZKML技术的特点、潜在应用场景和一些具有启发性的案例,并对ZKML的发展方向及可能的产业影响做了研究阐述。 2.AI利剑的“另一刃”:如何信任AI? 人工智能的能力正在迅速接近人类,并且已经在许多利基领域超越了人类。最近大型语言模型(LLM)的快速发展表明这些模型变得越来越智能,这些模型完善了算法与人类的重要接口:语言。通用人工智能(AGI)的趋势已经不可阻挡,但就现在的模型训练结果来看,AI可以在数字交互中完美模仿高能力的人类——且在快速的演进中以不可想象的速度达到超越人类的水平。语言模型最近取得了重大进展,以ChatGPT为代表的产品表现惊艳,在大多数常规评估中达到了人类能力的20%以上,当比较仅相隔几个月的GPT-3.5和GPT-4时,使得人类不得不惊叹这种进化速度。但另一面则是对AI能力失控的担忧。 首先是隐私方面。AI时代,随着人脸识别等技术的发展,用户在体验AI服务的同时,时刻都在担心数据泄露风险。这给AI的推广和发展带来了一定阻碍——从隐私的角度如何信任AI? 也许AI模型的透明度是更为担忧的关键。类似大规模语言模型的涌现能力,对人类来说无异于一个无法看透的科技“黑匣子”,一般用户并不能理解模型是如何运行的、运行结果又是如何获得的(本身模型就充满了难以理解或者预测的能力)——更麻烦的是,作为用户可能并不知道服务商提供的AI模型是否如承诺的那样运行。尤其是在一些敏感数据上应用AI算法和模型,如医疗、金融、互联网应用等,AI模型是否具有偏见(甚至恶意导向)、或者服务商是否按照承诺那样准确无误地运行模型(以及相关参数),成为用户最为关心的问题。如社交应用平台是否按照“一视同仁”的算法进行相关推荐?来自金融服务商AI算法的推荐是否如承诺的那样准确、完整运行?AI的推荐的医疗服务方案是否有不必要的消费?服务商是否接受对AI模型进行审计? 简单来说,一方面用户并不知道服务商提供的AI模型的真实情况,同时非常担心模型并非“一视同仁”,AI模式被认为加入一些带有偏见或者其他导向的因素,会给用户带来未知的损失或负面影响。 另一方面,AI的自我演化速度似乎越来越难以预测,越来越强大的AI算法模型似乎越来越超出人控制的可能,因此信任问题成为AI这把利剑的另一“刃”。 图表1:对比GPT-3.5和GPT-4在各项基本测试中的表现,深度习模型的性能正在快速提升 资料来源:Worldcoin官网、国盛证券研究所 需要从数据隐私、模型透明度、模型可控性等角度建立用户对AI的信任。用户需要担心隐私保护以及算法模型是否如承诺的那样准确、完整运行;然而这并非易事,就模型透明度而言,模型提供商基于商业秘密等角度,对模型的审计和监督方面存有顾虑;另一方面算法模型自身的演化并不易控,这一点不可控性也需要考虑到。 图表2:对AI信任的三个角度 资料来源:国盛证券研究所整理 用户数据隐私保护的角度,在我们之前的报告如《Web3.0驱动下的AI和数据要素:开 放、安全与隐私》也多有研究,Web3.0的一些应用在这方面极具启发性——即在完整用户数据确权、数据隐私保护的前提下进行AI模型训练。 但目前市场为Chatgpt这类大模型的惊艳表现而折服,还未考虑到模型自身的隐私问题、算法“涌现”特征的演化带来的模型的信任问题(以及不可控性带来的信任),但另一层面,用户对所谓算法模型的准确、完整和诚实运行一直持怀疑态度。因此,AI的信任问题,应该从用户、服务商和模型不可控性三个层面来解决。 3.ZKML:零知识证明与AI结合带来信任 3.1.零知识证明:zk-SNARKS、zk-STARK等技术日趋成熟 零知识证明(ZeroKnowledgeProof,ZKP)最早由MIT的ShafiGoldwasser和SilvioMicali在1985年一篇名为《互动式证明系统的知识复杂性》的论文中提出。作者在论文中提到,证明者(prover)有可能在不透露具体数据的情况下让验证者(verifier)相信数据的真实性。公共的函数f(x)和一个函数的输出值y,Alice对Bob说她知道x值,但是Bob不信。为此,Alice使用零知识证明算法,来生成一个证明。Bob验证这个证明,确认Alice是不是真的知道满足函数f的x。 举例来说,利用零知识证明,可以不知道小明考试的成绩,而可以知道其成绩是否满足用户的要求——比如是否及格、是否填空题正确率超过60%等等。在AI领域,结合零知识证明,则可以对AI模型有可靠的信任工具。 零知识证明可以是交互式的,即证明者面对每个验证者都要证明一次数据的真实性;也可以是非交互式的,即证明者创建一份证明,任何使用这份证明的人都可以进行验证。图表3:零知识证明的工作原理 资料来源:medium,国盛证券研究所 零知识分为证明和验证两部分,一般来说证明是准线性的,即验证是T*log(T)的。 假设验证时间是以交易数量对数的平方,那么10000笔交易一个块的机器验证时间是VTime=(log210000)2~(13.2)2~177ms;现在将块大小增加一百倍(达到100万tx/块),验证器的新运行时间是VTime=(log21000000)2~202~400ms。因此,我们能看到其超强的可拓展性,这就是为什么说,从理论上tps能够达到无限的原因。 验证是非常快的,而所有的难点就在于生成证明这一部分。只要生成证明的速度跟得上,那么链上验证就很简单。零知识证明目前有多种实现方式,如zk-SNARKS、zk-STARKS、PLONK以及Bulletproofs。每种方式在证明大小、证明者时间以及验证时间上都有自己 的优缺点。 零知识证明越复杂