开源AI革命 赞助 开源AI革命2 关于论文 这份由《经济学家影响》撰写并由Meta赞助的白皮书,概述了开源方法在人工智能(AI)领域的价值主张,覆盖了三个关键领域,同时强调了潜在的限制和障碍。《经济学家影响》进行了广泛的一手研究和访谈计划来编写此报告。 经济学家Impact希望感谢以下专家分享他们的时间和专业知识: •,社会领导,斯坦福基金会模型研究中心RishiBommasani ·斯坦福大学人工智能指数指导委员会联合主席雷·佩罗 •,应用数据科学和人工智能的杰出服务教授,亨氏学院的AnandRao卡内基梅隆大学信息系统与公共政策 •首席执行官,GrammarlyRahulRoy-Chowdhury, •云原生计算基金会执行董事PriyankaSharma 本报告由一组内部研究人员,作家,编辑和设计师组成,包括: •项目总监VaibhavSahgal •,项目经理EdwinSaliba •,作家亚当·格林 •,拷贝编辑器AmandaSimms ©经济学家影响2024 Contents 4执行摘要 6第1章:访问 1.1解决偏见,毒性和危害1.2语言多样性1.3限制和障碍恶意使用资源限制 11第二章创新与经济增长 2.1推动科学前沿2.2提高生产力2.3地方化运营2.4限制与障碍量化价值失败的成本 第3章透明度和信任 3.1许多人关注3.2业务报告的透明度3.3限制和障碍数据质量的清晰度和共识 19结论 20尾注 执行摘要 免费开源软件的早期起源可以追溯到20世纪60年代,但直到20世纪90年代末,这个术语才被创造出来。1自那以后,开源从边缘走向主流,驱动着我们生活中的数字基础设施,从代码到云服务。2Linux操作系统,于1991年发布,如今驱动着全球排名前500的超级计算机,占据了90%的云基础设施市场,以及85 %的智能手机。3 生成式人工智能(AI)革命标志着一段悠久历史的新篇章;2023年发布的三分之二大型语言模型(LLMs)为开源版本,并且出现了工具以帮助开发人员基于开源基础模型设计和构建应用程序生态系统。4,5政府已经在从Covid追踪器和投票系统到完成税务申报的聊天机器人等各个方面尝试了开源AI。6 自从ChatGPT问世并使AI获得了广泛的吸引力以来,开源基础的重要性比以往更快地成为了行业术语,"云原生计算基金会(CloudNativeComputingFoundation)的执行董事PriyankaSharma表示。"最令人兴奋的是人们对开源的认识水平以及它在AI运动中至关重要的程度。" 倡导者认为,开源可以促进对AI的访问 ,支持研究,并促进 创新与经济竞争力的提升,以及加强安全、透明度、隐私和信任。更加民主化的生态系统通过扩大强大技术的分布范围来促进多样性和包容性。然而,这也存在限制、障碍和潜在风险 。开源模式仍需时间、专业知识和资源进行微调和适应。用户需要获取高质量的数据以确保最佳性能,对于较小实体而言,这可能比已建立的封闭源开发人员更具挑战性。开源工具可能会被不法分子以难以管理和追踪的方式使用和修改。《经济学人影响》报告,由Meta赞助 ,评估了开源AI的优势和不足,并探讨了其在未来AI生态系统的角色。 主要发现 开源可以促进民主化更多的开放模式允许用户询问 人工智能、数据、权重和设计的使用,以识别偏见并适应其需求,包括文化与语言的适宜性 。开源开发者也在创建和共享工具,以支持生态系统内的构建者开发负责任的人工智能。然而,开源AI模型也可能被不法分子利用,例如生成有毒或有害的内容。 内容涉及网络犯罪。此外,尽管由于小型语言模型等创新的出现,进入门槛正在降低,但财务、技术和资源限制可能阻碍较小公司以及学 这是由于非法使用人工智能或意外违反合规性造成的。 术界或公共部门的实体充分利用开源模型。开源模型受到持续的同行评审,提升可靠性和 安全性,并支持数据透明度。开源可以促进 改进和共享,推动创新与协作发展。 整体经济对AI的信任通过允许用户质疑和测试 系统,并通过本地化和现场使用实现更安全的 5 从国际科学合作到商业生产力,组织正在从开放性中获得经济利益。通过促进合作,开放性促进了生产力的提升。 开源AI接入模型正在推动科学研究,特别是在医学和生物学领域。在公司层面,企业迅速整合了符合其需求的AI工具,得益于通用框架和提供集成支持的供应商池。在国家层面,生产力提升可能帮助国家找到新的经济竞争力和增长来源,并支持发展解决本地相关问题的创新生态系统,尤其是在发展中国家。然而,很少有估计能描绘开源AI的经济影响。公司在任何给定项目中通常使用多个模型,而从定义上讲 ,开源在使用方面难以追踪。也可能存在经济不利因素,例如,公司面临操作风险,如选择不最优的开源模型或微调技术,这可能会损害其性能或声誉。还有逆向趋势的问题,比如数据获取成本上升,以及潜在的罚款和损失的风险。 数据处理,以此来提升。然而,为了兑现其承诺,即提供更加可靠和透明的模型,开源生态系统中的所有参与者都需要采纳数据获取和管理的最佳实践。尽管数据治理挑战并非仅限于开源领域,但随着更多实体能够开发AI系统,包括小型组织,可能存在更大的风险,导致错误做法和失误。 实现开源人工智能的全部潜力需要行业与政府之间的合作;积极的支持以确保所有用户都能充分受益;并设立一个领导机构来制定标准、定义和治理规则。某些参与者可能缺乏必要的资源和能力,因此需要适当的扶持和指导以充分利用这一技术。 充分利用开源AI的原则工具。行业和政府可能在支持大学或小型公司在计算和适当工具领域 ,从实验到规模化方面发挥角色。此外,一个全球性的实体可以助力制定共同的标准和治理框架,汲取世界万维网联盟等组织的经验。 第1章:访问 根据开放源代码倡议组织(OpenSourceInitiative,OSI)的观点,开放源代码人工智能提供了四种“自由”:研究、修改、使用和共享。它允许任何用户在无需获得许可的情况下使用AI系统,探究其内部结构,修改系统,并根据自己的特定需求与其他人员分享。7这允许各行各业的开发者和用户精炼和迭代模型与算法,并将其应用于多样的商业、个人和社会目标。但访问也是一把双刃剑,因为同样的工具也可能被恶意行为者利用。 第一章研究了这些因素如何在特定领域发挥作用,以及它们的局限性和障碍。 1.1应对偏见、毒性和危害 AI训练数据、权重(决定模型输出的参数)或模型设计中的偏见可能导致不公平或排除性结果。这是关键问题所在,因为模型输出可以为刑事司法和金融信贷等敏感领域的决策提供依据。开源模型可能更抗偏见,因为更多的用户 ,提供了更多批判性的视角,能够识别风险和脆弱性。“使技术系统变得更加坚固的最佳方式就是将其暴露在阳光下”,Grammarly公司的CEORahulRoy-Chowdhury如是说,Grammarly是一家企业通信公司。 “硬化的最好方法技术系统是 把它暴露在阳光下”。 RahulRoy-Chowdhury,Grammarly首席执行官 组织机构也在构建开源工具,帮助他人应对AI偏见问题。Grammarly曾面临语言模型(LLM )生成不适当内容建议的挑战,原因在于语境不足。例如,在撰写感谢信时,积极的语言通常是个明智的选择,但在哀悼信的语境中则不然。Grammarly开发了一个名为Seismograph的语言敏感度工具,用于识别和分类需要谨慎处理的文本;它能检测到敏感情况,并限制可能引发冒犯性内容的生成。8该公司作为开源倡导者之一,发布了Seismograph供公众使用。“我们希望通过Seismograph这样的项目为生态系统做出积极贡献。因为这些是公开的,它们可以不断变得更好。”Roy-Chowdhury先生如是说。 EleutherAI,一个草根合作项目,发布了Pythia ,这是一个公开可用的工具套件,用于检查LLMs中的偏见。9为了确保工作的可重复性,团队使用了免费且公开可用的代码库(开源的GPT-NeoX和DeepSpeed库)进行训练。该平台包含16个在公共数据上训练的可公开访问的大型语言模型(LLM),每个模型有154个检查点,允许研究人员在训练过程的不同阶段研究模型。修改预训练数据的能力提高了模型在性别偏见领域的性能。10其他开源偏见工具包包括IBMAI公平性360,它允许用户在整个AI应用生命周期中检查、报告和减轻机器学习 (ML)模型中的歧视和偏见。11 与健康互联网的承诺,Mozilla关于开放和可访问互联网的宣言。13该组合包括Themis ,它开发了软件来帮助ML模型识别不可靠的输出,以及Truepic,它正在构建工具以验证内容并限制AI修改图像中错误信息的传播。14 1.2语言多样性 在线内容以英语语言为主导导致了AI模型的语言偏见,这些模型通常基于英语训练,因此在英语上表现更好。LLMs在“资源丰富”的语言上表现更佳,因为其他语言的训练数据相对较少 。ChatGPT-4在英语的问答测试中得分为85% 5 ,而泰卢固语(印度方言)的得分仅为62%。1 尽管开源AI训练数据集中有57%是英文的, 开源组织也可以通过将自身资源导向创新者来应对AI生态系统中的偏见,这可以从Mozilla.ai这一举措中得到证明,该举措源自创建了Firefox浏览器的组织。12Mozilla基金会成立了MozillaVentures,支持早期阶段 但已有举措旨在提升语言表述的准确性(见图1 )。16一个更加开放的AI生态系统可能能够加深对盎格鲁主导领域中更大语言代表性支持的理解。 图1:AI数据集的语言划分 1% 1% 2% 德语 2% 西班牙语 2% 日语 2% 韩语 3% 俄语 3% 法语 6% 中文 21% 其他语言 57% English 2024年,按语言划分的拥抱脸上的开源AI训练数据集的细分 资料来源:经合组织,p3817 葡萄牙语印尼语 图2:2011-23年按地理区域划分的GitHubAI项目(占总数的百分比) 美国欧盟和英国印度中国世界其他地区 70% 60% 50% 40% 30% 20% 10% 0% 37.09% 22.93% 19.01% 17.93% 3.04% 2011201220132014201520162017201820192020202120222023 来源:AI指数报告23 各家公司已经在修复这种失衡。印度初创公司SarvamAI对美国软件公司HuggingFace的开源模型架构进行了修改,以便将其训练为使用印地语。18 莱拉帕,一家南非公司,正通过其Vulavula模 型寻求提高南非语言中AI服务的可访问性。19卡塔尔通讯与信息技术部正在领导一个多利益相 关方的合作,旨在开发一个基于开源原型的阿拉伯语LLM,名为Fanar。20该模型基于伊斯兰科学、法律文件、艺术、文化、视听和媒体内容的组合数据进行训练。21 中东地区的另一个具有影响力的项目是JAIS70 B,一个阿拉伯法学硕士项目,旨在支持遗产、文化和语言,并为讲阿拉伯语的国家提供人工智能基础。22由于平台如GitHub(一个开发者平台)的可用性,全球范围内对开源AI项目的参与度出现了增加迹象(参见图2)。 1.3限制和障碍 恶意使用 由于开源AI提高了所有人的访问权限,因此也可能被恶意行为者用于执行犯罪或有害行为,例如构建生物武器、发起复杂网络攻击、制造误导信息或有毒内容(如未经同意的私密图像 4 )。从定义上讲,开源模型无法被限制,因为它们沿袭了原始开发者设定的护栏向下流动。2 但开源AI带来的边际风险取决于用例。 开源与闭源的风险比较取决于威胁程度。斯坦福研究中心社会领域的负责人RishiBommasani指出:“我们清楚地看到了开放模型在儿童性剥削和非自愿亲密影像领域存在逐步增加的风险 。” 基于基础模型。"开放权重、文本和图像模型显著增加了网上的此类图像数量。"但对于生物武器,目前还没有证据显示。此外,斯坦福大学人工智能指数指导委员会共同主席雷·佩