您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[InfoQ 中文站]:架构师(2022年12月) - 发现报告
当前位置:首页/其他报告/报告详情/

架构师(2022年12月)

2022-12-08InfoQ 中文站胡***
架构师(2022年12月)

架构师 2022年12月刊 本期主编李冬梅 流程编辑丁晓昀发行人霍泰稳 反馈feedback@geekbang.com 商务合作hezuo@geekbang.org 内容合作editors@geekbang.com CONTENTS/目录 热点|Hot 索赔649亿!GitHubCopilot惹上官司,被指控侵犯代码版权,是开源社区“寄生虫”当Rust成为“巨坑”:拖慢开发速度、员工被折磨数月信心全无,无奈还得硬着头皮继续 理论派|Theory “后Hadoop时代”,大数据从业者如何应对新技术趋势带来的挑战?前端又开撕了:用Rust写的Turbopack,比Vite快10倍? 推荐文章|Article 亚马逊将裁员上万人,8年仍难赚钱的Alexa恐面临生死挑战 谷歌计划裁员上万人:利用刚宣布半年的新绩效系统解雇6%“排名垫底”员工 马斯克开始“整顿”臃肿技术架构?Twitter工程师叫板:先拿个学位再来指手画脚,技术专家纷纷表示支持 观点|Opinion 对话iPod之父:这不是互联网最坏的年代 构建长久可持续的良性数据库生态,要有个“打持久战”的准备|对话沃趣科技联合创始人 专题|Topic 火爆出圈,站上风口的数字人到底是什么“人”?|十问大咖 十问物联网操作系统:爆发前夜,国内为何加速涌现多种物联网操作系统? EnvoyGateway会成为网关现有格局的冲击者吗?|专访Envoy创始人 卷首语 作者:李冬梅 作为开源大数据项目的发端,Hadoop兴起至今已经超过十五年。在过去这十数年里,开源大数据领域飞速发展,我们见证了多元化技术的兴起和变迁。 为了从代码托管平台汇聚的海量数据里,通过数据处理和可视化的方式,深刻洞察开源大数据技术的过去、现在和未来,并为企业和开发者在开源大数据技术领域的应用、学习、选型和技术研发等方面提供有益参考,开放原子开源基金会、X-Lab开放实验室、阿里巴巴开源委员会共同发起了「2022开源大数据热力报告」项目。 报告从Hadoop发展的第10年,即2015年起,收集相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。 经过对最活跃的102个开源大数据项目进行研究,报告发现:每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,共发生了5次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。 开放原子开源基金会副秘书长刘京娟表示,报告希望重点对如下人群有所帮助: (1)从事大数据技术研发的企业和开发者。他们可以通过报告,了解大数据技术的发展趋势,从而指引学习方向并提升自身的技能,从技术活跃度的角度为应用开发的技术选型提供一定的参考。 (2)有志于为开源项目贡献代码的开发者。开源大数据细分领域众多、百花齐放, 但也存在一些相对薄弱的环节,比如数据安全和数据管理等,开发者可以从多个细分领域切入,帮助这些领域更好地发展。 (3)开源大数据项目的运营者或者维护者。他们能够从优秀项目的热力发展趋势中,获取经验和规律,从而用更成熟的方式运营开源项目。 对于大数据从业者们来说,开源大数据项目热力迁徙背后的技术发展逻辑是怎样的?大家应该如何应对新技术趋势带来的挑战?针对这些问题,近日InfoQ与阿里巴巴集团副总裁、阿里巴巴开源委员会主席、阿里云计算平台事业部负责人贾扬清,ApacheFlink中文社区发起人、阿里巴巴开源大数据平台负责人王峰(花名莫问)聊了聊。 索赔649亿!GitHubCopilot惹上官司,被指控侵犯代码版权,是开源社区“寄生虫” 作者刘燕 一位20年老开源程序员:GitHubCopilot就是开源社区的“寄生虫”。 GitHub面临集体起诉,索赔647亿 GitHub和它的母公司微软,以及OpenAI,正在面临一项集体诉讼。诉讼案中,广大程序员们指控OpenAI涉嫌违反开源许可。程序员们认为,OpenAI和微软使用他们贡献的代码训练专有AI工具GitHubCopilot。 据悉,该诉讼已提交到美国加州北区地方法院,要求法院批准90亿美元(约649亿人民币)的法定损害赔偿金。 根据集体诉讼文件:“每当Copilot提供非法输出,它就违反第1202条三次,即分发没有(1)注明出处,(2)版权通知,(3)许可条款的许可材料。” “因此,如果每个用户在使用Copilot的整个过程中(早期用户使用Copilot最多长达15个月之久)只收到一个违反第1202条的输出,那么GitHub和OpenAI就违反了DMCA360万次。每次违反的最低法定赔偿金为2500美元,换算后相当于90亿美元。” 集体诉讼文件: https://www.prnewswire.com/news-releases/joseph-saveri-law-firm-and-matthew-but-terick-file-class-action-lawsuit-against-github-microsoft-and-openai-over-violations-of-open-source-licenses-arising-from-github-copilot-an-ai-based-product-301668255.html GitHubCopilot项目启动于今年6月,其功能是向GitHub用户提供代码建议和辅助功能。Codex是由OpenAI开发、并获得微软许可的AI系统,Copilot的各项功能正是基于CodexAI。 OpenAI声称,Codex训练自数百万个公共代码仓库,堪称“代码公平应用的变革性案例”。但GitHub程序员们却对此嗤之以鼻,认为Codex违反了他们的开源许可条款。这些许可证虽然允许各方对代码进行非商业性分发,但却不得修改,而且还有保留原作者姓名在内的其他一些要求。 律师兼程序员MatthewButterick领导了这场集体诉讼行动。 MatthewButterick是一位从业20多年的老程序员。他的自我介绍显示,MatthewBut-terick从1998年起就参与开源软件贡献了,他曾在RedHat工作过两年,发布过不少开源软件,最近,他又成了Racket的贡献者。 今年6月,MatthewButterick写了一篇关于GitHubCopilot法律问题的文章,该文直指GitHubCopilot对开源许可证处理不当的问题。 近期,他决定再推进下一步行动——他重新激活了自己的加州律师资格证书,并力邀约JosephSaveri律师事务所与他一道组织这次集体诉讼。 Butterick在一份新闻稿中指出,Copilot从一开始就明显存在法律问题。“作为拥有多年经验的开源程序员,我在第一次试用时就感受到了其中的问题。而且相信其他很多 开发者也跟我一样,发现Copilot不对劲。结合自身法律背景,我觉得有必要拿起法律武器支持开源社区。” 其他Copilot用户也在自己的社交平台中吐槽,Copilot在所生成的代码中使用了错误的许可证,而且在未进行来源归因的前提下盲目向用户提供版权代码。 面对关于此次诉讼的置评请求,GitHub方面一位发言人表示,他们致力于通过 Copilot开展负责任的创新。 早在2018年微软收购GitHub时,很多用户就对这个全球规模最大的开源社区将走向 何方展开过讨论。微软曾在2000年代和1990年代向开源操作系统Linux发起过一系列攻击,宣称这款系统侵犯了235项微软专利。 原告方律师JosephSaveri表示,他感谢程序员和用户们为这起诉讼做出的努力。他还提到,OpenAI、微软和GitHub绝不可以用这种毫无公平性可言的方式,从开源贡献者的成果中获利。 “此案是针对AI系统在科技行业内引发知识侵权争议的第一步。在本案中,AI系统利用了程序员们做出的开源编程贡献,并将影响到众多创作者。我们就是要代表这些创作者们的利益,确保AI开发企业必须遵照法律要求行事。” 此次诉讼表明,程序员、艺术家等群体越来越关注AI系统在未经许可之下使用他们的代码、作品或其他数据的问题。图形生成类AI工具(包括DALL-E和StableDiffusion等)就在使用算法从互联网上抓取数十亿条数据,且完全没有考虑过任何许可或所有权限制。正是由于这种版权归属争议的存在,Shutterstock和GettyImages等公司才禁止在其平台上使用AI生成图像。 Butterick声称,微软将开源代码训练而成的Copilot作为商业产品提供给程序员的行为,不仅侵犯了开源代码版权,也打击了人们参与开源社区的热情。Butterick因此认为,微软这种将开源代码与开源社区强行割裂的行为,有违开源编程精神。 Copilot的问题在哪? 此前,MatthewButterick还开设了一个专门针对GitHubCopilot的调查网站,调查收集GitHubCopilot违反其对开源作者和最终用户的法律义务的线索。 MatthewButterick认为,总结而言,Copilot在系统训练与系统使用方面都存在法律问题。 (备注:以下论断仅代表MatthewButterick个人观点) 系统训练 绝大多数开源软件包是在授权许可之下发布的,在授予用户一定权利的同时也要求 其承担一定义务(例如保留源代码的精确属性)。而这种授权的合法实现方式,就是由软件作者在代码中声明版权。 因此,要想使用开源软件,大家就必须做出选择: 要么遵守许可证所规定的义务;要么使用那些属于许可证例外的代码(即版权法所规定的「合理使用」情形)。微软和OpenAI已经承认,Copilot和Codex就是由GitHub上开源软件的公共repo训练而成。所以在这两条路里,他们到底要走哪条? 如果微软和OpenAI决定基于各repo的开源许可来使用这些训练素材,那就得发布大量属性(attribution),这已经算是各类开源许可的底限要求了。但截至目前,我们还没有看到任何属性声明。 这样一来答案就明确了,微软和OpenAI必须找到“合理使用”的理由。GitHub前CEONatFiredman就曾在Copilot的技术预览会上提到,“在公开数据上训练(机器学习)系统属于合理使用的范畴。” 但真这么简单吗?对于这种法律问题,可不是说属于就属于的。当然,微软、OpenAI和其他多家研究机构一直在强调这种“合理使用”的论点。NatFiredman还曾放话说,作为“机器学习社区所广泛依赖的”依据,这种“合理使用”办公室有其“法理基础”。然而,软件自由保护组织(SFC)明显不同意他的观点,并要求微软方面提供能支持其立场的证据。 保护组织负责人BradleyKuhn指出:我们曾在2021年6月私下询问过Firedman和其他几位微软/GitHub代表,要求他们为GitHub的公开法律立场提供可靠的参考依据……但他们什么都拿不出来。 为什么微软拿不出支持立场的法律依据?因为保护组织说得没错:他们根本找不出依据来。尽管一些法院已经考量过相关问题,但目前全美还没有哪个判例能够直接解决AI训练中的“合理使用”问题。 另外,所有涉及“合理使用”的案例均权衡了大量相关因素。即使法院最终判定某些类型的AI训练属于“合理使用”,也不代表其他类型的训练就能无脑照办、高枕无忧。就目前来看,我们还不知道Copilot和Codex到底合不合法,微软和OpenAI其实也说不准。 系统使用 虽然没法确定“合理使用”最终要怎么在AI训练中落地,但可以想见,其结果并不会影响到Copilot用户。为什么呢?因为用户只是在使用Copilot提供的代码,而这部分代码的版权和许可状态同样模糊不清。 微软倒是有自己的说法。2021年,NatFriedman曾声称Copilot的输出结果归属于操作者,其性质与使用编译器一样。但Copilot已经暗暗给用户

你可能感兴趣

hot

架构师(2015年12月)

InfoQ 中文站2015-12-13
hot

架构师(2021年12月)

InfoQ 中文站2021-12-08
hot

架构师(2019年12月)

InfoQ 中文站2019-12-08
hot

架构师(2018年12月)

InfoQ 中文站2018-12-08
hot

架构师(2017年12月)

InfoQ 中文站2017-12-07