您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ANACONDA]:2022年数据科学状况(英) - 发现报告
当前位置:首页/其他报告/报告详情/

2022年数据科学状况(英)

2022-09-20-ANACONDA李***
2022年数据科学状况(英)

的状态 数据科学 为创新铺平道路 执行摘要 今年,我们进行了数据科学状况调查,以收集有关我们社区的人口统计信息,确定该社区的运作方式,并收集对社区内最重要的重大问题和趋势的见解。 随着COVID的影响继续存在并融入我们的新常态,我们决定不再在报告中涵盖COVID主题,而是专注于数据科学、机器学习(ML)和人工智能(AI)中更具可操作性的问题)行业,如开源安全、人才困境、道德和偏见等等。 本着使数据民主化的精神,我们正在原始数据来自我们通过 AnacondaNucleus向公众提供的2022年数据科学现状调查。 2022年数据科学报告 目录 01/方法 02/数据科学的面貌 08工作中的数据专业人员 21企业采用开源28Python的流行度31数据工作和工作的未来 37大问题和趋势 43关键要点和反思 2022年数据科学报告 方法 2022年4月25日至2022年5月14日,来自133个国家和地区的3,493人参加了我们的在线调查。受访者来自Anaconda电子邮件数据库、Anaconda.org、社交媒体和其他来源。他们有机会参加抽奖活动,作为完成调查的奖励,调查完成后随机选出五名获奖者。受访者分为三个不同的轨道:学生、学者和在商业环境中工作的人。每个不同的群体都被问到一些普遍的问题,而一些问题对于每个群体的经历都是独一无二的。在报告中,我们指出响应是来自整个受访者集还是来自一个子集。 注:所有百分比均四舍五入至最接近的整数百分比。由于四舍五入,一些数字可能不等于100。 2022年数据科学报告01 数据科学的面貌 与往年一样,我们以一系列人口统计问题开始我们的调查。我们的受访者跨越了广泛的地理位置、年龄和工作职能,并且每年捕获他们的人口统计信息可以深入了解数据科学社区的发展方式。 2022年数据科学报告02 来自133个国家和地区的3,493人参加了我们2022年的调查。 15% 40% 7% 3% 12% 8% 12% 3% n=3,493 北美 欧盟/中亚南亚 拉丁美洲 撒哈拉以南非洲东亚/太平洋 澳大利亚/新西兰中东/北 非 受访者年龄受访者性别 7% 58-67 婴儿潮一代 4% 68+ 婴儿潮一代 19% 76% 男人 2% 非二进制 18-25 Z世代 23% 女士 23% 42-57 X世代 47% 26-41 千禧一代 n=3,493 我们的受访者倾向于年轻一代。在3,493名受访者中,66.54%是Z世代(19.47%)或千禧一代(47.07%)。与2021年相比,我们看到X一代的受访者增加了约5%。只有10.48%的受访者年龄在58岁或以上。 n=3,493 来自我们受访者的性别数据支持了社区在男性主导的STEM领域中继续看到的情况。在增加性别多样性方面,整个行业显示出改进的空间。 受访者教育等级受访公司类型 57% 20% 1%6%12%35%33%13% 商业(营利性)实体 教育机构 没有高中文凭或同学位等学历 某大学学士学位硕士博士学位 n=3,493 我们的大多数受访者都受过良好的教育。80.71%至少拥有大学学位,拥有高级学位的受 访者人数同比增长约12%。19.29% 11% 11% 政府机构非营利组织 的受访者不持有任何程度。n=2,924 受访者主要工作职能 当前的职业环境包括各种各样的以数据为中心的角色,并且工作职能之间经常存在重叠——在某些情况下,个别职位适用于多项任务。考虑到这一点,我们要求受访者选择最能反映其工作职能的角色。16.46%的受访者是数据科学家。与2021年相比,今年有更多的数据 科学家(5%)和更少的学生(-13%)做出了回应。 商务专业 数据科学 教育 业务分析师产品经理业务线经理 数据科学家数据工程师机器学习工程师 学生教授/讲师/研究员系统管理员云工程师 8% 4% 3% 16% 8% 2% 14% 9% 其他 科学家们 云安全管理器CloudOpsMLOps DevOps 运营 3% 其他开发商 研究科学家应用科学家 1% 1% 1% <1% <1% 11% 8% 8% 3% n=3,493 受访者当前工作级别 大多数(33.93%)受访者担任高级职位,比2021年增加9%。担任入门级职位的受访者比例下降了5%,拥有VP级或C级职位的受访者比例套房位置减少了约7%。 17% 联系 4% 高管/所有者7% 导向器 2% 副总裁 10% 入门级 22% 经理 34% 高级的 5% 主要的 n=1,966 工作中的数据专业人员 我们的大多数受访者都在商业环境中工作。我们深入研究了他们的反应,以确定数据专业人员在其组织中的位置,他们的支出方式 他们的时间、他们使用的工具以及他们面临的最重大挑战。 2022年数据科学报告08 各行各业的公司——从政府到 电信 从非营利组织到制药——依靠数据驱动的角色。 在我们的调查中,排名前五的行业是技术、金融、咨询、医疗保健、 和汽车。 09 受访者行业 技术 11% 防御 3% 金融 9% 专业的服务 3% 咨询 8% 电信 3% 卫生保健 5% 保险 3% 汽车 5% 媒体 2% 政府 5% 运输和物流 2% 研发(R&D) 5% 农业 2% 电子产品 5% 食品与饮品 2% 制造业 5% 其他 1% 工程 5% 非营利组织 1% 建造 4% 制药 1% 活力 4% 娱乐 1% 教育 3% 款待 1% 零售 3% 实用程序 1% n=1,966 2022年数据科学报告 公司规模 1-200 201-1,000 1,001-3,000 3,001-5,000 5,001-10,000 10,001+ n=1,966 29% 26% 15% 8% 7% 15% 55.14% 的受访者为拥有1,000名员工的公司工作 员工或更少。 10 2022年数据科学报告 你的角色属于哪个部门? 数据角色在组织中的什么位置?简短的回答是:无处不在。更长的答案是, 这取决于具体的组织.有时会有一个完整的以数据为中心的团队;其他时候 ,数据科学家在财务甚至营销等其他部门工作。 我们的大多数商业受访者(24.47%)在数据科学部门工作,而22.89%在研发部门工作,18.01%在信息技术(IT)部门工作。 24%23%18%15%11%5%4% 数据研发它运营其他金融中心科学卓越 n=1,966 数据科学家如何度过他们的时间? 数据专业人员将时间花在需要各种技术和非技术技能的各种任务上。受访者表示他们将大约37.75%的时间花在数据准备和清理.除了准备和清理数据之外,解释结果仍然很关键。数据可视化(12.99%)和通过报告和展示展示数据的价值(16.20%)是使数 据具有可操作性和为关键问题提供答案的重要步骤。 使用模型通过选择、培训和部署大约需要受访者26.44%的时间(-8.56%YoY)。 22%16%16%13%9%9%9%7% n=1,966 数据准备 报告和演示 型号选择 部署模型 数据清理 数据可视化 模型训练 其他 我们询问了受访者他们在上述任务上花费了多少时间,并为每个项目输入了一个数字,反映了相对于其他选项花费的时间百分比 。这是报告百分比的平均值。 数据科学和机器学习措施和工具 您的组织内正在使用以下哪些工具? 鉴于我们的调查样本,46.83%的商业受访者表示他们的组织目前使用Anaconda也就不足为奇了。组织目前使用的其他流行工具包括GitHub(44.94%)、RStudio*(33.33%)、StackOverflow(31.57%)和Tableau(30.65%)。 15%23%28%17%17% 10%21% 24% 21%24% 47% 15%21% 6% 11% 20% 23% 27%14% 17% 11% 17% 24% 25% 24% 9%15%22%28%26% 16%20%27%20%17% 9% 18% 24% 25%23% 12% 16% 26%24% 23% 6% 18% 24% 27% 25% 8%16%23%28%25% 45%17%21%7%10% 20%23%26%16%16% 23%19%24%17%18% 25% 19% 24% 15% 18% 10% 19% 22% 25%25% 11%17%27%21%24% 10%16%23%26%25% 10% 15% 22%26%26% 10%17%22%25%26% 13% 19% 24% 22%22% 8%18%22%27%24% 35%18%21%11%14% 33% 19%22% 11%14% 8%18%24%26%24% 20%16%22%18%23% 15% 19% 26% 19% 21% 32%17%21%14%16% 31%17%24%12%16% 11%16%24%27%22% 67% 7% 9% 15% 2% AWSAlteryx蟒蛇AzureML云时代CometDatabricksDataikuDataRobotDomino探索GitHub谷歌人工智能谷歌谷歌H20IBM沃森蛙蛙刀旁观者MLFlowNexusPowerBIRStudioRapidMinerSAS雪花堆栈画面重量其他 SagemakerStudioCDSW平台BigQueryColab工作室神器声型溢出&偏见 ●目前使用●计划利用●有兴趣●我不是当然●不感兴趣 *请注意,在我们的调查结束后,RStudio更名为Posit。n=1,373 25% 31% 24% 数据科学和机器学习措施和工具 您或您的机构使用哪些措施或工具来确保数据集和模型的公平性并减轻偏见? 在我们的2021年数据科学状况报告,大约40%的受访者表示,他们的组织已经或计划在接下来的12个月内实施确保公平和减少偏见的措施。 今年,我们想深入了解组织现在为确保公平和减少偏见而采取的具体步骤。最常见的步骤是根据内部设定的标准评估数据收集方法(30.61%),第二常见的步骤是手动评估数据集的公平性和偏见(24.84%). 的受访者表示,他们的组织没有围绕/没有实施措施或工具来解决数据集和模型中的公平和偏见缓解问题,14.89%的受访者不确定他们组织的努力。 我们根据以下评估数据收集方法内部设定标准 我们手动评估数据集的公平性和偏见 我们没有数据集和模型中的公平和偏见缓解标准/目前没有 19% 我们执行一套统计公平测试 15% 我们有一个卓越中 心 15% 我不确定 n=1,578 28% 35% 30% 数据科学和机器学习措施和工具 您或您的机构使用哪些措施或工具来解决模型的可解释性和可解释性? 在我们的2021年数据科学状况报告,约41%的受访者表示他们的组织已实施或计划在接下来的12个月内实施解决模型可解释性的步骤。 今年,我们想深入研究组织现在为解决模型可解释性而采取的具体步骤。最常见的步骤是执行一系列受控测试以评估模型 可解释性(35.36%),第二个最常见的步骤是确保模型结果适用于测试样本中的所有相关组和处理(即,没有樱桃采摘数据)(30.23%). 23.76%的受访者表示他们的组织没有使用任何措施或工具来确保模型的可解释性或可解释性,16.41%的受访者不确定他们组织的努力。 我们执行一系列受控测试来评估模型的可解释性 28% 我们使用统计推断测试来评估变量保真度 模型结果必须适用于测试样本中的所有相关组和处理(即没有樱桃采摘数据) 24% 我们目前不使用任何措施或工具来确保模型的可解释性或可解释性 我们只使用 低风险场景中的低可解释性模型 16%