海洋数据和AI用于物种保护 1 Abstract. 问题同时也是我们的动机是海洋中物种多样性的丧失 ,这通常也被称为“隐形死亡”。通过我们的方法,我们追求的目标是使这种死亡可见并因此可预防。为了使海洋中的事件可见,我们需要根据海洋识 别模式 深度,然后识别这些模式的偏差。通过挪威研究所Lofoten-Vesterlen,我们正在分析海洋数据,以帮助检测异常。这应该能够更好地理解海洋生态系统。这应该有助于识别人类干预自然的后果,例如鱼类种群减少。 1月1日物种保护的海洋数据和AI20222 Introduction 对生态系统的准确观察可以进行详细的海洋学研究,从而可以借助人工智能(AI)在大量数据中发现异常。 Lofoten-Vesterlen(LoVe)海洋天文台位于挪威北部的HovdenVesterlen以西。它位于生态,地质,海洋学和经济“热点”中。海底电缆网络和 七个传感器节点覆盖了从大陆到深海的横截面。它包括一个陆基站和七个传感器平台,覆盖了从海平面到200米深度的梯度。该系统不断提供关于挪威北部海洋环境的有价值的在线数据,自2013年以来一直活跃。 该系统既是国家研究基础设施,基础和应用研究,也是测试基础设施 ,行业合作伙伴可以在其中测试新的水下传感器和技术。多年来,Lofoten-Vesterlen海洋天文台收集了超过100TB的传感器数据(温度 ,电流,回波图)。 Theteam 托马斯·拉姆 是Capgemini的软件工程师。他创建了初始基础架构和GitHub集成。 MajedAlaitwni 是一名软件开发人员。他的学士学位论文的重点是用于海洋测量数据中异常检测的交互式可视化。他创建了可视化。 GeirPedersen 是LoVeOcean海洋天文台的研究员,并支持挪威方面的项目。 汤姆·哈顿 他是一名数据科学家,他的硕士论文探索了在高维海洋测量数据中使用无监督AI模型进行异常检测。他继续开发AI模型。 SophieBader 是一名专门从事海洋生态系统的分子生物学家,也是一名软件开发人员。她协助基础设施。 穆斯塔法穆斯塔法 是Capgemini的一名软件开发人员。他做过规划工作 ,并帮助设计了原始的AI模型。 丹尼尔·弗里德曼 是Capgemini的软件开发人员。他是容器化和Docker方面的专家,并为项目提供内容支持。 NilsOlavHandegaard 是LoVe海洋天文台的研究员。他的研究重点是将新方法和数据处理技术应用于海洋生态学和渔业海洋学领域。 EldarSultanow他是Capgemini的企业架构师总监。他的主要重点是现代软件架构、数字化和企业架构管理。他 在初始阶段与ThomasRamm一起开发了代码,现在是该项目的主管并监督研究工作。 3 2022年10月I日物种保护的海洋数据和AI OceAIn是为参加凯捷2021年全球数据科学挑战赛(GDSC)而创建的团队名称。OceAIn的目标是开发一种AI模型,该模型可以使用海洋传感器收集的时间序列数据对生态系统的季节性相关模式进行新的了解。这应该有助于建立更好的模型并了解我们星球的气候。 AI模型处理从大陆到深海的横截面数据。它们由四个不同的传感器收集, 这些传感器使用科学的回声测深仪测量(1)特定区域的定向脉动声音 ,(2)所谓的水听器, 即记录环境中声音的水下麦克风,(3)使用多普勒效应检测洋流的速度和方向的声学多普勒(ADCP),最后,(4)提供实时物理,生物和化学观测的点传感器。 识别重复的季节模式和异常使科学家能够更好地监测海洋环境。这涉及对异常及其影响因素的广泛探索和绘制 从更大的图景中得出的结论,例如鱼类种群的差异,当前模式的变化或气候变化的影响。 虽然大量的原始数据很难手动处理,并且结果在过程中很容易出错,但人工智能模型允许过滤这些数据以获取相关事件。此外,人工智能还可以连续分析传入的数据,从而向研究人员提供数据流。 ArchitekturdesSystems即使AI模型是OceAIn的核心,也有其他组件组成平台。我们的下一个目标是使它们根据云原生架构概念协同工作,这将创建一个面向未来的灵活数据管道。该研究所提供的原始数据将被收集在一个 步骤,并在下一个步骤中进行清理和转换。这些步骤将在Docker容器中使用每种类型的数据 (水听器,生物质检测等)在每个步骤中都有自己的容器。容器的协作定义在 表1.基线模型的结果 MODEL F1评分 PRECISION 召回 MACROAVGF1 永远为真 1.00 0.30 0.47 0.23 总是假 0.00 0.00 0.00 0.41 均匀随机 0.54 0.40 0.46 0.58 分层 0.17 0.21 0.19 0.44 ApacheAirflow,它遵循“配置为代码”原则。Airflow允许使用DAG(有向无环图)定义基础设施。值得一提的是,Docer容器实际上是由Kberetes管理的,而Kberetes又由Airflow定义。最后,转换后的数据以CSV文件的形式保存。它们由AI处理以检测异常,这些异常通过交互式Web界面以图像文件的形式与数据一起显示。 AI模型的实现OceAIn包括一个AI模型,用于检测海洋数据中的异常。AI模型的传感器数据在信息类型和持续时间上都是高度可变的。此外,某些类型的异常只有在数据点从一开始就被认为是互连的情况下才能检测 到。 最初的想法是专注于可以处理不同类型数据的单个模型,然后将单独的模型组合起来。由于数据的多样性,这种方法显示出一些缺点,例如在聚合单个模型时增加了复杂性。 1月1日物种保护的海洋数据和AI20224 最终流行的想法是使用深度学习神经网络来分析所有数据的整体异常。起初,应该使用无监督模型,但事实证明这种方法不可行。 使用无监督AI模型的优势在于,这些模型的训练不依赖于标记的训练数据(异常与正常)的存在。 然而,这些模型极易受到数据噪声和腐败的影响[1]。底层海洋测量数据也受到这些特征的影响,这些特征因其整体尺度性质和伴随它们的高数据维度而进一步加剧。 研究人员对标记数据的贡献使有监督的AI模型得以使用。基本上,有监督的AI模型优于无监督的AI模型 异常检测中的对应方,因为它们特别能够检测特定于应用的异常[2]。为了稍后检查无监督模型的性能,首先创建了四个基线模型,其结果 每个隐藏层中的一维卷积,其中滤波器的数量由超参数确定。第二种架构使用所谓的LSTM层,第三种是完全连接的自动编码器。 重建清洁数据 完整数据 密集 lstm conv lstm conv 密集W32 HL40040密集W32HL40040v2密集W8HL40040204 lstmW32HL10040204lstmW32HL10040204v2 密集W16HL10040204密集W32HL10040204高密度W32HL2000100010040204密集W32HL40040密集W32HL40040v3 lstmW32HL10040204lstmW32HL10040204v2lstmW32HL40lstmW32HL40010010lstmW32HL643216lstmW8HL10040204 convW16HL100010010convW16HL10004001004convW16HL10040204convW32HL10040204convW64HL10040204 表2.所有重建模型的结果 可以在1中看到。这些是评估机器学习模型的常用工具,并且是分类问题的幼稚解决方案。 通过将真实模型的结果与基线模型的结果进行比较,可以得出关于真实模型正确性的结论。在这里使用的基线模型中,一个总是分类为假 ,一个总是分类为真,一个将数据集在真和假之间分成两半,最后一个根据它们的标签对数据进行分层。 在模型开发过程中,创建了两种类型的模型。这些是基于重构的模型和预测模型。对于前者,创建了三种不同的微体系结构。第一种使用 2022年10月I日物种保护的海洋数据和AI 预测模型也分为三类。这些也是LSTM和完全连接的隐藏层,以及使用卷积和最大池化的架构。模型的命名遵循固定的模式。首先,指定模型对应的体系结构方案。然后给出一个“W”和一个数字,它表示窗口大小 。因此,“W32”描述了窗口大小为32的神经网络。接下来是其他数字,表示隐藏层的大小。可选地,最后还有一个版本号,它指示在第一个实例中提供了有希望的结果的模型,这就是为什么它们运行多次的原因。由于模型描述。 上面不要在自己检测异常,还有另一个 正是为此负责的组件。这些模型的结果是清醒的。几乎没有任何模型可以超过0.5的F1评分,这意味着它们不优于具有随机划分值的基线模型 。实际上,只有一种型号“lstmW32HL128128128”可以(最低限度 )超过此限制。所有测试的模型都可以在表2和表3中看到,而4显示了不同类型模型的平均结果。 无监督模型相对较差的结果有几个原因。数据本身相当不适合无监督模型。差距、噪声和数据损坏极大地降低了无监督模型的结果。 5 表3.所有预测模型结果 重建清洁数据 完整数据 密集 lstm conv 密集W32HL256*5v2 lstmW32HL128128128128 convW32HL128128128128convW32HL128128128v2转换W32HL323232 lstmW32HL128转换W32HL321281283232 表4.所有模型类型的平均结果 MODEL QUANTILE F1评分 重建密集的干净数据 0.73 0.43 0.34 0.73 0.41 重建lstmcleandat 0.85 0.41 0.41 0.67 0.4 重建完整数据 0.85 0.46 0.38 0.68 0.5 重建密集的全数据 0.85 0.28 0.32 0.39 0.46 重建lstm完整数据 0.85 0.4 0.33 0.62 0.46 预测转换干净数据 0.85 0.47 0.32 0.9 0.35 预测密集的清洁数据 0.73 0.48 0.32 0.95 0.33 预测lstm干净数据 0.73 0.48 0.32 0.98 0.3 预测lstm完整数据 0.73 0.47 0.31 0.94 0.31 预测conv完整数据 0.85 0.47 0.32 0.95 0.33 1月1日物种保护的海洋数据和AI20226 此外,数据集是高度维度的,大量传感器同时收集信息。数据集越复杂,训练人工智能模型产生正确结果的难度就越大。据推测,我们的模型会 如果数据不那么复杂,会产生更好的结果。另一个问题是我们的计算能力有限。模型的压缩比很高,因为添加更多层将需要更多的计算时间,这是不可行的。最后,应该提到的是,尚未进行广泛的超参数优化。这可能意味着模型本身实际上比假设的要好。 清单1.异常检测模块的代码片段 Forallthesereasons,itcanbeconcludedthatunsupervisedmodelsareimsuitableforanomalitydetectioninoceandataasitisgeneratedbyLoVe.Thus,OceAInshalluseamodelthatlearninasupervisedmanner.Thismodelwilllater 根据研究人员在操作过程中产生的数据进行持续的再训练。 该模型的代码片段显示在清单1中。在这里,检测到明显偏离预期正常的数据集。这是通过首先迭代所有数据集来完成的,同时检测为偏差的所有数据点都存储在阵列中。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 物种保护的海洋数据和AI2022 1月1日 #检测所有的样品是异常。 异常=test_mae_loss>阈值 打印(“异