机器学习有助于绘制全球海洋社区的地图
在陆地上,一个生态区域的终点和另一个生态区域的起点非常明显,例如在沙漠和热带稀树草原之间的边界。在海洋中,生命的大部分是微观的,并且流动性强得多,这给科学家们绘制生态上独特的海洋区域之间的边界图带来了挑战。
科学家描绘海洋群落的一种方式是通过卫星图像的叶绿素(浮游植物产生的绿色色素)。叶绿素浓度可以表明一个地区与另一个地区相比,潜在生态系统的丰富程度或生产力。但是叶绿素图只能给出给定区域中可能存在的总生命量的信息。实际上,叶绿素浓度相同的两个区域实际上可能具有植物和动物生命的不同组合。
“就好像您要看一看陆地上生物量不多的所有地区,包括南极洲和撒哈拉沙漠,即使它们的生态系统完全不同,”前博士后迈克·索纳瓦尔德(Maike Sonnewald)说。麻省理工学院的地球,大气和行星科学系。
现在,麻省理工学院的Sonnewald和她的同事们开发了一种无监督的机器学习技术,该技术可以自动梳理一组非常复杂的全球海洋数据,根据它们的比例和多种浮游植物物种之间的相互作用来找到海洋位置之间的共性。通过他们的技术,研究人员发现,海洋可以分为100多种类型各异的“省份”,这些省份的生态构成各不相同。可以想象,海洋中任何给定的位置都可以容纳这100个生态省之一。
然后,研究人员在这100个省之间寻找相似之处,最终将它们分为12个更一般的类别。从这些“大省”中,他们可以看到,尽管有些人在一个区域内的生活总量相同,但他们的社区结构或动植物种类的平衡却大不相同。索纳瓦尔德说,捕捉这些生态微妙之处对于追踪海洋的健康和生产力至关重要。
“生态系统随着气候变化而变化,需要监测社区结构,以了解对渔业的冲击以及海洋吸收二氧化碳的能力,” Sonnewald说。“我们无法用传统方法完全理解这些至关重要的动力,迄今为止,还没有包括那里的生态。但是,我们的方法与卫星数据和其他工具相结合,可以提供重要的进步。”
索纳瓦尔德(Sonnewald)现在是普林斯顿大学的副研究员以及华盛顿大学的访问者,他今天在《科学进展》杂志上报道了这一结果。她在MIT的合著者是高级研究科学家Stephanie Dutkiewitz,首席研究工程师Christopher Hill和研究科学家Gael Forget。
推出数据球
团队的新机器学习技术(他们称为SAGE)适用于系统化聚合生态省方法,旨在处理大型,复杂的数据集,并有可能将该数据投影到一个更简单的低维数据集。
Sonnewald说:“这就像制作饼干一样。” “您需要收集这些极其复杂的数据并将其推出以揭示其元素。”
特别是,研究人员使用了Sonnewald所说的聚类算法,该算法旨在“沿着数据集爬行”并在点密度较大的区域中进行磨练-这表明这些点具有某些共同点。
Sonnewald和她的同事们在麻省理工学院的达尔文项目的海洋数据上放宽了该算法,该项目是全球海洋的三维模型,将海洋气候模型(包括风,流和温度模式)与海洋生态模型结合在一起。该模型包括51种浮游植物,以及每种植物的生长和相互作用方式以及与周围气候和可用养分的相互作用方式。
Sonnewald说,如果人们试图浏览这个非常复杂的51层数据空间,以便对海洋中的每个可用点进行观察,以了解哪些点具有共同特征,那么这项任务将是“人类难以处理的”。使用该团队的无监督机器学习算法,这种共性“开始变得清晰起来”。
该小组的SAGE方法中的第一个“数据清理”步骤能够将全球海洋解析为大约100个不同的生态省,每个省的物种均具有明显的平衡。
研究人员将海洋模型中的每个可用位置分配给了100个省中的一个,并为每个省分配了一种颜色。然后,他们绘制了一张全球海洋地图,按省份类型进行了着色。
Sonnewald说:“在南极洲周围的南大洋,在环绕着南极洲的这些条状条纹中,有勃艮第和橙色的形状影响了我们的期望。” “与其他功能一起,至少在模型中,这给了我们很大的信心,使我们的方法有效并且有意义。”
生态统一
然后,研究小组寻找方法来进一步简化他们确定的100多个省,以查看即使在这些生态截然不同的地区之间,他们是否也可以找出共同点。
“我们开始考虑类似的事情,如何将一群人彼此区分开?我们如何看待彼此之间的联系?我们使用这种直觉来了解我们是否可以量化不同省份在生态上的相似程度。” Sonnewald说。
为此,该团队应用了图论技术,根据生物量在一张图中代表了所有100个省。这类似于一个地区产生的叶绿素数量。他们选择将100个省分为12个大类,即“特大省”。当他们比较这些大型省份时,他们发现那些具有相似生物量的省份是由非常不同的生物物种组成的。
“例如,省D和K的生物量几乎相同,但是当我们深入研究时,K的硅藻几乎没有原核生物,而D的硅藻几乎没有,原核生物很多。但是从卫星看,它们看起来可能一样。”索纳瓦尔德说。“因此,我们的方法可以开始将生态信息添加到大量叶绿素措施中的过程,并最终有助于观察。”
该团队开发了一个在线小部件,研究人员可用来在100个省中查找其他相似之处。在他们的论文中,Sonnewald的同事选择将这些省分为12类。但是其他人可能希望将省份划分为更多的组,并深入研究数据以查看这些组之间共有的特征。
索纳瓦尔德(Sonnewald)正在与海洋学家共享该工具,这些海洋学家希望精确确定特定生态组成区域的位置,因此,他们可以例如在这些区域而不是在物种平衡可能略有不同的其他区域发送船只进行采样。
“与其使用基于大量叶绿素的工具指导采样,并猜测使用此方法可以发现有趣的生态学,还不如说是外科手术,说,'这就是模型在这里可能会发现的,'” Sonnewald说。“了解诸如海洋科学和全球渔业之类的物种组合的确非常重要。”
这项研究部分由NASA和喷气推进实验室资助。