简介

塑料污染被认为是当今主要的环境问题之一。全球塑料年产量为4.6亿吨,回收率仅为9%,越来越多的塑料碎片最终进入了环境。水生环境中已经积累了大量塑料(河流中有1.09亿吨,海洋中有3000万吨)。1.随着全球塑料年产量不断增加,甚至超过了经济增长,这一数字还在继续增长。不幸的是,塑料可以存在几十年,因为大多数类型的塑料都能抵抗自然降解过程2

只有在恶劣的环境条件下,比如大量暴露在阳光下,塑料才能分解成微米大小的颗粒,通常被称为微塑料3.45678.微塑料的潜在危害几乎是肉眼看不到的,几十年来一直被忽视。然而,这种情况正在开始改变,因为我们现在几乎在地球的每个角落都能找到它们7910111213在动物中141516以及我们的食物1718.最近,在胎盘中发现了微塑料19在我们的血液中20.,这表明塑料垃圾终于进入了我们的身体212223.这些令人震惊的发现敦促我们加大努力,追踪塑料垃圾在我们环境中的命运,并在全球范围内实施有效的废物管理计划,以避免塑料垃圾进一步堆积242526

这些策略必须基于对塑料垃圾分布和特性的定量理解。为了获得必要的数据,塑料垃圾监测必须与使用一致和可靠的样品表征方法相结合27.特别是,通过分析从不同地点提取的塑料样本,可以获得关于平均微塑料尺寸和材料类型及其全球分布的有价值的见解。材料类型与减轻塑料污染高度相关,因为它可以让我们确定最常见塑料垃圾类型的特定地点来源。然而,在我们的环境中检测塑料是一项具有挑战性的任务,因为它们是多样化的:在生产过程中,添加剂经常被用来改变塑料的材料性能。在环境中,这些特性在长时间暴露后会发生变化和恶化。因此,在多个采样点进行频繁和一致的采样是至关重要的。

有几种可用的检测技术可以用来识别塑料垃圾2829.一般来说,非破坏性光谱技术应该是首选的,因为它们允许我们与其他分析工具进行交叉验证。这种技术用光源探测样品,用光谱仪测量发出的光,以获得光谱。样品与光的相互作用取决于样品的化学成分,这意味着光谱可以包含类似于样品材料识别的指纹的信息。塑料污染研究常用基于拉曼光谱或傅里叶变换红外光谱(FTIR)的溶液对塑料样品进行分析2930.3132.然而,这两种技术都有物理限制30.3334妨碍检测几种塑料垃圾。

最近,Ornik等人证明了光致发光(PL)光谱可以用于塑料垃圾的识别35.这种技术的最大优点是简单。一个装置包括一个光源,在可见范围内发射单色光,一个光谱仪,和一组透镜来收集从样品发出的光。由于与拉曼光谱和FTIR光谱相比,必需组分的数量较低,因此PL光谱的获取成本较低。因此,与前面提到的技术相比,它应该是无处不在的。反过来,这可以通过在全球范围内进行采样来系统地扩展塑料垃圾监测,并使我们能够建立捕获样本多样性的光谱数据集数据库。

从观察到的光谱中预测样品的性质,如材料类型,是基于对某些波长的强度等光谱特征进行建模。对于PL光谱,我们已经证明,通过比较不同样品之间的某些光谱强度比,可以将最常见的塑料类型与来自海洋环境的非塑料样品区分开来35.然而,这种模型可能不足以精确预测单个污染源或塑料类型。此外,预测模型即使在光谱变化的情况下也能工作,例如,由于不同的硬件组件或测量设置中的采集参数,或样品中的化学添加剂。这表明我们需要通过扫描高维光谱数据的数学方法来发现适合于鲁棒样本识别的共同光谱特征。

这种数学分析的一个领域是监督机器学习(ML)。从输入数据开始,例如,由一组具有代表性的样品的光谱给出,这些方法生成模型,将样品分类为规定的已知类别,如塑料类型。这种模型的预测是基于光谱特征的学习组合。然而,未处理的原始特征(如所有波长的强度)是高维的,并且有许多可能的参数来拟合以规定的样本类别形式的相对有限的信息。这种情况往往会导致模型能够正确预测训练样本的样本性质,但无法推广,导致对新测量的塑料样本的预测精度较低。

为了提高模型的可泛化性,我们降低了输入数据的维数。这种降维(DR)过程应该保留原始数据中的所有基本信息3637.它在识别预测光谱特征方面起着核心作用。这个过程是无监督的,因此,只有原始光谱被用作输入,没有其他信息,如塑料类型被使用。取而代之的是一个数学模型。在这里,我们使用了一种最近发表的方法,称为相关最大化信号解剖(SDCM)。SDCM成功地揭示和解剖了许多分子肿瘤学患者复杂基因表达数据中重叠的激活和抑制特征38.来自许多样品的光谱数据同样复杂,因为它们测量了许多未知(但可能是塑料特定的)源对测量光发射的刺激(激活)或吸收(抑制)影响的净效应。因此,我们认为SDCM能够从输入光谱中提取样品的来源信息。

ML方法已经被用于分析各种背景下的光谱数据。大多数研究使用监督方法。例如Li等人使用神经网络来区分金属和非金属材料的太赫兹数据39.Liu等采用降维与支持向量机(SVM)相结合的方法对乳腺浸润性导管癌的光谱数据进行分类40.Huang等人使用主成分分析(PCA)结合回归模型对太赫兹光谱表征的小鼠肝损伤进行分类41.在材料科学中,采用支持向量回归(SVR)模型实现了成分的光谱识别42建立了聚合物和塑料激光击穿光谱数据的监督分类方法43.在天体物理学中,用监督方法分析多频数据已被用于blazar的分类44恒星和星系45.对光谱数据的无监督方法很少,但少数例子是耀斑前光谱特征的识别46以及星系光谱多样性的绘制47

成功的ML应用通常需要大量的数据进行学习,这解释了为什么到目前为止用于塑料识别的ML主要使用傅里叶变换红外光谱484950.由于PL光谱具有容易产生更高通量数据的潜力,与ML模型的结合似乎非常有前途。然而,这种应用至今仍未被探索。我们的研究旨在填补这一空白。我们用于基于pl的塑料垃圾识别的ML方法特别关注ML模型发现光谱特征的能力,这些特征能够对识别新收集的塑料垃圾的样品属性(如样品颜色)进行可靠预测。利用无监督DR实现分类方法将特别有用,因为这种方法在处理新数据时更加灵活和健壮。在这里,我们使用这样的方法(SDCM)进行降维,我们将其与一些常用的监督分类方法相结合。我们的研究结果表明,大多数有监督ML算法能够基于PL预测塑料垃圾特征,强调了这些光谱中包含的物理信息。SDCM的突出之处在于它可以帮助模型识别特定于单个样本的光谱特征。这种特异性可能使我们能够更有效地根据特定污染源调整未来的塑料垃圾缓解战略。

结果

塑料垃圾经常与海洋污染联系在一起。因此,我们选择评估ML用于海洋环境中基于pl的样品识别的适用性。为此,我们使用了一套原始塑料,来自消费品和海洋有机样品的塑料。所有的光谱都是在方法部分描述的PL设置下测量的。

样品间PL谱的变化

样品的PL谱描述了不同波长发射光的强度。为了给出一个例子,我们在图中显示。1三个有代表性的样品的光谱,即(一):原始低密度聚乙烯(LDPE),(b):红藻及(c)(d):由LDPE制成的消费品。这些图说明了光谱形状和样品之间的依赖关系,这可能使我们能够用PL光谱识别样品。无花果。1C,d表示在设置中光学元件的不同对齐方式下获得的同一样品的光谱。我们将这些光谱包括在我们的库中,以说明在我们的设置中的对齐不是最优的测量。在LDPE的所有光谱,即图。1a,c,d,我们还在450nm附近观察到一个拉曼峰。必须指出的是,由于样品的不均匀性,还可能出现额外的光谱变化。我们通过在不同的样本点进行测量来解释这些变化(见方法)。在实践中,由于缺乏测量塑料样品和建立PL设置的标准,额外峰和光谱变化的出现是不可避免的。结合来自海洋环境的样品的多样性,这些变化意味着光谱库总是不完整的,因为捕捉所有的光谱变化是不切实际的。然而,对于ML模型来说,如果模型可以在有限的库中根据光谱特征推导出广义的选择标准,那么完整的库可能就不需要了。这些特性将在本研究的后面进行评估。

图1
图1

本研究中使用的样品PL光谱的代表性选择。光谱对应于(一个):原始LDPE, (b):红藻及(cd):由LDPE制成的消费品。的光谱(cd)对应于相同的样品,但获得了不同的设置组件,激光功率值和曝光时间的校准。

ML模型的整体性能

下面,我们简要总结了我们构建ML模型和评估数据的过程。分析的数据包括来自三种不同样品类别和23种材料类型的1294次测量,我们将其合并为9个分类类别,详情见方法和表格3..本文设计的所有ML模型均以PL光谱的强度数据作为输入,并得到预测的材料类型。详细描述了DR的实现,ML模型的生成,数据的准备(见图。8)和分类(见图。10)可在“方法”部分找到。可以使用DR方法和分类器的任意组合来生成ML模型。它的预测性能取决于这种组合和预期的应用。为了证明PL光谱数据用于ML的适用性,我们演示了表中总结的5个常用分类器和2个DR模型的结果1

表1用于生成ML模型的选择分类器和DR方法概述。

我们通过计算三个量来分析每个ML模型的预测性能,即准确度、精密度和召回率(参见方法中的“样本分类”)。这些数量可以取0%到100%之间的值,并根据单个属性计算,例如绿色。准确度描述了模型做出的正确预测的比例。值为100%意味着所有的预测都是正确的。单独考虑每种材料类型,我们通过计算精度和召回率的组合,将模型预测与真实材料类型进行比较\ (f \)得分(参见方法中的定义)。精确度描述了正确的正面预测的比例,而召回率给我们提供了正确识别的实际正面预测的比例。一个\ (f \)100%表示该模型达到了最高的精度和召回率。的\ (f \)然后分别计算每种材料类型的分数,然后取平均值。在下面,我们只关注准确性和\ (f \)得分。

ML模型的生成从光谱数据的准备开始,以确保所有光谱都被平等对待。图中说明了这种制备所涉及的步骤。8.我们创建ML模型的工作流程如图所示。10它包括三个常用的连续阶段:训练、测试和验证,如图所示。9.对于每个阶段,我们使用一组单独的光谱数据。前两个阶段用于优化模型参数进行预测。在最后一个阶段,我们在模型未知的数据集上测试优化模型,以计算前面描述的预测指标。然后,我们使用这些结果来对ML模型的性能进行基准测试。

我们首先评估那些使用未处理的光谱数据集作为输入的ML模型的性能。这将允许我们稍后分析在基于pl的塑料垃圾识别的光谱数据集上应用DR方法的好处。数字2A总结了所有五种模型的性能。每个图显示了一个分类器的模型性能。在单箱图中,我们得到了计算精度和\ (f \)得分。我们清楚地看到,大多数模型在这两个量上都达到了90%以上的值。使用Nu-SVM构建的模型脱颖而出,因为它实现了最高的性能值。然而,使用分类器GNB的模型在准确性和a方面表现明显较差\ (f \)分数在55%左右。数字2b为采用DR方法预处理的数据(即SDCM或PCA)作为输入的模型的预测性能。我们观察到所有基于sdcm的模型都比图中的模型有了更好的性能。2a.在这里,分类器GNB从SDCM中获益最大,因为精度和\ (f \)相应模型的得分增加到大约70%。至于其余的型号,我们看到的是最多2%的小幅增长。对于基于pca的模型,我们发现当它与分类器GNB, Nu-SVM或LR结合时,性能与基于sdcm的模型相当,但当我们使用分类器SVM或LR时,性能下降了高达3%。有趣的是,我们看到一个趋势,线性分类器(SVM, Nu-SVM和LR)在sdcm转换的数据上工作得更好。这可能与使用SDCM创建可解释的分类模型相关,因为线性分类器的分类规则比非线性分类器更容易理解。

图2
图2

一个)应用于光谱数据的无DR方法预测模型的性能。(b)应用于光谱数据的DR方法预测模型的性能。ML模型用于基于pl的样本识别的预测性能概述。准确性和\ (f \)评分以箱形图形式显示,并在验证阶段计算。彩色的方框显示了所获得分数的四分位数,而胡须延伸显示了分布的其余部分。每个图用不同的分类器表示预测性能。所有位于(一个)表示未使用DR方法处理光谱数据时的性能。图中的所有模型b)是建立在用PCA或SDCM处理过的光谱数据之上的。各训练阶段的预测性能如图S1所示。

我们的评估显示,大多数生成的ML模型具有较高的预测性能。我们看到分类器的选择对模型的性能影响最大。此外,使用DR方法预处理光谱数据并不总是会导致预测的改进,因此需要在模型之间进行比较,以确定最佳的DR方法和分类器组合。注意,还可以通过优化绑定到分类器的参数来实现其他改进。

样本类型的预测性能

模型的坏掉可以追溯到我们集合中的特定样本类型。例如,一个预测模型可能很难区分由PET和PS制成的样品,这将导致整体性能下降,即使对其余样品的预测很高。为了测试这种情况是否发生在我们的模型中,我们现在评估单个样本类型的预测性能。

我们通过评估每个ML模型的验证数据集的混淆矩阵来进行分析。在机器学习领域,混淆矩阵是表示学习算法性能的标准方法。矩阵的行表示实际的类别,列表示预测的类别。计算得到的混淆矩阵如图所示。3..每个矩阵的条目是一行中指定的样本类型被分类为列中指定的类型的概率(%)。例如,在整个光谱数据上应用GNB生成的模型(图中第一行第一列)。3.),非塑性材料被鉴定为PS的概率为28.6%。根据定义,一行中的所有值之和为100%。在一个完美的预测模型中,主对角线上的所有元素都是100%,而非对角线上的所有元素都是0%。图的第一列中的所有矩阵。3.对应于用未处理数据训练的模型。在这里,我们观察到,对于所有模型,除了那些使用GNB分类器的模型,所有样本类型的识别精度都超过95%。例如,基于lr的模型对非塑料样品的准确率达到98%。我们没有观察到模型难以识别的样本类型。所有模型的进一步改进可以通过对数据进行SDCM预处理来实现,其中每种样本类型的正确预测概率平均高出3%。对于使用PCA处理数据作为输入的模型,我们也观察到每个样本类型的平均预测性能提高了2.2%。我们发现基于nu - svm的模型略有增加,而基于svm的模型似乎难以正确预测PVC和PMMA。这种较差的性能与我们上面的发现相一致,并再次强调必须相互比较模型,以找到最佳的分类器和DR方法组合。

图3
图3

单个样本类型验证集的混淆矩阵。每个矩阵对应一个由唯一的分类器和DR方法组合生成的模型。一个矩阵将被读取为一行中指定的样本类型被分类为列中指定的类型的概率(%)。

检测PL光谱中的识别特征

我们之前的研究结果表明,使用ML模型可以高精度地将PL光谱分类为各自的塑料类型。除了分类,我们也有兴趣在光谱中找到各种样品属性(如类型、颜色或制造商)的特征。这种光谱指纹是否存在的问题与微塑料检测有关,因为它们可以让我们有效地确定它们的来源。此外,还可以分析它们以确定潜在的化学结构。

没有博士在上一节的训练阶段,分类器在波长箱的输入空间中设置几何边界,以区分不同样本类型的特征光谱区域。将这些复杂的区域重新塑造成可理解的光谱表示来用作指纹是一项艰巨的任务。对于有监督的分类器,这可以通过使用,例如卷积神经网络来实现57.然而,如前所述,我们的目标是建立一种无监督的方法,为此我们需要开发自己的解释方案。

为了做到这一点,我们利用了这样一个事实:对具有相同性质的样品的测量,例如特定的颜色或任何物理、化学或系统性质,在它们的光谱中应该有共同的特征。这些特征不一定是光谱中的一组峰,但它们也可以是不同波长的强度之间的复杂关系。该操作从测量中删除了所有不相关的信息,这使得识别具有相似属性的测量集合更加容易。这些集合在这里被称为集群

下面,我们将讨论DR方法检测到的聚类与样本属性之间的关系。我们引入了一个量化这种关系的度量,以及一种派生集群和属性之间可量化关联的方法。

标签和度量

我们将测量的样本属性分为以下几类:塑料是\ (< < ? > > \)(无论样品是否是塑料制品),\(< <起源> > \)(无论是制造商、自然或零售),颜色\ (< < > > \)(样品颜色),\(< <类型> > \)(材料类型)和\(< <样品ID > > \).后者是每个塑料样品的唯一标识符。由于样品已被探测多次,每个样品的重复可能携带特定于该样品的信息(例如,由于特定的化学成分)。这种个体特征在回溯塑料的特定生产来源的应用中可能是有用的。所有的范畴都是离散的和有限值的。我们将来自一个或多个类别的一组值称为标签。

如前所述,我们在本研究中使用的两种DR方法是PCA和SDCM。PCA是一种传统的方法,它将输入数据沿正交轴分离成线性聚类,使沿每个轴的方差最大化。SDCM是一种新的方法,它将数据沿非正交轴分离为单调聚类,最大限度地提高了局部相关性。如果一个谱属于一个聚类,可以从一个称为聚类权重的量来计算。使用这个量,如果一个度量值的权重高于一个给定的阈值,我们就说它属于一个集群。当SDCM产生这些权重作为输出的一部分时,它们必须从PCA的聚类系数中估计出来。对于PCA,阈值的选择也比SDCM更为关键(详见补充信息)。

如果集群和标签之间存在关系,那么属于该集群的大多数度量也应该带有该标签,反之亦然。因此,确定属于一个集群的度量列表和带有该标签的度量列表之间的一致性就足够了。量化这种一致性的一个很好的指标是\ (f \)分数,也被称为F分数。它被定义为之间的调和平均值精度而且回忆,分别量化了错误关联和遗漏关联的错误率。如果一个标签的测量次数相对于数据集的大小较大,则高\ (f \)分数可以通过随机关联来获得。这种情况可以通过计算概率来过滤p随机关联的超几何检验。我们只考虑那些\ (f \)分数与\ (le 0.005 p \ \)

将一个集群关联到一个标签

的值来测试聚类与标签的关联\ (f \)为每一个可能的聚类和标签组合打分。标签可以从一个或多个类别中绘制,例如“PVC”可以从\(< <类型> > \)或“PVC,红色”的组合\(< <类型,颜色> > \).在有限大小的样本集中,由于每个类别的可能组合数量的快速增长,不太可能表示每个理论上可能的标签。因此,许多标签往往是相关的。例如,如果所有“PVC”类型的样品颜色都是“红色”,而所有“红色”样品的颜色都是“PVC”类型,那么“PVC”、“红色”和“PVC,红色”标签是对底层测量集的等效描述。如果集群有高\ (f \)对于这些测量的评分,这三个标签中的任何一个都可以提供解释,选择一个特定的标签需要额外的任意选择规则。因此,我们将属于同一测量集的所有标签归为一个“等价类”(EC)。每个EC都与一个(明确的)测量集和一个或多个等效的标签描述相关联。为了评估DR方法的性能,根据每个EC中的测量集测试每个集群就足够了。我们的数据集提供了141种不同的ec。

数字4显示不同的集群中匹配的ec的数量\ (f \)范围。结果显示了在PCA预处理数据中发现的聚类(图2)。4a)和SDCM(图。4b).人们看到几根火柴在高处\ (f \)找到分数。SDCM一共发现了11个完美的匹配与\(f_1 = 100\),而PCA只找到一个。这表明,这两种DR方法都能够找到与特定样本属性相关联的多个集群。

图4
图4

一个) pca, (b) SDCM。直方图显示的分布\ (f \)每场比赛PCA和SDCM的得分。一个大的\ (f \)分数对应于聚类与EC之间的密切匹配。

由于大多数ec与多个潜在标签相关联,“正确的”标签描述并不容易获得。在所有141种ec中,我们发现4种与单一标签相关(见表2)2对于一个列表和他们的\ (f \)值)。为了获得对剩余ec的有意义的解释,我们使用两种不同的规则来评估它们,以选择首选标签。例如,如果一个聚类匹配一个EC,其中包含三个等效标签“PVC,红色,零售”,“PVC,红色”和“PVC”,那么所有PVC样品都是红色的,并且是从零售产品中提取的。我们可以

  1. (一)

    始终选择代表最小的类别的数量(即“PVC”),或

  2. (B)

    始终选择代表最大类别的数量(即“PVC,红色,零售”)。

如果没有首选的标签可以选择,匹配将被取消。(A)总是寻找最简单的和(B)最具体的可能的描述。规则(A)存在高估描述概括性的潜在风险,而规则(B)则存在低估描述概括性的风险。当然,其他选择规则也同样有效。特别是专家可以手工分析数据并决定最合适的标签。

表2\ (f \)四种ec的分数,这些ec只包含一个明确的标签。

我们将这些规则应用于PCA和SDCM处理的数据。结果总结在图中。5而且6.对于由选择规则定义的每一组类别,图中显示了在给定条件下可以与至少一个聚类匹配的标签的数量\ (f \)得分或更高。对于一般的样品性质,如\(< <类型> > \)颜色\ (< < > > \),两个数字都显示匹配\ (f \)值最多在中等范围内。因此,广泛的物理特征似乎不能被解决为单一的,不同的光谱特征,出现在一个单一的集群。在某些情况下,这些特征可能根本不能在测量的PL光谱中表示。例如,生产工艺可能不会对PL光谱产生影响,因此没有不同制造商的光谱指纹。数据也可能比标签所表明的更加异构,以这种方式产生具有几个不同指纹的属性子类型,形成单独的集群。

图5
图5

一个PCA,规则a。b) SDCM,规则A.匹配标签的累积分布\ (f \)在规则A定义的类别中,对于规则A定义的每一组类别,图中显示了在给定条件下至少可以与一个聚类匹配的标签的数量\ (f \)得分或更高。颜色比例上限为20,以提高可读性。

图6
图6

一个) PCA,规则b (b) SDCM,规则B.匹配标签的累积分布\ (f \)在规则B定义的类别中,对于规则B定义的每一组类别,图中显示了在给定条件下至少可以与一个聚类匹配的标签的数量\ (f \)得分或更高。颜色比例上限为20,以提高可读性。

一方面,我们之前观察到ML模型可以准确地从光谱数据中识别样本类型。另一方面,我们发现没有一般的样本属性,如类型、制造商或颜色,可以与一个具有高的聚类相关联\ (f \)得分。因此,这些特性在输入数据中不表示为各种固定峰值强度的不同光谱指纹。相反,它们的光谱表示可能取决于其他样品的性质,这不仅可能导致峰值强度的变化,而且还可能导致沿光谱的整体移位。由于这种复杂的行为,需要高维机器学习来识别样本类型和其他属性。

我们发现高\ (f \)值,即。\(f_1 > 90\),用于包含类别的标签\(< <样品ID > > \),列举了记录光谱的样品。这意味着在所有测量中,单个样品的特征光谱形状在强度上是足够固定的,可以用两种DR方法解决。在PCA预处理的数据中,我们发现了一个完美的匹配\ \ (f = 100)值。相比之下,SDCM的性能明显更好。在这里,我们发现10个与规则A完全匹配,11个与规则b完全匹配。我们的发现表明,虽然两种DR方法都可以检测数据中样本特定的光谱特征,但SDCM在发现这些特征方面更有效。因此,SDCM对于识别允许粒子跟踪到单个源的特征特别有用。

最后,我们想指出,进一步增加不同的测量方法可能会减少从ECs中选择代表的模糊性,并改善与更一般的物理性质相关的集群的检测。

讨论

只有对目前的现状有更好的定量理解,微塑料研究领域才能取得重大进展。这需要对全球范围内的塑料垃圾分布和组成进行测量。从实验和理论的角度来看,这都是具有挑战性的。在实验上,样品必须根据标准协议进行表征,理想情况下,简单的设置可以在世界范围内使用。理论分析方法必须能够从大量的实验数据中提取相关的材料参数。

在这项研究中,我们已经证明了这种组合方法可以依赖于我们基于机器学习的理论方法所分析的光致发光光谱。为此,我们评估了ML模型基于PL光谱识别塑料和非塑料材料的能力。结果表明,大多数ML模型都能达到较高的预测性能,准确率在95%以上。特别是与SDCM相结合的模型获得了最高的性能。

此外,我们试图识别样本光谱中的特征和样本性质之间的潜在联系。这种联系可能会导致适用于一般塑料的选择标准。为此,我们分析了用PCA和SDCM处理过的数据。在我们的分析中,我们发现SDCM算法在寻找适用于特定样本的标准方面特别突出。我们的结果可能被证明对环境研究特别有用。例如,它们可以提供识别当地塑料垃圾来源的手段,从而有助于制定更有效的塑料垃圾减少政策。

我们的方法可以为大规模分析提供第一步。由于最佳预成形组合基于无监督学习技术,我们希望我们的方法对输入数据的变化具有鲁棒性,即对于与当前可用的光谱数据显著不同的新数据也能表现得同样出色。当然,这必须通过建立和维护具有完整样本记录和额外的实验异质性的光谱库来进行测试。为了做到这一点,有必要定义指导方针,以确保图书馆中的每一个记录都是完整和准确的。

这样的库将允许进一步的测试来评估我们方法的范围和可靠性。特别地,我们可以评估我们的ML模型对于库中没有的新测量的性能。

方法

实验装置

数字7说明了我们的PL光谱测量实验装置。蓝色路径突出了激发样品并诱导光致发光的入射光束。我们的激光器的中心波长(SF-AW210与TTL驱动器,InsaneWare)取决于激光功率,在402 nm和404 nm之间变化。为了缩小激励带宽,产生的光通过一个中心波长和带宽分别为405 nm和10 nm的激励滤波器。二向色镜将光定向到透镜1,透镜1将入射光聚焦在样品表面。发射光致发光光所经过的路径以红色突出显示。从样品表面开始,这些光被透镜1收集和准直,并通过二向色镜。为了确保激发光完全从发射路径中去除,我们使用了截断波长为420 nm的长通滤波器。最后,镜头2将光线聚焦到光纤上,光纤将光线定向到我们的光谱仪(LR2, Lasertack GmbH)。

图7
图7

说明我们的PL光谱设置。激发光沿着蓝色突出显示的路径在样品上诱导PL。PL信号的路径用红色突出显示。

激光和光谱仪都由一个微控制器(Mega 2560, Arduino)控制,而这个微控制器又连接到一台计算机。这种安排使得控制激光功率、曝光时间以及样品激发和信号采集之间的时间成为可能。后者被设置为500毫秒。

样品及测量参数

来自环境的样品显示出很大的多样性,因为与环境的相互作用可以改变化学成分。因此,光谱库总是可以被认为是不平衡和不完整的,因为它不可能在一个数据集中反映样本的多样性。为了解释我们研究中的这些条件,我们从46个样本中生成了光谱数据集,其中包括来自海洋环境的非塑料材料和来自不同制造商和零售产品的塑料。表中列出了数据集的摘要3..对于每个样品,我们都调整了激光功率\ (\ mathrm {P_{激光}}\)曝光时间\ (\ mathrm {t_{前任}识别}\)获取具有低背景噪声的信号。表中列出了这些测量参数4.为了在光谱库中引入额外的不均匀性,我们对8个样品进行了额外的测量,其中我们重新调整了光学组件的对齐。对于这些样品,两组光谱代表了成分是否对齐时的变化。所有光谱都在光谱仪的全范围内测量,即在200 nm到1000 nm之间。对于每个样本和设置,我们进行了9到20次测量,以捕获由于样本不均匀性造成的光谱变化。所有样品总共测量了29次,只有4个非塑料样品测量了19次。我们还测量了背景噪声,这是在ML模型构建过程中所需要的。

表3本研究样本概况
表4样品汇总及测量参数。对于每个样品,激光功率(\ (\ mathrm {P_{激光}}\)),曝光时间(\ (\ mathrm {t_{前任}识别}\))进行了调整。

降维和SDCM

降维(DR)旨在将高维数据,例如在大量波长箱上测量的光谱,投射到低维空间上。在这项工作中,我们使用了一种称为主成分分析(PCA)的传统方法和一种称为相关最大化信号解剖(SDCM)的新方法来实现数据的DR。

SDCM是一种用于检测高维数据集中叠加相关性的无监督算法38.从概念上讲,它可以被认为是对非正交相关轴的PCA的扩展,其中不是将检测到的维度投影出来,而是迭代减去已发现的相关轴(解剖)。最初是为生物信息学中基因表达数据的聚类而开发的,它可以一般应用于任何包含相关测量的(重叠)子空间的高维数据。

我们用\ ({\ mathbb {M}} ^ {N_f, N_m} \)实值的集合\(N_f \乘以N_m\)矩阵,\ (N_f \)数据和特征的数量是多少\ (N_m \)测量的次数。的\ (N_f \)行向量和\ (N_m \)列向量属于不同的向量空间,称为特征空间而且测量空间,分别。

SDCM的主要假设是输入数据,\({\mathcal {D}} \in {\mathbb {M}}^{N_f, N_m}\),是叠加态\({\mathcal {D}} = \sum _{k=1}^n E_k + \eta\)余子式的\(E_k \in {\mathbb {M}}^{N_f, N_n}\)(也称为签名)及残余噪音\埃塔(\ \).我们解释\ (E_k \)作为数据中有物理意义的假设,例如一种共同的物理或化学性质,因此一些样本和特征是相关的。由于叠加是一个非双射操作,我们需要进一步的条件来解剖\ ({\ mathcal {D}} \)为独立的\ (E_k \).我们假设\ (E_k \)bimonotonic,即存在有序\ (I_f \)\ (N_f \)索引和排序\ (I_m \)\ (N_m \)这样的索引重新排序矩阵\(\tilde{E}_k = E_k(I_f, I_m)\)在所有行和列上都是单调的。因此,重新排序后,相关性在特征空间和测量空间中都遵循单调曲线。虽然这种双声频要求限制了算法的适用性,但它允许明确地解剖\ ({\ mathcal {D}} \)\ (E_k \)组件。与PCA相比,它还允许检测非线性(bi)单调相关,其轴是非正交的。

SDCM分四个步骤分析数据:

  1. 1.

    检测相关轴的初始代表。在特征空间和测量空间中。

  2. 2.

    通过最大化相关性计算签名轴。

  3. 3.

    估计双声频,可能是非线性的相关曲线(eigensignal)在特征空间和测量空间。为此,使用了非参数回归。

  4. 4.

    从数据集中减去属于特征信号的数据点。

这四个步骤将迭代执行,直到再也找不到轴的代表。SDCM完全对称地处理行和列。每个特征和样本都有一个强度值年代和一个权重值w每一个签名。强度值(以输入数据为单位)量化了沿特征信号的位置。重量\ (w \ [1] \)量化特征或样本参与签名的强度,即它与特征信号的接近程度。通常,检测到的签名数量将比输入特征的数量小几个数量级,并以这种方式产生数据的有效DR。

ML模型生成

为了生成基于pl的样本识别的ML模型,我们选择了有监督和无监督学习方法的组合。在下面的小节中,我们将描述用于生成这些模型的所有步骤。

数据格式

我们将光谱的信息保存在两个不同的文件中:一个文件包含作为波长函数的绝对强度;还有一个包含样品和测量的细节。后者为所有光谱提供标签,这是评估分类器性能的核心。我们使用以下类别:

  • 类型:样品的材料类型。

  • 起源:制造商名称或所在地。所有零售样品都有相同的标签。

  • 颜色:样品颜色。

  • 是塑料:样品材料是否为塑料。

  • 样品标识:唯一ID,用于标识已进行多次重复测量的样品。

所有的范畴都是离散的和有限值的。在下面,枚举特征集(光谱箱)\(f_i \in \math {F}\)\(N_f:= |\mathcal {F}|\)而且j枚举度量值集\(m^j \in \mathcal {m}\)\(N_m:= |\mathcal {M}|\)

预测分类

我们从表中汇总了19种不同的材料类型3.通过将所有非塑料组合成类型无塑性的并分为LDPE、HDPE和PE两种类型体育

准备光谱数据

在接下来的文章中,我们将描述在光谱数据传递到分类管道之前应用于它的数据准备工作。数据准备管道如图所示。8.引用(P1)到(P5)是指流程图中各自的节点。

为了在ML过程中平等地对待所有光谱,我们需要首先对数据进行预处理(P1)。我们首先将光谱数据和相应的背景测量插值到一个共同的光谱轴上。光谱箱的数量保持等于整个集合中箱的数量的平均值。然后,我们从样本光谱中减去背景测量值。一旦所有的光谱都以这种方式处理,我们将数据连接到一个单一的矩阵。

图8
图8

数据准备管道流程图。实线箭头表示数据流,虚线箭头表示参数的影响。对原始输入数据进行预处理(P1),以去除背景偏移和噪声,滤除过度曝光的测量值,将数据切割到适当的光谱范围并进行归一化。然后将数据分成80-20%,分成25次DRB而且验证批次(P2)。在所有DRB测量中计算每个光谱库的中位数,并从DRB和验证集(P3a和P3b)中减去。DR (SDCM, PCA)应用于DRB (P4)集。透传表示没有为对象申请DR没有博士数据集。结果用于将DRB和验证投影到降维空间(P5a和P5b)。最后的集合被用作分类管道的输入。使用pgf v3.1.9a生成。

由于我们不期望任何信号低于激光峰值,我们估计了基线的偏移量j \ \ (^)因为j-通过计算294nm范围内的中位强度来测量。同样,我们估计噪音水平\ \(η^ j \)通过计算相同范围内的标准差。由于我们认为光谱的任何偏移都是系统的,我们从数据中减去它。

为了去除过度曝光或有噪声的光谱,我们应用了一个自动过滤掉所有不满足我们条件的数据的过程。我们通过确定每个光谱的最大值来选出实验过度曝光的测量值\ (M ^ j \)的平滑谱\ (m ^ j \).为了平滑,我们使用了一个窗口大小为20纳米的运行中值。然后计算暴露水平为\(E^j = \frac{O^j}{M^j}\).然后我们丢弃了过度曝光的测量\(E^j < 0.5\).为了检测噪声光谱,我们计算信噪比,j \ \ (\ textsf{信噪比}^),则表示

$ ${对齐}\ \开始textsf{信噪比}^ j = \压裂{P j ^}{{\埃塔^ j} \文本。} \{对齐}$ $

在这里\ (^ j \页)光谱的幂是由

$ $ \ P{对齐}^ j =开始\√6{\压裂{1}{N_f} \总和_ {j = 1 \ ldots N_f} \境({年代}^ i_j \境)^ 2}{}\ \文本结束{对齐}$ $

而且\ ({} ^ i_j \)的-th谱仓\ (m ^ j \).如果信噪比小于2,我们认为测量是有噪声的。这样的测量结果就被丢弃了。

为了生成模型,我们只考虑了410 nm到680 nm范围内的光谱信息,这个范围包含了样品的大部分信息。然后将每个频谱归一化,使其绝对值的积分为1。对于SDCM来说,确保回归步骤在合理的时间内收敛是特别重要的。

交叉验证分裂

在我们的分类模型中,我们在(无监督的)DR阶段和(有监督的)分类阶段分割数据。

在实际应用中,训练过的分类器管道被应用到新数据上,这不是DR或学习过程的一部分。为了正确地评估我们的模型的性能,需要将数据分成训练模型的批次,以及评估模型性能的批次。由于SDCM的计算成本很高,因此我们采用了两步处理,首先将数据多次分割为多个减少维批次(DRB)和验证应用了容灾方法的批量DRB.每一个DRB批处理再次被分成多个培训而且测试批次。然后对每个模型进行训练培训并对其性能进行了相应的评价测试而且验证批次。数字9说明了不同分割的概念差异。这有一个额外的好处,提供了分类器在测量上的性能比较,这一直是DR (测试)和新的测量方法(验证).我们注意到两者之间没有显著差异测试而且培训如果没有使用容灾方法。

图9
图9

数据集分割的概念描述。数据在DR过程之前被分割,在分类器训练之前再次被分割。黄色节点参与了容灾进程。红色边框表示培训用于拟合分类器。使用pgf v3.1.9a生成。

数据进行了25次交叉验证,80%-20%的分割为DRB和a验证集(P2)。我们使用类型而且样品标识作为分层变量,即我们的目标是保持每种类型和样本ID的相对比例相等DRB而且验证.对于分层,我们使用MATLAB统计和机器学习工具箱(the MathWorks, Inc., Natick, Massachusetts, usa)的cvpartition方法。

我们计算了DRB中每个光谱仓的中位数,并从DRB和的每次测量中减去它验证集合(P3a和P3b)。这将数据集中在每个光谱仓的DRB零级。此外,我们还进行了光谱和PCA分类,没有中位数减去。评估结果表明,该过程对分类器的性能没有显著影响。最终维度\(N_f \乘以N_m\)DRB和验证为每个交叉验证设置为\(1394 \乘1036\)而且\(1394 \乘258\),分别。

降维方法

在我们的研究中,我们使用SDCM和PCA作为DR方法,并将其与未进行DR时的基线进行比较。这三种输入类型被称为SDCM而且主成分分析而且没有博士.SDCM和PCA将数据分解为签名和主成分(PCs)。从处理后的数据中,我们可以得到输入分类管道的强度和PC系数。

我们将DR方法应用于DRB数据(P4)。为没有博士,数据刚刚通过。在所有交叉验证分割中,SDCM以130个已识别签名的中位数结束。PCA不会自行终止,而是产生与测量次数相等的pc数量。为了实现有效的DR,我们选择了前130台pc进行进一步分析。

一旦SDCM在DRB中找到一组签名,相对于这些签名的强度和权重验证需要确定。这不是一个简单的任务,因为签名轴可以是非正交的,并且该方法是解剖的而不是投影的。标准程序是在新数据上重复解剖,同时将签名轴固定在先前检测到的值上。然而,这仍然可能回归到不同的特征信号,从而扭曲预测结果。为了避免这一点,我们在DRB签名轴(P5b)上执行了数据的加权投影,其中投影权值是在DRB上计算的每个谱库的签名权值。这消除了SDCM获得的一些精度,因为如果坐标轴不够正交,由单个签名解释的光谱特征仍然可以在其他签名中产生显著的投影值。但是,它可以确保相对于相同的轴获得所有的签名强度。为了一致性,DRB也被投影到签名轴上(P5a)。

样本分类

我们的分类管道由每个分类器的优化组成,然后是交叉验证的训练和评分。该管道如图所示。10.各个步骤从(C1)到(C4)编号。为了建立分类管道,我们使用了python模块scikit-learn51

图10
图10

分类管道流程图。实线箭头表示数据流,虚线箭头表示参数的影响。为清晰起见,省略了数据标签的节点。DRB和验证取自数据准备阶段所做的25个验证分割中的每一个。对于每个分类器,使用DRB通过交叉验证参数网格搜索(C1)优化分类参数。然后DRB分成80-20% 144次培训而且测试批次(C2)。该分类器适合于培训使用网格搜索(C3)中找到的参数。然后对其性能进行评估培训测试而且验证(C4)。使用pgf v3.1.9a生成。

DRB集合和验证组被送入分级管道。对于表中的每个分类器1,利用DRB集通过参数网格搜索(C1)优化分类参数。在这里,进行了多次额外的交叉验证,图中没有显示。10

我们在DRB集上执行了144次80%-20%的交叉验证拆分,以生成培训而且测试集(C2)。分类器被训练培训并对其性能进行了评价培训测试而且验证(C4)。

为了分析模型性能,我们计算了以下四个分类指标:

  • \(文本\{准确性}= \压裂{t_p + t_n} {t_p + t_n + f_p + fn} \)

  • \(\text {precision} = \frac{t_p}{t_p + f_p}\)

  • \(\text {recall} = \frac{t_p}{t_p + f_n}\)

  • \(f_1 = 2 \cdot \frac{\text {Precision} \cdot \text{召回}}{\text {Precision} + \text{召回}}\)

在这里\ (t_p \)\ (t_n \)\ (f_p \)\ (fn \)是分类中真阳性、真阴性、假阳性和假阴性的数量。由于精密度和召回率是二进制指标,它们分别为每种材料类型计算,然后平均。

分类指标和误差进行了整体计算144 \ \(25 \倍)评估。对于每个分类,我们根据分类器的预测生成一个沿着行标准化的混淆矩阵。

检测PL光谱中的识别特征

我们感兴趣的是在数据中找到某些样本属性的光谱指纹。属性作为元数据中每个度量的标签提供。

我们试图将单个SDCM签名或pc与特定的样本属性联系起来。由于这两种DR方法都是无监督的,所以不能验证Set是必要的,我们也不需要将数据重新投射到发现的集群轴上。因此,数据准备工作流程仅由图中的步骤(P1)、(P2)、(P3a)和(P4)组成。8.PCA和SDCM仅对数据应用一次。与前一节相反,我们没有将所有非塑料材料类型聚合到一个标签中。

在下文中,我们将SDCM签名和PCA pc称为集群.为了能够解释发现的集群,我们施加了限制,对于每次测量,必须提供所有数据标签。所考虑的数据的维度是\(N_f \ * N_m = 1394 \ * 1243\)

集群的重量

为了将集群与属性相匹配,我们需要确定度量是否是集群的一部分。对于每个集群k和测量\ (m ^ j \), SDCM提供权重\(w^{k,j} \in \big [-1,1\big]\),它可用于量化度量与集群的关联程度k.我们认为一个度量是集群的一部分,如果\ (| w ^ {k, j} | \ \)约1,而如果\ (| w ^ {k, j} | \约0 \)没有链接。每个聚类都有一个轴,测量值沿着该轴聚类,其中值(中值减去后)位于0。这将轴分为负权重部分和正权重部分。

由于PCA的实现没有提供一个可比较的度量,我们需要为pc定义这样一个量。让\(C^{k, j}_{\text {PCA}}\)的系数j的第一个测量值kth电脑。我们将PC权重定义为:

$ $ \{对齐}开始w ^ {k, j} _{\文本{PCA}} = \压裂{C ^ {k, j} _{\文本{PCA}}}{\马克斯_ {j \ \ mathcal {M}} | C ^ {k, j} _{\文本{PCA}} |} \{对齐}$ $

在哪里\ (\ mathcal {M} \)是所有测量值的集合。正权和负权的解释与前面描述的SDCM相同。

我们增加了聚类的数量,通过划分每个聚类来测试与样本属性的关联k分为三个子集群:一个包括所有测量\ (w > 0 \)它的测量结果符合要求\ (w < 0 \)一个是完全相同的k.对于SDCM,权重紧密地分布在两者周围\(\ \)下午1或0。这促使通过阈值确定样本的集群成员\(\tau \in \big [0,1\big]\).我们说

$ $ \{对齐}k开始^ - \{包含}\ \文本,m ^强生\ iff w ^ {k, j} < 0 \四\文本{和}\四| w ^ {k, j} | \通用电气\τ\ \ k ^ + \{包含}\ \文本,m ^强生\ iff w ^ {k, j} > 0 \四\文本{和}\四| w ^ {k, j} | \通用电气\ kτ\ \ \ \文字{包含}\,m ^强生\ iff | w ^ {k, j} | \通用电气\τ\{对齐}$ $

在本章的剩余部分,我们将所有子集群称为\ (^ k * \)

最优\ \(τ\)对于PCA和SDCM都可以通过测试多个值的子簇和标签之间的关联来经验地发现。在不同的阈值选择下,SDCM具有相当的鲁棒性。在这里,\ \(τ\)可以可靠地设置为1。相比之下,PCA对这种选择更敏感,并且在以下情况下表现最佳\ \(τ\)介于0.05和0.4之间(详见SI)。物有所值\ \(τ\)可以通过优化匹配的数量来确定\(f_1 \ge 90\)(计算的解释见下文\ (f \)).

量化一个子集群和一组标签之间的关联

l成为一个标签\ (^ k * \)subcluster。l\ (^ k * \)如果它有可能是属于\ (^ k * \)携带标签l反之亦然。我们可以用列联表来描述这种关系T(见表5).相对于假阳性/阴性,强关联应该会导致大量的真阳性/阴性。数学上,我们感兴趣的是回忆(携带的测量值的百分比l属于\ (^ k * \)),精度(属于。的测量值的百分比\ (^ k * \)携带l)的列联表。的\ (f \)分数是召回率和准确度的调和平均值,因此是一个合适的分数来概括这两个值。我们一直都有\(0 \le f_1 \le 100\)而且\(f_1 = 100\)没有假阳性和假阴性的完美关联。我们解释\ (f \)作为衡量l比赛\ (^ k * \)

表5子集群标签关联列联表。

将一个集群与一个标签关联

我们通过穷尽计算来搜索子簇标签关联\ (f \)每个子集群和每个可用标签l.为此,我们首先构造了所有理论上可能的标签的集合\ ({\ mathcal {L}} \),由所有类别集的所有笛卡尔积给出。由于以这种方式生成的所有标签的数量远远大于实验中可以实际记录的标签的数量,因此实际标签往往是相关的。例如,如果所有“PVC”类型的样品颜色都是“红色”,并且所有“红色”样品的颜色都是“PVC”类型,那么“PVC”、“红色”和“PVC,红色”标签是对底层测量集的等效描述。

我们说这两个标签,\(l_1, l_2 \in {\mathcal {L}}\),都是等效\(l_1 \sim l_2\),如果它们描述的是同一组测量值。我们定义\ ({\ mathcal {L}} / \ sim \)作为由这种等价关系所诱导的等价类(ECs)的集合。由于EC的每个标签都属于同一组测量值,因此计算EC的值就足够了\ (f \)每个班级只给一个代表打分。

对于每个子集群和每个\(\text {EC} \in {\mathcal {L}}/\sim\),\ (f \)通过表中列联表计算得分5.当与标签相关联的测量数相对于总测量数较大时,则\ (f \)分数可以通过随机关联而增大。因此p-value用超几何检验计算。只与\ \ (p < 0.005)。留作进一步分析。对于每个EC,选择得分最高的子簇。

如果一个EC包含多个标签,则子集群标签匹配的解释是不明确的。为了恢复可解释的子簇标签匹配,我们通过结果中定义的选择规则(A)和(B)从ECs中选择标签代表。如果选举不是唯一的,选举委员会将被解散。