简介gydF4y2Ba

x射线自由电子激光器(XFELs)是世界上最快的x射线相机,可以提供超短的曝光时间,并将空间分辨率限制在亚纳米范围内,这使得时间分辨实验成为可能。gydF4y2Ba冻结gydF4y2Ba原子和分子的运动。事实上,XFELs已经彻底改变了几个科学领域,使我们能够观察原子中瞬态结构和共振的作用gydF4y2Ba1gydF4y2Ba以及单分子或簇成像gydF4y2Ba2gydF4y2Ba,在元素特定的观测点的超快过程的研究gydF4y2Ba3.gydF4y2Ba,以及x射线下非线性光物质相互作用的研究gydF4y2Ba4gydF4y2Ba.gydF4y2Ba

在过去的十年中,底层机器操作技术的进一步发展使得对光子脉冲参数的控制越来越复杂。最近的主要升级之一是XFEL重复率的增加,预计将启动从原理验证实验到跨学科重要性的高级应用的飞跃,从而代表现代XFEL科学的基石gydF4y2Ba5gydF4y2Ba.gydF4y2Ba

目前世界上大多数的FELs,事实上所有的XFELs都是基于的原则gydF4y2Ba自发辐射的自放大gydF4y2Ba(SASE)gydF4y2Ba6gydF4y2Ba.更准确地说,它们的脉冲是通过相对加速的电子束本身和自发发射的同步辐射之间的相互作用随机形成的,这是由它们在具有周期性变化极性的磁性结构内的正弦轨迹引起的gydF4y2Ba波纹机gydF4y2Ba.这种反馈相互作用导致了波动电子的后续密度调制,导致了超短x射线脉冲的爆发,其峰值亮度达到并超过gydF4y2Ba\ (10 ^ {32} \)gydF4y2Ba\ \(压裂{\ hbox{光子}}{\ mathrm{交会}\ cdot \ mathrm {mrad} ^ 2 \ cdot \ mathrm {mm} ^ 2 \ cdot 0.1 \ % \ mathrm {BW}} \)gydF4y2Ba(带宽gydF4y2BaBWgydF4y2Ba).放大过程为每一个脉冲产生一个不可预测的时间-能量结构,这是迄今为止XFEL科学的最大限制之一。目前没有控制机制,也没有常规可用的诊断方法gydF4y2Ba直接gydF4y2Ba测量这些x射线脉冲的时间特性。这是由于每个单独的XFEL脉冲的随机性质,使得它们的单次表征是必要的,并且排除了为实验室源的阿秒脉冲开发的标准集成方法gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba.因此,在暴露于x射线期间发生的阿秒到飞秒时间尺度上的大部分动态不幸只能通过间接脉冲测量(如光谱分析)来推断gydF4y2Ba10gydF4y2Ba或者电子束诊断gydF4y2Ba11gydF4y2Ba.gydF4y2Ba

最近,我们展示了一种新的技术gydF4y2Ba角裸奔gydF4y2Ba它能够以阿秒分辨率无损地检索所有入射SASE x射线脉冲的时间能量结构gydF4y2Ba12gydF4y2Ba.除了重大的诊断突破之外,这通常为x射线领域的时间分辨和非线性原子学铺平了道路。事实上,物质中所有结构动力学的开始,现在甚至可以通过强局域电子从特定的观测点详细研究。对于即将在XFELs进行的科学应用来说,快速可靠的关于实验和机器本身的新诊断的反馈是至关重要的gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba.对于高重复率的XFEL,例如德国汉堡附近的欧洲XFEL,传统的分析方法无法全面容纳角条纹数据的巨大数量和复杂性。特别是对于在线分析以及最终在波束时间内的主动控制和脉冲整形,传统的数据处理方法不适合。因此,XFELs的几个核心挑战预计将由人工智能(AI)解决,特别是机器学习(ML)技术。gydF4y2Ba

在本文中,我们提出了一个基于机器学习的概念证明,用于检索完整和详细的XFEL脉冲时间轮廓,包括脉冲持续时间及其强度子结构。此外,我们还表明,通过角条纹与神经网络(NNs)分析配对的方法,可以提取x射线引发光离后电子过程的时间信息,即后续的俄歇衰变。此外,通过使用不同程度仪器噪声和不同电子发射特征的模拟条纹数据,我们证明了基于神经网络的XFELs在线诊断工具的灵活性。因此,它对探测器噪声和机器波动具有鲁棒性,并覆盖了当前和未来的绝大多数操作模式。gydF4y2Ba

应用案例:Angular裸奔gydF4y2Ba

激光和x射线研究的一个长期目标是使测量能够在分子水平上提供关于电子和相应结构变化的时间和空间实时信息,具有元素-位点特异性gydF4y2Ba分子的电影gydF4y2Ba.为此,合适的超短x射线脉冲持续时间是关键参数之一,这一参数既难以实现,也难以测量。然而,一种可靠的时间分辨实验方法对于确定诸如SASE FEL脉冲的详细强度分布等参数至关重要gydF4y2Ba15gydF4y2Ba,对应被测材料的损伤阈值gydF4y2Ba16gydF4y2Ba,超快单发衍射成像的纳米级解释gydF4y2Ba17gydF4y2Ba,以及多光子过程的概率gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,举几个例子。应用gydF4y2Baangular-streaking技术gydF4y2Ba20.gydF4y2Ba到XFELs领域利用一个通用的方法对单个(X)FEL脉冲进行时间和光谱表征gydF4y2Ba12gydF4y2Ba.gydF4y2Ba

这种新方法的应用科学仪器是gydF4y2Ba角度分辨电子能谱仪gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba.在XFELs的第一个角条纹演示和目前的情况下,16个独立工作的飞行时间(TOF)光谱仪被布置在目标区域周围的环形结构中,垂直于入射x射线的传播方向gydF4y2Ba12gydF4y2Ba.与共传播的圆偏振红外激光器一起,在空间和时间上与目标区域的XFEL重叠,这种设置可以实现角条纹。来自目标气体的原子被XFEL脉冲电离,发射的电子在能量中被扫掠,即条纹gydF4y2Ba而且gydF4y2Ba角度由红外激光器的伴随旋转电场矢量决定。在一个简化的图片中,条纹场向量可以理解为一个时钟的指针,它通过电子被检测到的角度编码参数时间,相应的能量偏移(见图中的插图)。gydF4y2Ba1gydF4y2Ba).给定足够多的电子来“报告”SASE脉冲内的电离时间,测量的电子发射模式包含了具有阿秒分辨率的电离XFEL脉冲的完整时间-能量结构信息。通过选择合适的电子结合能和光离截面的目标气体,该方法可以适用于具有不同光子能量的脉冲。Hartmann等人描述了角条纹技术应用于SASE x射线脉冲的机理和实验设置。gydF4y2Ba12gydF4y2Ba一般原理可以在这里找到gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba.gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

说明这个工作的主题方向。一系列之前未知的XFEL脉冲从一个具有特征动能的气体目标释放电子(用黄色表示)。由圆偏振红外条纹场引起的动能位移记录在角度分辨光谱仪上(由锥和眼睛表示)。在人造大脑中,这样获得的关于电子的信息被处理,并揭示了x射线脉冲的底层阿秒子结构。对时间-能量子结构的精确了解可以被用于通过反馈环对XFEL机器设置来塑造x射线脉冲,或者能够在阿秒边界上获得超快电子动力学,正如这里通过在水中原子间俄格衰变的分子电影所表明的那样,随后发生解离。gydF4y2Ba

在考虑的实验中,测量每个x射线射击和每个TOF光谱仪中发射的光电子的时间迹线,因此,以XFEL和重叠条纹激光器的重复频率设置的速率产生16条迹线。对于单发光谱学,一条轨迹代表在特定飞行时间后到达的电子数量。这些时域轨迹可以转换为能量域(gydF4y2Ba光谱gydF4y2Ba),方法是考虑飞行路径的长度和路径上附加电场的作用,这通常用于提高可达到的能量分辨率和电子收集效率。一个完整的角度分辨条纹测量的组合表示形式形成了一个具有16列的图像,代表各自的探测器角度,和几行对应于在特定测量中检测到的电子能量范围(gydF4y2Ba探测器图像gydF4y2Ba,参见图。gydF4y2Ba2gydF4y2Baa).时变电子能谱(gydF4y2Ba谱图gydF4y2Ba),然后通过将发射角转换为使用已知的圆偏振条纹激光器电场矢量的旋转周期的时间来生成。(cf无花果。gydF4y2Ba2gydF4y2Ba在目前的ML案例研究中,我们基于先前推导的条纹方程模拟了光谱图和相应的探测器图像gydF4y2Ba22gydF4y2Ba,遵循Hartmann等人在SI中建立并详细描述的程序。gydF4y2Ba12gydF4y2Ba.因此,我们可以随意生成一个巨大的“数据”集来训练ML算法,以及一组完全已知的目标镜头来测试开发的NN预测。gydF4y2Ba

对于在与外部条纹场相互作用区域内没有时空重叠的x射线脉冲(gydF4y2Baunstreaked拍摄gydF4y2Ba),所有探测器的光谱均显示特征电子能量分布(gydF4y2Ba谱线gydF4y2Ba)作为调查对象。通常,每条线在信号强度上也显示出角度依赖关系。在无花果。gydF4y2Ba2gydF4y2BaF和g人们可以在0°和180°附近的低强度区域看到这种变化,与90°和270°的高强度部分形成对比,在柱之间的角度上有中等强度。如果一个gydF4y2Ba圆偏振条纹激光器gydF4y2Ba存在时,探测器图像根据瞬时条纹激光矢量势进行调制,导致光谱线沿角度轴呈正弦变化。gydF4y2Ba

图2gydF4y2Ba
图2gydF4y2Ba

实验(gydF4y2Ba一个gydF4y2Ba)和模拟(gydF4y2BabgydF4y2Ba) - (gydF4y2BahgydF4y2Ba)用于角条纹测量的数据。(gydF4y2Ba一个gydF4y2Ba)显示了Hartmann等人的真实数据。gydF4y2Ba12gydF4y2Ba在霓虹灯。(gydF4y2BabgydF4y2Ba)显示在类似条件下的模拟检测器图像,并添加gydF4y2Ba\(\ \ % \ 30日)下午gydF4y2Ba噪音。在((gydF4y2BacgydF4y2Ba)及(gydF4y2BafgydF4y2Ba)]的模拟谱图和相应的探测器图像,分别在[(gydF4y2BadgydF4y2Ba)及(gydF4y2BaggydF4y2Ba)]在高斯强度分布中加入脉冲结构。请注意(gydF4y2BafgydF4y2Ba)及(gydF4y2BaggydF4y2Ba),这是由附加的SASE脉冲结构引起的,并引起相应的尖刺脉冲重建。(gydF4y2BaegydF4y2Ba)及(gydF4y2BahgydF4y2Ba)显示模拟俄歇电子能谱图和相应的角条纹探测器图像,在任意选择衰减时间为7.6 fs的Ne 1s壳层电离后。所有显示的数字都归一化为间隔[0,1]。gydF4y2Ba

关于SASE FEL x射线脉冲特征及其电位控制的目标是从测量的探测器图像重建光谱图,这提供了关于x射线时间-能量结构的完整信息(参见图2)。gydF4y2Ba3.gydF4y2Ba,虚线)。然而,在许多实验情况下,将我们的分析限制在某些方面就足够了gydF4y2Ba最相关的gydF4y2BaSASE x射线参数(参见图gydF4y2Ba3.gydF4y2Ba,红线)。因此,在随后的讨论中,我们重点讨论了超短FEL脉冲时间方面的神经网络预测。有关神经网络的框架条件、所选架构和超参数优化的详细信息,请参阅“gydF4y2Ba方法gydF4y2Ba”下面。gydF4y2Ba

图3gydF4y2Ba
图3gydF4y2Ba

从探测器图像中提取重要脉冲特征有两种方法。虚线指的是一个完整的重建(谱图)和相关参数的提取,从这个重建。另一种方法是跳过完整的重建,只关注通常最相关的参数。在本文中,我们选择第二种方法。gydF4y2Ba

我们选择了以下脉冲特征来比较它们由神经网络重建的情况(gydF4y2Ba预测gydF4y2Ba)与原始模拟数据(gydF4y2Ba目标gydF4y2Ba):gydF4y2Ba

踢gydF4y2Ba

“踢”是每次x射线照射的电子动能的最大条纹位移,因此对于给定的时间延迟和x射线脉冲与红外条纹激光之间的相位关系。有两个主要的原因改变在一个镜头到另一个镜头的踢。首先是gydF4y2Ba相对定时抖动gydF4y2Bax射线和条纹脉冲之间的距离gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba26gydF4y2Ba,这是不可避免的,由于SASE机制的随机产生过程和空气波动、光机械元件的热膨胀以及两个独立激光脉冲之间的一般同步误差引起的额外到达时间波动。踢腿变化的第二个原因是gydF4y2Ba载波包络相位的随机变化gydF4y2Ba一个镜头一个镜头的激光条纹。我们可以通过稳定载波包络相位来解决这个问题gydF4y2Ba27gydF4y2Ba,这是一个相当困难的技术要求,或通过使用角条纹技术gydF4y2Ba12gydF4y2Ba,这是本文所研究的模拟的基础。gydF4y2Ba

由于我们将时间分布(x射线强度结构)转换为能量分布(条纹光电子的动能),较低的踢值意味着更浅的条纹斜坡梯度,这是由与条纹激光波长对应的电场周期内的踢给出的。因此,测量的分辨率会直接随着水涌的减少而降低。从这个意义上说,踢水强度的确定本身并不是那么有趣,而是对重建质量的衡量,可以用作数据的过滤处理。这也是应用神经网络功能的一个很好的一致性检查,因为踢脚是一个参数,也可以很容易地用其他分析方法进行评估。gydF4y2Ba

脉冲持续时间gydF4y2Ba

脉冲持续时间是许多超快自由电子激光实验中最重要的参数,例如,各种泵浦/探针测量电子状态变化或非线性激发动力学的研究gydF4y2Ba19gydF4y2Ba,gydF4y2Ba29gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31gydF4y2Ba尽管它是最难直接测量的之一。特别是对于XFEL SASE脉冲,每个脉冲都有不同的持续时间和不稳定的强度结构,甚至使术语的定义复杂化gydF4y2Ba脉冲持续时间gydF4y2Ba.在本文中,我们使用gydF4y2Ba均方根(RMS)持续时间gydF4y2Ba,即时间强度剖面的时间方差的平方根gydF4y2Ba32gydF4y2Ba,gydF4y2Ba

$$\begin{aligned} t_\ mathm {p,RMS} = \√{\langle t^2 \rangle - \langle t \rangle ^2}, \end{aligned}$$gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2Ba

$ ${对齐}\ \开始langle t ^ n \纠正= \压裂{1}{n} \ int _ {- \ infty} ^ {\ infty} t ^ n (t) \;dt文本{和}\四\ \四N = \ int _ {- \ infty} ^ {\ infty}我(t) \;dt \{对齐}$ $gydF4y2Ba
(2)gydF4y2Ba

是gydF4y2BangydF4y2Ba-th矩和归一化常数,分别作为的基本定义gydF4y2Ba脉冲持续时间gydF4y2Ba.gydF4y2Ba

来自桌面系统的性能更良好的类高斯激光脉冲的常见选择是gydF4y2Ba半最大全宽(FWHM)gydF4y2Ba.给定一个带有标准差的高斯分布gydF4y2Baσ\ (\ \)gydF4y2Ba,对应于本例中的RMS持续时间,FWHM的计算公式如下:gydF4y2Ba

$$\begin{aligned} FWHM = 2\√{2\ln 2}\sigma \约2.35 \cdot \sigma。\{对齐}$ $gydF4y2Ba
(3)gydF4y2Ba

由于SASE脉冲通常呈尖状且不规则(参见图。gydF4y2Ba4gydF4y2Ba),这个指标并不完全适用。然而,在我们的模拟案例中,由于我们使用FWHM来生成(实际上是定义)图中的高斯分布包络,这个量仍然是有趣的。gydF4y2Ba4gydF4y2Ba因为FWHM更好地与全长脉冲持续时间的直观概念相关。然而,RMS持续时间提供了一个更完整的测量脉冲能量的时间分布,包括可能的脉冲翼gydF4y2Ba32gydF4y2Ba或子结构(另见下一段)。gydF4y2Ba

图4gydF4y2Ba
图4gydF4y2Ba

三个不同的SASE XFEL脉冲强度结构示例,显示了OCELOT生成的不同的总持续时间和复杂性gydF4y2Ba28gydF4y2Ba.以FWHM/RMS表示的脉冲持续时间分别为1.5 fs/640 as(蓝色),4.5 fs/1.9 fs(橙色)和10.4 fs/4.4 fs(绿色)。对应的高斯脉冲包络以虚线灰色曲线表示,包括FWHM持续时间,其在时间轴上的投影为黑线。gydF4y2Ba

脉冲结构gydF4y2Ba

由于FEL中的微聚束,每个SASE脉冲都有一个单独的强度分布,由几个随机强度的较短的“峰值”组成(参见图。gydF4y2Ba4gydF4y2Ba).每个脉冲的平均峰值数是由XFEL的特定操作参数决定的。它可以在统计处理中表示为对XFEL脉冲有贡献的单个能量模式的数量gydF4y2Ba33gydF4y2Ba.随之而来的脉冲形状可以是任意复杂的。总体脉冲持续时间相对于单脉冲长度越短,即每个完整脉冲的峰值越少,单个峰值就变得越重要(图2)。gydF4y2Ba4gydF4y2Ba).特别是对于估计被研究探针的损伤阈值以及对瞬时x射线强度敏感的实验,或者对于超快泵/探针测量,需要准确地知道XFEL脉冲结构,以明确地解释在一炮对一炮的基础上观测到的数据。gydF4y2Ba

俄歇衰减时间gydF4y2Ba

许多科学上有趣的非平衡物理和结构变化化学过程并不是由刺激的x射线脉冲直接触发的,而是随后复杂的弛豫动力学的结果。这些动力学是由时间相关的,即所研究系统的暂态电子结构决定的。一个最基本的电子过程后,内层电离的x射线物质gydF4y2Ba钻蛀牙gydF4y2Ba,由外层的第二个电子填满所产生的核心空穴,并将多余的能量转移给第三个电子(gydF4y2Ba俄歇电子gydF4y2Ba),然后由离子发出。这个过程是特定于一个原子或分子系统的离散电子状态的贡献,并且对于第三个电子的发射有一个特征的时间常数(gydF4y2Ba俄歇衰减时间gydF4y2Ba).在我们的模拟中,我们假设在1s电离后,一个俄歇衰变通道主导氖(Ne)。相应的俄歇衰减时间为2-3秒gydF4y2Ba34gydF4y2Ba可以作为基本基准,用于演示该方法从记录数据中检索超快定时信息的能力。gydF4y2Ba

结果gydF4y2Ba

利用卷积神经网络可以不同程度地预测上述SASE XFEL脉冲特性。对于每个脉冲特征,我们将更详细地检查训练模型的结果。gydF4y2Ba

踢gydF4y2Ba

在所有被研究的特征中,踢是最容易预测的。数字gydF4y2Ba5gydF4y2BaA表明,大多数预测只略微偏离各自的目标。事实证明gydF4y2Ba\ \ (96 \ %)gydF4y2Ba所有预测的偏差都小于gydF4y2Ba\ \ (10 \ %)gydF4y2Ba各自的目标值。虽然可以很容易地从探测器图像中得到踢脚,但准确估计这个参数对于更好地判断重建的可靠性是必要的gydF4y2BaFWHM脉冲持续时间gydF4y2Ba,gydF4y2Ba脉冲结构gydF4y2Ba而且gydF4y2Ba俄歇衰减时间gydF4y2Ba.这一点将在以下各段中体现出来。gydF4y2Ba

图5gydF4y2Ba
图5gydF4y2Ba

标签的预测精度和依赖性gydF4y2Ba踢gydF4y2Ba,gydF4y2Ba均方根脉冲持续时间gydF4y2Ba,gydF4y2BaFWHM脉冲持续时间gydF4y2Ba,gydF4y2Ba衰变gydF4y2Ba使用包含所有级别噪音的数据集[gydF4y2Ba% \ \ 0下午(\ \)gydF4y2Ba,gydF4y2Ba\(10 \ % \ \下午)gydF4y2Ba,gydF4y2Ba\(\ \ % \ 20日)下午gydF4y2Ba,gydF4y2Ba\(\ \ % \ 30日)下午gydF4y2Ba].图中分布的轻微倾斜。(gydF4y2BabgydF4y2Ba), (gydF4y2BacgydF4y2Ba) & (gydF4y2BadgydF4y2Ba)源于神经网络的固有倾向,即对于不清楚的输入,即来自踢脚过低的探测器图像,预测值更接近学习参数空间的平均值。gydF4y2Ba

FWHM脉冲持续时间gydF4y2Ba

预测FWHM脉冲持续时间与目标脉冲持续时间的比较如图所示。gydF4y2Ba5gydF4y2Bab.对于井涌估算,大部分值都得到了很好的重构。然而,很明显,一些预测严重偏离目标值。解释这种行为的一个假设是,对于较小的踢,测量的分辨率会降低,预测脉冲持续时间可能变得非常困难。这就是为什么我们研究了FWHM脉冲持续时间估计与真实踢值的准确性。gydF4y2Ba

数字gydF4y2Ba5gydF4y2BaE证实了先前陈述的假设。在约5 eV的(真)启动值以上,估算FWHM脉冲持续时间就变得可行了。事实上,在gydF4y2Ba\ \ (94 \ %)gydF4y2Ba在所有踢程大于5 eV的情况下,预测值与目标值之间的偏差小于1 fs。这是由于在标称SASE带宽的量级上的小踢值与不成功的角度条纹拍摄相关,无论如何都需要丢弃。补充图。gydF4y2Ba2gydF4y2BaA和b分别展示了大踢腿和小踢腿的示范镜头。gydF4y2Ba

俄歇衰减时间gydF4y2Ba

螺旋衰减时间也可以通过相应的神经网络很好地逼近(参见图。gydF4y2Ba5gydF4y2Bac).大部分估计值几乎不偏离目标值与预测值之差的零线。然而,对于FWHM脉冲持续时间的估计,有一些异常值与真实的俄歇衰减时间值有很大的偏差。使用与FWHM脉冲持续时间估计相同的推理,我们比较了俄歇衰减时间值的预测与真正的启动值。在这里,可以观察到与FWHM脉冲持续时间相同的行为(参见图。gydF4y2Ba5gydF4y2Baf).显然,俄歇衰减时间的合理确定仅适用于3 eV或更高的踢爆值。事实上,在gydF4y2Ba\ \ (92 \ %)gydF4y2Ba在所有踢程大于3 eV的情况下,预测值与目标值的偏差小于0.5 fs。因此,具有小踢程值的镜头应该提前丢弃,以适当地近似真实的俄歇衰减时间。与之前一样,补充图表。gydF4y2Ba2gydF4y2BaC和d分别显示用于衰减重建的小踢和大踢示例镜头。gydF4y2Ba

脉冲结构和RMS脉冲持续时间gydF4y2Ba

SASE脉冲的全时间脉冲结构可能是我们研究中最难预测的性质。这并不奇怪,因为它也是最复杂的一个,在踢或脉冲持续时间的情况下,它由一个矢量而不是一个单一的值表示,它保存了随着时间的强度分布的信息。总的来说,训练的网络在预测脉冲结构的趋势,即峰值位置及其相对强度的目标上表现得比较好。然而,正如预期的那样,对于更复杂的脉冲结构,这些预测就不那么准确了。这种行为可以在图中两个不同的模拟SASE脉冲示例中看到。gydF4y2Ba6gydF4y2Ba,一个相对简单的方法(图;gydF4y2Ba6gydF4y2Baa)和一个更复杂的(图。gydF4y2Ba6gydF4y2BaB),其中不是所有的精细结构都能可靠地再现。尽管如此,包括较大的峰在内的主要特征总是可以预测的。gydF4y2Ba

图6gydF4y2Ba
图6gydF4y2Ba

简单的例子(gydF4y2Ba一个gydF4y2Ba)和更复杂的(gydF4y2BabgydF4y2Ba)模拟和重建了RMS脉冲持续时间分别为6.2 fs和11.7 fs的SASE脉冲结构。gydF4y2Ba

值得注意的是,预测脉冲结构的质量不显示出与踢值的显著依赖关系;除了一个非常接近或等于零的踢,这并不奇怪,因为这同样对应一个不成功的事件,基本上没有裸奔发生。正如人们可能预期的那样,脉冲的持续时间也没有显著的依赖关系。均方误差(MSE)的绝对值确实随着脉冲持续时间的增加而增加;然而,归一化后,平均“每时间步的MSE”或多或少是常数(参见补充图。gydF4y2Ba3.gydF4y2Ba).现在我们的模型能够提取脉冲结构,可以通过使用Eq. (gydF4y2Ba1gydF4y2Ba).数字gydF4y2Ba5gydF4y2Bad表示计算得到的RMS脉冲持续时间与目标脉冲结构的RMS脉冲持续时间的偏差。平均偏差小于1 fs。只有非常长的脉冲持续时间,才有轻微低估的趋势,尽管在大多数情况下误差仍保持在10%左右。我们注意到,用于直接预测RMS脉冲持续时间的附加NN可以作为从脉冲结构计算的RMS值的比较度量,允许对重建质量进行粗略估计。gydF4y2Ba

噪声对神经网络性能的影响gydF4y2Ba

为了研究噪声对预测的影响,我们生成了一个由几个不同噪声水平的探测器图像组成的测试集(gydF4y2Ba\(p = [0.0, 0.1, 0.2, 0.3]\)gydF4y2Ba),如式(gydF4y2Ba4gydF4y2Ba)在“gydF4y2Ba方法gydF4y2Ba,然后把它输入神经网络。gydF4y2Ba

正如预期的那样,额外的噪声会影响神经网络的预测结果(参见表gydF4y2Ba1gydF4y2Ba).图中给出了一个噪声模拟探测器图像的例子。gydF4y2Ba2gydF4y2Bab,不同模拟设置的更有表现力的示例如图所示。gydF4y2Ba4gydF4y2Ba.对无噪声数据的预测几乎是完美的,而对有噪声数据的预测与目标略有不同。尽管预测精度有所下降,但很明显,神经网络可以鲁棒地处理噪声。gydF4y2Ba

表1分别在1000个样本上计算的预测标签相对于各自目标踢程、脉冲持续时间和俄歇衰减的标准差。gydF4y2Ba

讨论与展望:在线sase脉冲表征与成形gydF4y2Ba

到目前为止,我们已经证明了XFEL脉冲的几个特征是可预测的,具有不同程度的准确性。为了研究在实验活动中,当前状态与实时脉冲表征有多接近,我们需要解决许多不同的问题,这些问题都可以利用神经网络方法所提供的特定分析强度来解决:gydF4y2Ba

输出速度gydF4y2Ba

为了在kHz-MHz频段下以XFEL重复速率全速评估输入图像,必须进行高效的分析。神经网络以快速交付输出而闻名。我们使用了几个批量大小,从一个图像到4096作为输入。调查这一点很重要,因为这样的比较决定了批处理和高度并行的分析是否比图像分析执行得更好。批处理评估特别适用于欧洲XFEL设施,因为具有非常快的脉冲序列(每600 μs最多2700个)的序列后面有几毫秒的暂停,可用于分析目的gydF4y2Ba5gydF4y2Ba,gydF4y2Ba35gydF4y2Ba.我们已经测试了在GeForce RTX 2070 GPU上使用单精度浮点格式生成NN输出的速度(表2)gydF4y2Ba2gydF4y2Ba).gydF4y2Ba

表2训练模型在不同批量大小(BS)的GeForce RTX 2070卡上预测的时间测量。gydF4y2Ba

该模型能够实现快速预测,主要独立于批处理大小,因为GPU上的计算运行所有任务,即并行计算批处理中每个图像的预测。一般情况下,一批图像的输入数量只受所使用GPU的RAM的限制。因此,分析大量数据显然比分析单个图像更有优势。由于批量大小为4096,我们目前的模型已经能够在高重复模式下跟上欧洲XFEL的在线预测。gydF4y2Ba

可靠性评估gydF4y2Ba

在快速评估之后,神经网络预测必须保证一定程度的确定性。结果表明,神经网络预测可能会与目标有很大的偏差。有些困难是可以直接绕过的。例如,通过确定踢,我们已经可以过滤关于标签的预测是否gydF4y2Ba俄歇衰减时间gydF4y2Ba或gydF4y2Ba脉冲持续时间gydF4y2Ba是合理的。但这仍然没有给我们一个直接的陈述,说明神经网络的预测有多确定。最理想的情况是,我们希望有一个可靠的方法来衡量训练过的模型的预测有多好,即使是对于没有目标的未知射击。gydF4y2Ba

有几种方法可以确定神经网络的预测不确定性。认识的不确定性决定了由于知识不足而产生的不确定性。这可以实现,例如,通过蒙特卡洛dropoutgydF4y2Ba36gydF4y2Ba或蒙特卡罗批归一化gydF4y2Ba37gydF4y2Ba.任意不确定性决定了由于问题的复杂性而产生的不确定性,可以通过建立拟合的代价函数来研究gydF4y2Ba38gydF4y2Ba.这个主题目前是ML研究的一个非常活跃的领域。我们正在开发自己的方法来对随机x射线脉冲重建的特定任务进行基准测试,理想情况下,如前所述,将两种不确定度测定结合在一个程序中gydF4y2Ba38gydF4y2Ba.gydF4y2Ba

模拟与现实之间的差距gydF4y2Ba

到目前为止,我们的神经网络只适用于与图中所示输入完全相同的数据。gydF4y2Ba2gydF4y2Ba.神经网络是否适用于对实验数据的预测(参见图1)。gydF4y2Ba2gydF4y2BaA)不容易验证,特别是因为我们没有实验数据的真实标签。此外,我们需要确定我们的模型噪声在多大程度上复制了光谱仪的真实噪声,例如,探测器读数的电子振铃或来自不希望的过程的背景信号。解决模拟与实验之间的差距有两种方法。在分析之前,真实数据必须去噪(例如,去噪自动编码器gydF4y2Ba39gydF4y2Ba)或必须提供附加的、适当建模的噪声的模拟数据。在两个方向同时采取的办法应能更全面地了解在今后的努力中如何减轻这一问题。gydF4y2Ba

响应变化gydF4y2Ba

我们已经证明了我们开发的神经网络可以处理具有多个噪声级别的数据。然而,在使用现实生活中的TOF光谱仪时,可能会发生TOF传感器失效或产生不切实际的结果。在这种情况下,神经网络的再培训或知识扩展是不可避免的。这里,在线学习gydF4y2Ba40gydF4y2Ba是一个有用的工具。在这种情况下,模型在新生成的数据上进行连续训练。因此,训练可以快速适应新的环境。为了避免灾难性的遗忘gydF4y2Ba41gydF4y2Ba不断学习gydF4y2Ba42gydF4y2Ba,gydF4y2Ba43gydF4y2Ba可能被利用。gydF4y2Ba

脉冲整形gydF4y2Ba

脉冲整形这个术语可以用两种技术上不同的方式来解释。利用目前手稿中已经展示的在线分析方法,我们可以建立一个基于每个脉冲的完整特征和过滤所需脉冲形状和持续时间的可能性的x射线排序方案。特别是对于高重复率的XFELs,这可能是“被动塑造”的重要形式。第二种更令人兴奋的方法是在智能实验方案和机器与同时基于光子的测量的动态交互方面进行实际的脉冲整形。因此,x射线脉冲变化的实时更新可用于更详细的参数控制和实际的SASE脉冲整形。这种相互作用的第一步已经确定需要一个反馈回路到加速器,提供在线数据流,例如x射线脉冲持续时间和频谱。机器操作员可以选择将这个循环加入到他们的电子束压缩算法中,并预设要追求的优化目标。智能和主动实验的进一步步骤正在开发中,并将在未来的研究中提出。gydF4y2Ba

结论gydF4y2Ba

在本文中,我们通过将神经网络应用于角条纹捕获的探测器图像,演示了自由电子激光脉冲在线表征的路径。除了几个可预测的特征之外,我们已经能够识别和确认各自特征之间的依赖关系,这些特征可用于在实验活动中控制机器设置。通过这种方式,角条纹技术有潜力从原理证明阶段利用到所有自由电子激光设备的强大和高度先进的诊断工具,包括高重复率操作。此外,这些新型的ML重建程序也可以用于更好的在线x射线脉冲控制和未来的FEL脉冲整形。成功实施这些先进方法的进一步步骤包括通过测量噪声的特定仪器处理和误差和可靠性估计的可靠概念来缩小模拟和实验数据之间的差距,我们将在未来的工作中进行研究。gydF4y2Ba

方法:机器学习程序设计gydF4y2Ba

在真实的XFEL实验中,单个SASE脉冲的谱图或脉冲特征必须从探测器图像中重建。从高重复率XFELs中获得快速脉冲序列的单发特性的方法尚属首次gydF4y2Ba44gydF4y2Ba.不幸的是,它们只在有限的程度上适用于在实验活动期间通过实时处理提供详细的见解。gydF4y2Ba

在这里,我们将专门开发的神经网络应用于角条纹方法,以演示快速在线脉冲表征的可能性,因为神经网络,特别是卷积神经网络,已被证明适用于类似的挑战gydF4y2Ba45gydF4y2Ba,gydF4y2Ba46gydF4y2Ba.gydF4y2Ba

一般机器学习问题的表述gydF4y2Ba

对于每个脉冲特征,我们需要训练一个以探测器图像为输入的神经网络(参见图。gydF4y2Ba7gydF4y2Ba).每个神经网络的输出各不相同,如下所示:gydF4y2Ba

图7gydF4y2Ba
图7gydF4y2Ba

我们使用模拟谱图根据探测器图像进行构造。这些图像用于训练神经网络,然后提取几种不同的脉冲特征。gydF4y2Ba

踢gydF4y2Ba

踢是探测器图像内波状强度分布的振幅(参见图。gydF4y2Ba2gydF4y2Ba).当改变反射角时,光谱图保持不变,因为反射角只影响探测器图像中捕获的条纹信号。这就是为什么踢脚很容易从探测器图像中提取出来的原因。神经网络必须解决一个回归任务,其中输出是单位eV中的一个数字。gydF4y2Ba

FWHM脉冲持续时间gydF4y2Ba

FWHM脉冲持续时间可以很好地从谱图中提取出来,因为它可以被看作gydF4y2Ba\(2.35 \cdot \sigma\)gydF4y2Ba(cf情商。gydF4y2Ba3.gydF4y2Ba)的方向gydF4y2BaxgydF4y2Ba(时间尺度),与gydF4y2Baσ\ (\ \)gydF4y2Ba为二维高斯分布在x方向上的标准差。FWHM脉冲持续时间越长,分布在x方向上的拉伸越长。在探测器图像中,脉冲持续时间的改变主要影响波形的宽度和特性。在这里,神经网络必须解决一个回归任务,其中输出是单位fs中的一个数字。gydF4y2Ba

俄歇衰减时间gydF4y2Ba

俄歇衰变在光谱图和探测器图像中都是可见的。在谱图中,二维高斯分布后的尾长表示衰减时间(参见图2)。gydF4y2Ba2gydF4y2Bae).尾越长,衰减越大。在探测器图像中,更大的衰减影响了波的失真(参见图。gydF4y2Ba2gydF4y2Bah).再一次,神经网络必须解决一个回归任务,其中输出是单位fs中的一个数字。gydF4y2Ba

脉冲结构gydF4y2Ba

脉冲结构是提取最具挑战性的特征,因为输出本身由几个值组成,指示SASE脉冲内多个峰值的强度。通过观察图中的光谱图。gydF4y2Ba2gydF4y2BaC,我们可以看到脉冲结构可以通过沿纵轴将每个时间点的强度加起来得到。脉冲特性将在这里确定为强度作为到达时间的函数,其中强度是在6 eV光谱带宽内对所有光子能量的积分。这导致输出类似于图。gydF4y2Ba4gydF4y2Ba.在这种情况下,神经网络必须解决一个回归任务,其中输出由任意强度单位的几个时间步组成。gydF4y2Ba

关于gydF4y2Ba脉冲持续时间gydF4y2Ba:由于RMS脉冲持续时间可以直接从脉冲结构中得到,因此不需要针对该脉冲特征训练独立的神经网络。gydF4y2Ba

在对ML问题进行总体检查之后,下一节将详细介绍ML管道的外观,以及如何依次解决上面的单个ML问题。gydF4y2Ba

框架条件gydF4y2Ba

为了以有监督的方式训练神经网络,我们需要训练数据gydF4y2Ba\ (\ mathscr {D} _K \)gydF4y2Ba的大小gydF4y2Ba\(K \in \mathbb {N}\)gydF4y2Ba,包括gydF4y2BaKgydF4y2Ba模拟探测器图像gydF4y2Ba\ (\ mathscr {X} = \ {\ mathbf {X} _i \中\ mathbf {M} ^ {M \ n} (\ mathbb {R}), \我= 1,\点,K \} \)gydF4y2Ba而且gydF4y2BaKgydF4y2Ba对应的脉冲特性gydF4y2Ba\ (\ mathscr {L} = \ {L_i \中\ mathbb {R} ^ j_{+} \我= 1,\点,K \} \)gydF4y2Ba.在这里,gydF4y2Ba米gydF4y2Ba在完整的光谱仪设置中使用的TOF探测器的数量和gydF4y2BangydF4y2Ba以间隔显示电子动能。的大小gydF4y2BajgydF4y2Ba根据需要预测的脉冲特性而变化。在下文中,我们将脉冲特性称为gydF4y2Ba标签gydF4y2Ba.为了验证神经网络的性能,我们进行了拆分gydF4y2Ba\ (\ mathscr {D} _K \)gydF4y2Ba分成两组,gydF4y2Ba\ (\ mathscr {D} _ \ mathrm{火车}\)gydF4y2Ba而且gydF4y2Ba\ (\ mathscr {D} _ \ mathrm{测试}\)gydF4y2Ba,以致于gydF4y2Ba\ (\ mathscr {D} _K = \ mathscr {D} _ \ mathrm{火车}\杯\ mathscr {D} _ \ mathrm{测试}\)gydF4y2Ba.神经网络的精度由gydF4y2Ba\ (\ mathscr {D} _ \ mathrm{测试}\)gydF4y2Ba.我们用gydF4y2BangydF4y2Ba不同批次的检测器图像gydF4y2Ba\ (\ mathscr {B} \ mathscr _n”\ D {} _ \ mathrm{火车}\)gydF4y2Ba.类似地,我们用gydF4y2Ba米gydF4y2Ba探测器图像批次gydF4y2Ba\(\mathscr {B}_m \in \mathscr {D}_\mathrm{test}\)gydF4y2Ba.为了避免神经网络的过拟合,我们利用gydF4y2Ba交叉验证gydF4y2Ba47gydF4y2Ba.gydF4y2Ba

虽然我们在模拟环境中工作,但选择与真实实验数据相对应的值是合理的(参见图1)。gydF4y2Ba2gydF4y2Baa).因此,我们从早期实验活动中获取先前获得的数据gydF4y2Ba12gydF4y2Ba举个例子。具体来说,这意味着:gydF4y2Ba

  • 对于两个用例,Ne 1s和KLL俄歇电子数据,我们生成大小为gydF4y2Ba\(K = 4.4 \cdot 10^{6}\)gydF4y2Ba待预测样本。其中,gydF4y2Ba\(4 \cdot 10^{6}\)gydF4y2Ba用于培训和gydF4y2Ba\(4 \cdot 10^{5}\)gydF4y2Ba进行测试。gydF4y2Ba

  • 我们的角度分辨光谱仪由gydF4y2Ba\(m = 16\)gydF4y2BaTOF探测器。gydF4y2Ba

  • 我们将TOF检测器中的间隔固定为gydF4y2Ba\(n = 200\)gydF4y2Ba,具有不同的能量仓大小。gydF4y2Ba

更具体地说,这意味着下面的神经网络架构取决于所选择的参数,尽管它可以很容易地适应,例如,添加更多的TOF检测器。gydF4y2Ba

准备模拟数据gydF4y2Ba

我们从Hartmann等人介绍的模拟环境中推导出Ne 1s和KLL俄歇电子的人工探测器图像。gydF4y2Ba12gydF4y2Ba.1s光电子的动能取决于电离x射线光子能量,在这种情况下,它被设置为1180 eV。我们为x射线脉冲设置了6ev的频谱带宽,但忽略了这些模拟中潜在啁啾的影响,它只会对本研究中重建的参数产生边际影响。光子能量为1180ev时,Ne 1s光电子动能中心为gydF4y2Ba\ \ (sim \)gydF4y2Ba310 eV。俄歇电子动能与x射线光子能量和带宽无关,主峰位于gydF4y2Ba\ \ (sim \)gydF4y2Ba804 eV和由探测器分辨率确定的标准偏差。角条纹将分布在360°的16个探测器的TOF测量映射到35.3 fs的窗口,因为这是所选条纹波长的一个光学周期的持续时间gydF4y2Ba\ \λ= 10.6 (\)gydF4y2Baμm的圆偏振激光在Hartmann等。gydF4y2Ba12gydF4y2Ba.gydF4y2Ba

我们选择的范围和精度的基础上,实验实现预期的实际条纹测量在XFELs。我们希望我们的模型在0-30 eV的范围内估计踢,在0.4-1.34 fs的范围内估计FWHM脉冲持续时间,在0-10 fs的范围内估计衰减。脉冲结构的时间分辨率同样根据x射线脉冲强度结构中最短特征(SASE尖峰)的预期持续时间来选择,导致脉冲结构重建沿时间轴的网格大小为441。gydF4y2Ba

数据gydF4y2Ba2gydF4y2BaC和f的模拟没有伪影。在无花果。gydF4y2Ba2gydF4y2Bac,谱图中只有一个随机分布的高斯分布。到目前为止,基本的脉冲结构被忽略了。为了更接近真实数据(参见图1)。gydF4y2Ba2gydF4y2BaA),我们实现三个步骤。我们在谱图中加入脉冲结构,在模拟探测器图像中加入噪声,并利用数据归一化为神经网络训练准备数据。gydF4y2Ba

步骤1:在频谱图中添加脉冲结构:gydF4y2Ba为了在频谱图中实现类似于sas的时间结构,我们用尖峰强度剖面调制原始高斯时间分布(参见图2)。gydF4y2Ba4gydF4y2Ba).我们通过在超短脉冲模式下XFEL的典型设置中生成具有随机振幅和峰值持续时间的高斯峰值梳来获得后者gydF4y2Ba33gydF4y2Ba.gydF4y2Ba

步骤2:添加噪声到探测器图像:gydF4y2Ba额外的噪音被添加到gydF4y2Ba\(\mathbf {X}\ in \mathscr {X}\)gydF4y2Ba,表示检测器图像中每个像素的强度值,在训练和测试过程中,如式(gydF4y2Ba4gydF4y2Ba).一个给定的百分比gydF4y2BapgydF4y2Ba的最大强度值gydF4y2Ba\(间\ mathrm{马克斯}\)gydF4y2Ba的gydF4y2Ba\(\mathbf {X}\ in \mathscr {X}\)gydF4y2Ba是否用作相等分布的上界和下界gydF4y2Ba\ (\ mathscr {G} \)gydF4y2Ba画gydF4y2BawgydF4y2Ba来自:gydF4y2Ba

$ ${对齐}\ \开始mathbf {X} _ \ mathrm{嘈杂}= \离开(间{i, j} +(间\ mathrm{马克斯}\ cdot w) \右)_{\点,我= 1 m, j = 1, \点,n}, w \ sim \ mathscr {G} (- p, p) \{对齐}$ $gydF4y2Ba
(4)gydF4y2Ba

数字gydF4y2Ba2gydF4y2BaB显示添加了噪声的探测器图像(gydF4y2Ba\(p = 0.3\)gydF4y2Ba).gydF4y2Ba

步骤3:规范化数据:gydF4y2Ba很明显,强度值的范围因情况而异。为了解决这个问题,我们对每个对象执行min-max归一化gydF4y2Ba\(\mathbf {X}\ in \mathscr {X}\)gydF4y2Ba.因此,最小值(gydF4y2Ba\(间\ mathrm{分钟}\)gydF4y2Ba)和最大值(gydF4y2Ba\(间\ mathrm{马克斯}\)gydF4y2Ba)强度值gydF4y2Ba\ (\ mathbf {X} \)gydF4y2Ba用于为每个像素值执行转换gydF4y2Ba\(间{k, l} \)gydF4y2Ba:gydF4y2Ba

$ ${对齐}\ \开始mathbf {X} _ \ mathrm{规范}= \离开(\压裂{间{k, l} -间\ mathrm{分钟}}{间\ mathrm{马克斯}间\ mathrm{分钟}}\右)_{\点k = 1, m, l = 1, \点,n}, \{对齐}$ $gydF4y2Ba
(5)gydF4y2Ba

归一化后,所有的值gydF4y2Ba\ (\ mathbf {X} _ \ mathrm{规范}\)gydF4y2Ba在区间[0,1]内。gydF4y2Ba

设计机器学习模型gydF4y2Ba

当我们想要从图像中提取信息时,最直观的解决方案是使用卷积神经网络gydF4y2Ba48gydF4y2Ba,gydF4y2Ba49gydF4y2Ba它使用卷积和池化来提取边缘等低级和高级特征,并使用全连接层预测这些特征的估计。在我们的情况下,理想的估计应该与目标脉冲特征相对应。gydF4y2Ba

体系结构gydF4y2Ba

关于选择合适的神经网络架构的一个关键问题是检测器图像的维数,它们的大小不相等,因此不对称。在NN的设计中需要考虑到这一事实。此外,我们希望我们的神经网络架构尽可能密集,以确保可靠在线操作的泛化和性能。在测试了几个具有不同数量的层和神经元的架构配置后,最适合我们的问题的网络架构是具有三个卷积块的神经网络(参见图2)。gydF4y2Ba8gydF4y2Ba).每个块包含一个卷积层,后面是一个激活函数和一个最大池化层。卷积层使用3 × 3核,步幅为1 × 1和1 × 1零填充。池化层使用3 × 3内核,2 × 2步幅和1 × 1零填充。小于三个卷积块的架构无法掌握从检测器图像派生到所需标签的底层映射所需的所有必要特征。神经网络是专门设计来切割两个维度,即图像的宽度和高度,在每个块后减半。对于相应的卷积层,滤波器大小[16,32,64]已被证明是足够的。对于全连接阶段(除了最后一层),我们使用了三个层,分别有[3200,1600,800]个神经元。在全连接部分中小于三层的体系结构无法传输足够的信息,从而无法体面地解决问题。最后一层的大小取决于标签的大小来预测,即gydF4y2BajgydF4y2Ba在gydF4y2Ba\ (\ mathscr {L} \)gydF4y2Ba.gydF4y2Ba

图8gydF4y2Ba
图8gydF4y2Ba

该方法采用了卷积神经网络结构。第一层的尺寸(橙色)显示为[通道,高度,宽度]。全连接层的尺寸(紫色)显示了使用神经元的数量。gydF4y2Ba

当预测gydF4y2Ba踢gydF4y2Ba,gydF4y2BaFWHM脉冲持续时间gydF4y2Ba,或gydF4y2Ba衰减时间gydF4y2Ba,gydF4y2Ba\(j = 1\)gydF4y2Ba.当预测gydF4y2Ba脉冲结构gydF4y2Ba,gydF4y2BajgydF4y2Ba对应于谱图x轴的尺寸。我们利用均方误差损失函数来训练和优化网络,因为脉冲特征的预测在任何情况下都是一个回归任务。gydF4y2Ba

Hyperparameter优化gydF4y2Ba

神经网络架构不是唯一需要考虑的选择。特别是在训练神经网络时,选择合适的超参数对于实现高效和目标导向的训练非常重要。在此上下文中,重要的参数是gydF4y2Ba批量大小gydF4y2Ba,gydF4y2Ba激活函数类型gydF4y2Ba,gydF4y2Ba优化器gydF4y2Ba,gydF4y2Ba学习速率gydF4y2Ba.为了找到最合适的超参数组合,我们使用之前的方法对不同的数据集进行网格搜索,并获得以下值:gydF4y2Ba

  • 批量大小gydF4y2Ba:[64, 128, 256, 512, 1024]。gydF4y2Ba

  • 激活函数gydF4y2Ba: [ReLU, Sigmoid]。gydF4y2Ba

  • 优化器gydF4y2BaAdam, SGD(与Momentum合作)。gydF4y2Ba

  • 学习速率gydF4y2Ba:[0.01, 0.001, 0.0001, 0.00001]。gydF4y2Ba

神经网络训练后,我们根据以下标准评估各自的参数组合:gydF4y2Ba

  • 标准1gydF4y2Ba:输入后的测试损耗gydF4y2Ba\ (\ mathscr {D} _ \ mathrm{测试}\)gydF4y2Ba)应该是最小的。gydF4y2Ba

  • 标准2gydF4y2Ba:测试损失曲线的标准偏差应最小,以惩罚收敛缓慢和过拟合。gydF4y2Ba

一般来说,需要注意的是,在训练过程中,并不是只有一种超参数组合能达到良好的结果。尽管如此,已经有了一个明显的领导者。所有标签的最佳超参数配置是批大小为64,ReLU激活函数,学习率为0.0001,Adam作为优化器。gydF4y2Ba