主要

铭文学是研究古代世界的个人、团体和机构直接写在耐用材料(石头、陶器、金属)上的文字——铭文23..成千上万的铭文流传至今,但许多铭文在几个世纪里遭到了破坏,现在它们的文字已经支离破碎。铭文也可能被转移或贩卖到远离原址的地方4,而放射性碳测年法是不可用的,因为大多数铭刻支架都是无机的。然后,专家铭文师必须重建丢失的文本,这一过程称为文本恢复(图2)。1),并确立写作的原始地点和日期,任务分别称为地理归属和时间归属5.这三个任务是将铭文放在历史和书写和阅读它的人的世界中的关键步骤67.然而,这些任务并不是简单的,传统的铭文方法涉及高度复杂、耗时和专业化的工作流程。

图1:破损铭文的修复。
图1

此铭文(铭文Graecae,第1卷,第3版,文件4,面B (搞笑3.4B))记载了一项关于雅典卫城的法令,日期为485/4公元前.马西亚斯,铭文博物馆,维基媒体CC BY 2.5。

当修复损坏的铭文时,铭文学者依赖于访问大量的信息库来寻找文本和上下文的相似性8.这些资料库主要包括研究人员的平行记忆库,以及最近用于执行“字符串匹配”搜索的数字语料库。然而,搜索查询中的差异可能会排除或混淆相关结果,并且几乎不可能估计可能恢复的真实概率分布。确定铭文的出处同样是有问题的——如果铭文被移动过,或者有用的内部年代元素丢失了,历史学家必须找到其他标准来确定书写的地点和日期(如字母形式、方言)。9.不可避免地,这通常涉及到高度的泛化(时间归因间隔可能非常长)。

铭文的深度学习

在这里,我们通过使用最先进的机器学习研究,克服了当前铭文方法的限制。受生物神经网络的启发,深度神经网络可以在大量数据中发现和利用复杂的统计模式10.最近计算能力的提高使这些模型能够应对许多领域日益复杂的挑战11121314,包括古代语言的研究15161718

我们展示了Ithaca,一个深度神经网络架构,训练它同时执行文本恢复、地理归属和时间归属的任务。伊萨卡岛以躲避英雄奥德修斯返乡的希腊岛屿命名,在七世纪之间,它接受了用古希腊语言书写的铭文和穿越古地中海世界的训练公元前在五世纪广告.这一选择有两个主要原因。首先,希腊铭文记录内容和语境的多变性,对语言处理提出了极大的挑战;第二,古希腊语数字化语料库的可用性,这是训练机器学习模型的重要资源。

研究希腊铭文

为了训练伊萨卡,我们开发了一个管道来检索未处理的帕卡德人文学院(PHI)1920.数据集,由178,551个铭文的转录文本组成。这一过程需要将文本呈现为机器可操作的,规范化铭文符号,减少噪声并有效地处理所有不规则情况。每个PHI铭文都被分配一个唯一的数字ID,并被标记为与写作地点和时间相关的元数据。PHI共列出了84个古代地区;然而,编年史信息的记录格式千差万别,从历史年代到精确的年份间隔不等,用几种语言书写,缺乏标准化的符号,经常使用模糊的措辞21.在制作了一个扩展的规则集来处理和过滤数据(方法)后,得到的数据集i.p ei是我们所知的最大的机器可操作铭文文本的多任务数据集,包含78,608个铭文。

伊萨卡岛是铭文任务的典范

伊萨卡的架构为三个题词任务精心定制,有意义地处理长期上下文信息,并产生可解释的输出,以增强人机合作的潜力。首先,通过将输入表示为单词,可以更全面地捕获上下文信息;然而,部分词语可能已经在几个世纪中消失了。为了解决这一挑战,我们将输入文本作为字符和单词表示联合处理,用特殊符号' [unk] '表示损坏、缺失或未知的单词。

接下来,为了实现大规模处理,伊萨卡的躯干是基于一种称为变压器的神经网络架构22,它使用一种注意机制来权衡输入的不同部分(如字符、单词)对模型决策过程的影响。该注意机制通过将输入字符和单词表示与其顺序位置信息连接起来来告知输入文本各部分的位置。伊萨卡的躯干由堆叠的变形块组成:每个块输出一系列经过处理的表示,其长度等于输入字符的数量,每个块的输出成为下一个块的输入。躯干的最终输出被传递给三个不同的任务头,分别处理恢复、地理属性和时间属性。每个头部由一个浅层前馈神经网络组成,专门为每个任务训练。在图中所示的例子中。2,还原头预测丢失的三个字符;地理归属负责人将铭文划分为84个地区;按照时间顺序,它的年代在公元800年之间公元前而且广告800.

图2:伊萨卡岛的建筑处理“δ”(“雅典人民”)。
图2

短语的前三个字符被隐藏,并提出了恢复它们的建议。同时,伊萨卡还预测了铭文的地区和日期。

解释输出

我们的目的是最大限度地发挥历史学家和深度学习之间的合作潜力。因此,伊萨卡的架构旨在提供可理解的输出,同时具有多种可视化方法,以增强模型预测假设的可解释性。对于修复的任务,伊萨卡没有向历史学家提供单一的修复假设,而是提供了一组按概率排名的前20个解码预测(图2)。3).第一个可视化有助于将伊萨卡的建议与历史学家的上下文知识相结合,从而帮助人类做出决策。这是由显著性图补充的,这是一种用于识别哪些独特的输入特征对模型的预测贡献最大的方法,用于恢复和归因任务(图2)。3 d和扩展数据图。5).

图3:伊萨卡的输出。
图3

一个,复原时期对雅典铭文中六个缺失字符(破折号)的预测(搞笑二世²116)。上面绿色的部分是正确的(συμμαχ α, ' alliance ')。注意以下假设(ἐκκλησ α, '集合';和προξεν α,“国家与外国人之间的条约”),用红色标注,通常出现在雅典的政治法令中23,揭示了伊萨卡岛对环境的接受能力。b,来自Amorgos的铭文的地理归属(搞笑第十二章7,2)。伊萨卡岛的最高预测是正确的,最接近的预测是邻近地区。c,来自提洛斯的铭文的日期分布(搞笑地面真实日期间隔300-250公元前用灰色表示;伊萨卡的预测分布以黄色显示,其平均值为273公元前(绿色)。伊萨卡的预测显示,该区间的日期边际较高,因此有可能缩小广泛的真实年代范围。d,雅典铭文的时间归属显著图(搞笑我³371)。颜色强度说明了每个输入的重要性。伊萨卡着重于个人姓名(Νικίας, ' Nikias ')和希腊指挥官的军衔(στρατεγο ζ, '将军')。尼基亚斯在雅典远征西西里岛的战役中扮演了关键角色242526,这段铭文所涉及的历史事件。伊萨卡的碑文记载于413年公元前与历史学家提出的精确范围相吻合(414-413)公元前).

对于地理归属任务,Ithaca将输入文本分为84个区域,可能的区域预测的排名列表通过地图和柱状图可视化地实现(图2)。3 b).最后,为了扩展时间归因任务的可解释性,我们不是输出单个日期值,而是预测日期上的分类分布(图2)。3 c).通过这样做,Ithaca可以更有效地处理基本事实标签,因为这些标签对应于日期间隔。更准确地说,伊萨卡离散了公元800年之间的所有日期公元前而且广告800个以10年为单位,结果是160个十年。例如,日期范围为300-250公元前代表了50年的20%的概率,而铭文可以追溯到305公元前会被分配到300-310公元前100%的概率。

实验评价

为了比较这三个题词任务的性能,我们使用了四种方法。首先,我们通过分配两名具有铭文专业知识的评估人员(“古代历史学家”)来评估修复任务的难度,使用训练集来搜索文本的相似性。其次,我们为人类专家提供了伊萨卡前20个修复假设的排名列表,以告知他们的预测(“古代历史学家和伊萨卡”),从而评估我们作为合作研究援助工作的真实影响。第三,作为计算基准,我们重新实现了之前的工作15一种用于古文复原的序列-序列循环神经网络。最后,对于归因任务,我们引入了铭文者工作流程的消融,即“专题学”基线:注释者的任务是归因一组文本,专门使用已知的希腊人名在时间和空间上的分布来推断地理和时间指示27

我们引入以下指标来衡量每种方法的性能。在复原方面,为了消除受损铭文中缺乏真实的事实,我们将未受损的输入文本人为隐藏1 ~ 10个字符,并以原始序列为目标。使用的第一个度量是字符错误率(CER),它计算顶部预测恢复序列和目标序列之间的归一化差异。此外,我们使用top-k准确性衡量是否正确的恢复或区域标签的地理归属是名列前茅的k从而量化了伊萨卡岛作为辅助工具的潜力。对于时间归因,我们使用距离度量(方法)来测量预测分布的平均值和基本真相区间之间的年距离,后者由最小值和最大值日期定义。

如表所示1在修复任务中,Ithaca始终优于竞争方法,获得26.3%的CER和61.8%的top 1准确度。具体来说,我们的模型实现了比人类专家低2.2倍(即更好)的CER,而Ithaca的前20个预测实现了比Pythia提高1.5倍的性能,准确率为78.3%。值得注意的是,当历史学家与伊萨卡(古代历史学家和伊萨卡)配对时,人类专家实现了18.3%的CER和71.7%的top 1准确度,因此与原始的CER和top 1分数相比,显示出相当大的3.2×和2.8×的提高。在区域归属方面,Ithaca的top 1和top 3预测准确率分别为70.8%和82.1%。最后,对于时间归因,尽管人类的统计基线预测与真实日期间隔的平均距离为144.4年,中位数为94.5年,但伊萨卡的预测基于文本的整体,与目标日期间隔的平均距离为29.3年,中位数距离仅为3年。

表1实验结果

参与历史辩论

我们的实验评估有效地证明了伊萨卡对铭文研究的影响,以及它们作为历史证据的后续价值。首先,Ithaca可以以前所未有的规模和无与伦比的细节发现铭文模式,利用大量的铭文数据(i.p ei)来实现在所有三个铭文任务中观察到的高性能。此外,尽管伊萨卡可能在第一个基线中表现优于历史学家,但历史学家自己的(上下文)知识与伊萨卡的辅助输入相结合,导致了对模型性能的更大改进。伊萨卡的设计决策增强了这种合作潜力,通过不同的可视化辅助增加了输出的可解释性,因此使历史学家能够评估多个假设。因此,伊萨卡可以帮助历史学家缩小他们有时被迫求助的广泛或模糊的日期范围,通过帮助提高精度和建立历史事件的相对年代,甚至有助于当前关于古代史的方法辩论。

事实上,为了证明伊萨卡岛的创造潜力,我们将我们的模型应用于当代关于一组铭文年代的争论,这些铭文的解释对古典雅典的政治史至关重要。历史学家对这些法令应该在446/5之前还是之后存在分歧公元前根据使用特定字母形式作为年代标准的信仰(三巴西格玛年代惯例)28.近年来,这种日期约定的有效性受到了质疑29-许多法令的日期被推迟到420年代公元前因此深刻地影响了我们对雅典帝国主义的理解30.

这组有争议的雅典法令存在于我们的数据集中:它们的日期标签遵循传统的“更高”日期(446/5年前)公元前).我们从数据集中排除了这些文本,并训练伊萨卡使用所有剩余的铭文。值得注意的是,伊萨卡对这些保存下来的文本的预测独立地与最近的测年突破保持一致,因此推翻了基于西格玛测年标准的传统历史解读。更具体地说,iphi标签与现代重新评估提出的“较低”日期平均相差27年,而伊萨卡的预测与新提出的实际情况平均只相差5年。

这个例子雄辩地说明了像伊萨卡这样的模型如何有助于对雅典帝国主义的时间重组进行关键的方法论辩论,这是希腊历史上最重要的时刻之一。在任何情况下,伊萨卡对这组铭文的预测都没有超过433个公元前伊萨卡对所有这些法令的平均预测日期是421年公元前.历史学家现在可以使用伊萨卡的解释辅助工具(如显著性地图)来进一步检查这些预测,使雅典历史更加清晰。

结论

伊萨卡是我们所知的第一个铭文修复和归因模型。通过大幅提高铭文研究的准确性和速度,它可能有助于对新发现的或不确定的铭文进行修复和归因,改变它们作为历史来源的价值,并帮助历史学家对整个古代世界铭文习惯的分布和性质有更全面的了解。为了实现这一目标,我们的跨学科团队创建了一个开源和公开可用的接口(https://ithaca.deepmind.com),使历史学家能够使用伊萨卡进行个人研究,同时促进其进一步应用的发展。

事实上,本研究中介绍的方法适用于处理古代文本的所有学科(纸莎草学、钱币学、法典学),适用于任何语言(古代或现代),还集成了额外的元数据(铭文图像、文体学)。此外,通过将人类加入到训练循环中,伊萨卡作为合作研究辅助工具的典型互动性质,使其成为未来机器学习研究的有效设置。

总之,这项工作的变革性影响在于提供最先进的研究辅助,扩展了古代历史和人文学科的范围。

方法

以前的工作

近年来,一些著作提出了传统的机器学习方法来研究古代文本。这部分工作主要集中在光学字符识别和视觉分析方面31323334,作者识别353637以及文本分析38394041424344, stylometrics45记录日期46.直到最近,学术界才开始使用深度学习和神经网络进行光学字符识别474849505152535455,文本分析56、古文机器翻译575859,作者归属6061以及破译古代语言6263,并被用于研究碑文的形式和风格64

与伊萨卡岛最接近的工作是我们2019年对古代文本修复的研究:皮提亚15.据我们所知,Pythia是第一个使用深度神经网络的古代文本恢复模型,随后是空白语言模型18,巴比伦65以及韩语文本的翻译和修复17,拉丁语BERT用于语言建模、词性标注、词义消歧和单词相似性16楔形文字的年代分类66

据我们所知,伊萨卡是第一个全面解决铭文师工作流程中三个核心任务的模型。它不仅改进了之前由Pythia开发的最先进的系统,而且还首次以前所未有的规模使用深度学习进行地理和时间归属。伊萨卡提供可解释的输出,展示了人类专家和机器学习之间合作的重要性日益上升67-正如我们的实验评估所示。

最重要的是,这项工作展示了如何将人类专家与深度学习架构相匹配,以协同处理任务,从而超越人类和模型在相同任务上的个人(无辅助)表现。事实上,最近的医学研究6869进一步证实了混合架构在解决现实问题方面的重要性。目前的工作通过使用多个图表和地图可视化所有任务的输出概率分布,并通过显著性图增强其可解释性,使人类专家交互成为可能。我们希望这项工作可以通过使用先进的深度学习架构来支持古代历史学家的工作,为数字铭文领域设定一个新的标准。

生成I.PHI语料库

当修复损坏的铭文时,铭文者根据语法和句法的考虑,以及重建的文本的物理形式,推测缺失字符的总数5.无法恢复的推测缺失字符通常用句点或连字符标记,一个连字符等于一个缺失字符。此外,PHI还提供文本的解释性转录(包括大写、标点符号、单词划分、小写字母转换)。

因此,从PHI数据集开始,我们极大地扩展了以前为Pythia设计的用于过滤人类注释的规则集,使文本具有机器可操作性。我们删除了9,441个重复文本,并过滤掉了长度在50个字符以下的所有铭文,而在Pythia的数据集中,我们排除了所有小于100个字符的文本。为了增加可用文本的数量,我们保留了铭文者提出的补充(通常添加在方括号之间),并且我们将未恢复字符的数量与铭文者通常所做的“-”符号的数量相匹配(扩展数据图)。1).

每个PHI铭文被分配到古代地中海世界的一个地区(扩展数据图。2),并包括一个额外的元数据字符串,引用由作者为文本提出的日期(扩展数据图。1).时间信息以各种格式记录(历史年代,精确的年份间隔);多种语言(包括拉丁语);之前的范围(公元前)及之后(ce)共同时代;缺乏标准化的符号(“早期”,“上半场”,“上半场”,“开始”,“乞求”),经常使用模糊的措辞(“7 /6世纪晚期”,“大约”)。100年。?”、“性能试验。64广告”)。在构建了一个扩展的规则集之后,我们成功地为60%的PHI铭文生成了定义良好的日期间隔,因为剩下40%的时间元数据要么丢失了,要么无法处理。生成的i.p ephi数据集包含的铭文比之前的Pythia数据集多1.93倍。数字PHI标识符(PHI ID)以3或4结尾的文本分别被用作测试和验证集(扩展数据表1).

伊萨卡架构

输入

对于每个铭文,模型的输入由(1)字符嵌入序列(实值向量,每个表示出现在铭文对应位置的字母字符);(2)等长词嵌入序列(实值向量,每个向量代表铭文对应字符位置的词汇词;无花果。2);(3)位置嵌入(也是实值向量,每个向量表示输入序列的一个位置)。前两种嵌入是在训练Ithaca时随机初始化和学习的(通过反向传播)。位置嵌入也是可训练的,并且每个维度都使用单独的正弦函数进行初始化22保持相邻步骤之间的对称距离,并在最大长度为768个字符的范围内平滑衰减。我们的词汇包括在i.p ephi中出现超过10次的每一个单词(35,884个单词),而受损或“未知”(表示不足)的单词则用“[unk]”符号表示。字符嵌入和词嵌入的联合使用使得Ithaca的体系结构能够同时感知字符和上下文707172.最后,输入序列用句首字符' < '填充。

躯干

这三个输入序列通过连接每个字符位置的不同嵌入来组合,生成的序列通过模型的躯干被馈送。伊萨卡躯干的架构由八个堆叠的变压器解码器块组成,灵感来自大型变压器模型BigBird73.每个块使用四个稀疏注意头(使用全局、局部和随机注意机制),这将上下文长度的依赖性从二次型降低到线性型,因此使模型能够处理更长的序列73与经典变压器相比。此外,注意机制是“多头”(图2)。2),因为它可以学习考虑从输入中提取的不同类型的信息。例如,不同的注意头可能对特定的字符序列敏感,或者对具有独特的形态句法或语义特征的特定单词和短语更敏感。最后,为了克服阻碍这些复杂块堆叠的问题,每个变压器块使用剩余连接和层归一化(如图中的“添加和归一化”所示)。2).

任务负责人

伊萨卡的躯干输出一个长度等于输入字符数量的序列,这个序列中的每个项目都是一个2048维的嵌入向量。每个任务头由一个两层前馈网络和一个softmax函数组成。有三个不同的任务头,分别处理区域归因,时间归因和恢复。为了预测区域和日期,Ithaca使用第一个输出嵌入(t= 1)并将其传递给两个对应的头部。这种安排类似于DocBERT74在我们的实验评估中,它比其他池化方法(例如输出嵌入的均值池化和最大池化)更好。最后,对于恢复任务,Ithaca使用剩余的输出嵌入(t> 1)因为与输入文本字符有直接对应关系:对于每个缺失字符位置,对应的躯干输出嵌入馈送到恢复任务头部,预测缺失字符。

数据准备和扩充

i.p oe可能是第一个机器可操作铭文文本的多任务数据集,但它的大小仍然比现代典型语言数据集小几个数量级。为了避免过度拟合的风险,这在大规模深度神经网络架构中很常见,我们应用了几种数据增强方法,如下所述,来人为地增加I.PHI训练集的大小。我们初步的实验评估发现,这些方法对于实现报告的性能至关重要。每当在每个训练阶段中再次遇到训练铭文时,就会重新应用这些增强方法。

文本剪切

对于每个铭文,我们选择其文本的任意部分,并忽略其余文本。我们首先对50到768个字符之间的段长度进行采样,然后对段的起始索引进行采样。这种方法有助于Ithaca泛化和改进部分输入的处理。

文本屏蔽

强迫模型依赖上下文信息通常会提高预测效果。为了在我们的模型中实现这一点,在训练期间,我们通过替换从几何分布(P= 0.1)加上“-”。这种跨度屏蔽旨在复制从数据集估计的缺失字符长度上的分布,并使用隐藏的真实字符作为恢复任务的目标标签。

字删除

在训练过程中,我们还以20%的概率从每个输入文本中删除单词(在本例中不使用任何特殊字符替换它们)。在这里,目标仍然是增加训练数据的可变性,以提高模型概括铭文损坏的所有可能方式的能力75

句互换

通过在输入文本中以25%的概率随机交换句子,我们生成多个输入标签对,用于下句预测(NSP)辅助任务。75(见下文)。

数据循环

伊萨卡的源数据集(PHI)是几代学术研究的综合。铭文学者通常通过归纳过程还原文本并按时间顺序对其进行归类。文本修复是在平行的基础上提出的,以更广泛的历史和语言知识为媒介;时间归属的提出部分来自考古和上下文信息,部分来自文本的形式和内容,部分来自文本和材料的相似之处。伊萨卡训练的文本包括以前的学术修复;记载的日期是学术知识积累的产物,也是考古、历史和文本研究归纳的结果。这可能被认为意味着循环,但只有当伊萨卡在一个客观数据的世界中运作,并旨在提供一个客观真实的解决方案时,这才会成立。更确切地说,伊萨卡是一个辅助工具,旨在改进和促进归纳的学术过程,建模不确定性,并提出可能的解决方案供学者考虑。

考虑到文本修复,伊萨卡避免了“历史来自方括号”的风险767778(假设任何提议的修复都是基本事实,即被接受的共识,而不仅仅是几个假设中的一个),因为伊萨卡提议的修复都没有被假设为客观确定的——相反,它们都是作为貌似合理的建议提出的。此外,在训练集中包含现有的学术猜想本身并不构成一种形式的“方括号中的历史”,因为这些猜想本身是通过归纳过程实现的合理的恢复,并被一个或多个专家认为是可接受的,而这正是伊萨卡本身旨在产生的结果。伊萨卡的价值确实在于它能够从最大的已证实的和可能的文本数据集中学习,使归纳推理的潜在过程尽可能强大,从而产生可能的还原供学者评估。

至于时间归属,伊萨卡训练的数据集是在过去对多种元素(如考古出处、材料形式、文本内容和形式)的研究中建立起来的。而伊萨卡则只通过密切关注文本来学习。因此,伊萨卡提出的归因基于对大量文本数据集的归纳研究,以及它与更广泛派生的时间数据的相关性。因此,通过对数据中的文本模式应用机器学习,Ithaca能够对那些试图确定文本日期的尝试进行一些改进。因此,在这种情况下,伊萨卡是学术过程的一部分,它的推理并不比任何其他学者更循环。

关于铭文任务的培训

对于恢复任务,我们使用文本掩蔽增强方法来掩蔽部分输入并产生ground truth。随后,我们使用交叉熵损失来训练伊萨卡来预测缺失的字符。交叉熵损失也用于地理属性,使用区域元数据作为目标标签。我们进一步应用10%系数的标签平滑,以避免过拟合,并为历史学家提供更平滑的预测假设分布。为了完成时间归属的任务,伊萨卡离散了公元800年之间的所有日期公元前而且广告800个,箱子的尺寸是10年。这个范围涵盖了PHI数据集的大部分条目,并包括希腊铭文的传统日期范围。将处理后的ground-truth数据区间离散为等概率的bins,形成目标概率分布。在过去的学术基础上离散和合并不同精度水平的数据范围的局限性已经被注意到7980伊萨卡训练的数据规模,以及对文本模式的更多关注(与前一段相比),至少部分地满足了这一挑战。然后,我们使用Kullback-Leibler散度来最小化目标与预测概率分布之间的差异(图2)。3 c).

最后,为了更好地对上下文建模,我们引入了下句预测损失,这是语言建模任务中常见的辅助功能81.在训练过程中,我们随机洗牌输入文本的一些句子,在每个(非最终的)句子的结尾(用句号,j . j .),我们预测下一个句子是否在正确的顺序(有效)或洗牌增强的产物。通过为句号部署躯干的输出嵌入,我们引入了一个额外的前馈网络,该网络使用二进制交叉熵来预测下一个句子的有效性。角色出现了。

使用这个设置,Ithaca在谷歌云平台上的128张量处理单元(TPU) v4 pod上接受了一周的训练。有效批处理大小为8,192个文本和一个LAMB优化器82用于优化Ithaca的参数,学习率为3 × 10−4.通过贝叶斯优化超参数搜索,每个任务的损失函数使用以下函数进行组合:

$ $ L = 3 \ * {L} _ {{\ rm{恢复}}}+ 2 \ * {L} _ {{\ rm{地区}}}+ 1.25 \ * {L} _ {{\ rm{日期}}}+ 0.01 \ * {L} _ {{\ rm {NSP}}}。$ $

我们不使用单独的掩码(令牌)语言建模损失,这在预训练语言模型时通常使用,因为它与恢复损失非常相似,尽管后者掩码字符而不是令牌。

为了获得伊萨卡的文本恢复预测,我们选择一个缺失字符序列进行预测,并使用波束宽度为100的波束搜索。我们没有使用标准的顺序光束搜索,而是利用了伊萨卡的非自回归性质838485,并使用一个非连续的。每一组都以预测得分最高的置信度开始86,然后进行迭代,在每个时间步恢复确定性最高的特征。我们发现这个版本的Beam Search在我们的评估指标中表现得更好。对于区域归属,输出显示为前10个预测的图表;对于时间属性,我们将模型在可能的日期箱上的预测分布可视化。最后,为了减少随机段选择的方差,我们重复该过程十次,并报告迭代的平均结果。

古代历史学家基线

古文修复的评估人员是两名古代史专业的研究生,他们有7年的历史和语言训练,专门研究希腊历史和铭文文献。因此,他们可以被认为比“一般的”古代历史学家更有能力,但还不能等同于(极少数)该领域的知名专家。学者们被允许使用训练集来搜索文本的“平行点”,并在2小时内平均进行了50次修复。

尽管伊萨卡确实可以更快地提出恢复假设,并对其预测的不确定性进行建模,但它不能在历史和物质背景的基础上做出选择。因此,实验设置不能被认为是人类历史学家和机器学习之间的直接比较,也不能假设评估者是所有历史学家的代表。相反,该实验的目的是衡量任务的难度和合作人工智能的潜力。

专有名词学基线

希腊命名法通常被铭文作者作为几个元素之一来告知他们的归因预测87.在更广泛的铭文工作流程中,受到这种方法的启发,我们设计了一个“onomastic”基线,其中的预测完全基于与希腊人名相关的元数据。五名注释者在希腊人名词典(LGPN)中的一组铭文中寻找名字,LGPN是一个记录古代名字的地理和时间分布的数据库27,并基于LGPN分布数据的归因假设。评估者还分别为地理或时间归属任务提供了铭文的书写日期或地点。

修复指标

为了评估不同的恢复方法,对于每个铭文,我们预测一个1-10个连续缺失字符的序列。这些长度占了I.PHI中缺失字符长度分布的83%,并且可以与之前的工作和人类基线进行比较。请注意,由于在训练期间采用了文本屏蔽增强,Ithaca可以潜在地恢复最多一半的输入文本。

尽管要预测的字符数量反映了任务的难度,但测试集中用于人类评估的恢复序列可能不一定保持相同的长度分布(因为它们是测试集的子集)。因此,我们不是只报告整个测试集的平均分数(就像在以前的工作中所做的那样),而是选择考虑这些长度差异,并计算每个恢复序列长度的平均分数。首先,我们为每个长度(1-10个字符之间)的所有样本计算一个单独的CER,

$ $ {{\ rm {CER}}} _ {l} = \压裂{1}{{\总和}_{我}^ {N}{我}_ {{{rm \ {len}}} _{我}= l}} \ mathop{总和\}\ limits_{我}^ {N}{我}_ {{{rm \ {len}}} _{我}= l} \ * \压裂{{\ rm {EditDistance}} ({{\ rm {pred}}} _ {}, {{\ rm{目标}}}_{我})}{1},$ $

在哪里指示器的功能是len吗对象的长度th样本,N样本的数量是pred吗预测序列中缺失的字符是-th样本和目标对应的目标序列。接下来我们计算所有长度的平均值:

$ $ {{\ rm {CER}}} _ {{\ rm{得分}}}= \压裂{1}{1}\ mathop{总和\}\ limits_ {L} ^ {L} {{\ rm {CER}}} _ {L} $ $

在哪里l= 10是最大长度。

由于人工注释人员由于时间限制只注释了测试集的一个子集,宏平均给所有样本长度赋予了同等的重要性,以独立于数据集统计数据来表示任务的难度,因此能够公平地比较方法。类似地,对于精度,我们首先计算每个长度的单独精度,然后计算平均值:

$ $ {{\ rm{一}}{\ rm {c}} {\ rm {c}} {\ rm{你}}{\ rm {r}} {\ rm{一}}{\ rm {c}} {\ rm {y}}} _ {l} = \压裂{1}{{\总和}_{我}^ {N}{我}_ {{{rm \ {l}} {\ rm {e}} {\ rm {N}}} _{我}= l}} \ mathop{总和\}\ limits_{我}^ {N}{我}_ {{{rm \ {l}} {\ rm {e}} {\ rm {N}}} _{我}= l} \ *{我}_ {{{rm \ p {}} {\ rm {r}} {\ rm {e}} {rm \ d{}}} _{我}= {{\ rm {t}} {\ rm{一}}{\ rm {r}} {\ rm {g}} {\ rm {e}} {\ rm {t}}} _{我}},$ $
$ $ {{\ rm{准确性}}}_ {{\ rm{得分}}}= \压裂{1}{1}\ mathop{总和\}\ limits_ {L} ^ {L} {{\ rm{准确性}}}_ {L} $ $

时间归因度量

由于我们的模型在时间归因任务中输出了一个预测分布,我们引入了一个可解释的度量标准来测量预测与基本真相区间之间的年距离(图2)。3 c).更具体地说,我们使用预测分布的平均值和目标地面真实区间之间的距离度量;后者由最小值(gt最小值)和最大值(gt马克斯)日期(年):

$ $ {\ rm{年}}= \{\{数组}{cc} 0开始,& {{\ rm{如果\;gt}}} _ {{\ rm{\马克斯}}}\通用电气{{\ rm {pred}}} _ {{\ rm {avg}}} \通用电气{{\ rm {gt}}} _ {{\ rm {\ min }}}\\ |{{\ rm {pred}}} _ {{\ rm {avg}}} - {{\ rm {gt}}} _ {{\ rm{\马克斯 }}}|, & {{\ rm{如果\;pred}}} _ {{\ rm {avg}}} > {{\ rm {gt}}} _ {{\ rm{\马克斯 }}}\\ |{{\ rm {pred}}} _ {{\ rm {avg}}} - {{\ rm {gt}}} _ {{\ rm {\ min }}}|, & {{\ rm{如果\;pred}}} _ {{\ rm {avg}}} < {{\ rm {gt}}} _ {{\ rm{\分钟}}}\{数组}结束。$ $

模型选择

最终的模型是通过将表现最佳的模型存储在验证集上获得的,该验证集使用了一个组合度量标准,该度量标准将文本恢复和地理归属的准确性和以年为单位的距离除以100的时间归属,以使量级具有可比性。训练我们的模型所需的大量计算资源使得帕累托边界计算不可行。

时间归因结果

伊萨卡的预测比统计基线(144.4年)记录的预测更接近地面事实5倍。更具体地说,伊萨卡的平均日期预测距离地面真实日期区间在28.7年以内,中位数仅为3年。结果详细显示在扩展数据图中。3.

用伊萨卡恢复全文

为了克服长铭文(>768个字符)的内存限制和长度限制,可以迭代应用Ithaca来恢复受损铭文中所有丢失的文本。我们在铭文上试验了这个选项搞笑II²116,少了378个字符,并将伊萨卡的预言与我们之前的著作皮提亚对同一文本的预测进行了比较,使用了罗德和奥斯本出版的权威版本作为基本事实88.模型的正确恢复以绿色突出显示(扩展数据图。4),错误的则以红色表示。在现实场景中,伊萨卡和皮提亚都将提供一个由20个恢复假设组成的排序集。皮提亚和伊萨卡在性能上的比较是鲜明的(74个错误对45个错误):此外,在所有恢复为红色的情况下,基本真理序列都存在于伊萨卡的前20个假设的范围内。

德尔菲铭文的地理归属

碑文学者通过研究碑文的人名、地方或地区方言变体、特殊词汇或风格来确定碑文的原始位置。从这一方法论前提出发,为了发现伊萨卡地理预测的潜在模式,我们计算了统计数据,以跟踪伊萨卡预测正确的区域的文本中出现频率最高的单词。因此,对于测试集中的每个单词,我们计算平均准确率和出现频率。这种可视化的目的是评估特定单词的出现是否与模型的地理属性相关。

在预测准确度高的文本中出现频率最高的单词主要集中在来自德尔菲地区的铭文中,属于“manumission inscriptions”的铭文类型(扩展数据表2举个例子)。古希腊社会严重依赖不自由的劳动,但奴隶可以通过一个被称为“解放”的过程获得自由,这是公开记录的,并有铭文证明8990.超过1000条这样的短信,时间大约是201年公元前而且广告在特尔斐发现了100个9192.在伊萨卡的准确性统计数据中出现的单词被认为是这些任务文本的典型,这些文本又具有该地区的独特性(例如,ἐv3 v3 v3 v3,末路v3 v3, κα v3 v3, βεβαιωτ, ων):因此,这些单词可以支撑正确的属性预测(详细的例子在扩展数据表中提供2).进一步的研究现在可以致力于研究作为特尔斐独特的程式化的manumissions。

为了进一步评估伊萨卡输出可视化技术在现实场景中的影响,我们还分析了豁免铭文地理归属的显著性图。的确,德尔菲铭文的突出地图BCH例如,66/67(1942/3)82.9,突出的词通常出现在手册文本中,也出现在伊萨卡的词汇统计中:这些词(ἐστ σε,ἐλε ο θ ρο ζ, πο ο σα,ἀποτρ χουσα)在铭文的地理属性中有最重要的作用,同时也背叛了文本的类型作为一个典型的奴隶手册铭文(扩展数据图。5 b).

重订有争议的雅典法令

在缺少对文本日期有帮助的内部证据的情况下(例如,提及已知的历史人物93),题词者通常根据文本的内容、字母形式和语法标准推算出一个大致的日期。例如,铭文中最臭名昭著的方法辩论之一涉及“三巴西格玛”日期约定,该约定认为没有包含三巴西格玛字母的雅典公共文件(ϟ)可以确定在446/5年之后公元前,当时字母被四巴西格玛取代(Σ)。在这个时间基准的基础上,一组铭文的解释是古典雅典政治史的核心,其中包括较早的字母ϟ,日期为446/5年以前公元前许多权威语料库2894.这组法令存在于PHI数据集(扩展数据表3.),它们的年代标签遵循三巴西格玛标准的传统“更高”年代。

然而,这种正统的年代系统很快就被证明是有问题的:为这些法令提出的高日期与当代文学对雅典帝国主义政策的报道不一致。很少有历史学家质疑西格玛标准的有效性2995但在1990年,照片增强和激光扫描证实了一个刻有三巴西格玛的铭文的年代下降(埃格斯塔法令,搞笑3.11)从458年到418年公元前96.在接下来的十年里,西格玛的传统截止日期被重新审视,其他法令的日期也被推迟了2897

伊萨卡对这组有争议的铭文的预测独立地与最近的测年突破相一致(扩展数据图)。6).例如,著名的卡尔西斯法令(搞笑3.40;扩展数据图。7),记录了卡尔吉斯城向雅典宣誓效忠的誓词98传统上可以追溯到446/5年公元前28被伊萨卡认为是420年公元前,因此符合较低的424/3年代假设公元前由最近的学者提出99.也许伊萨卡的预测独立地与较低的年代假设相一致的最令人信服的例子是Kleinias的法令(搞笑3.34)One hundred.规定了整个雅典帝国的贡品征收西格玛测年系统将铭文标记为448/7公元前28但最近有学者挑战了这一正统观点,并提出了更早的425/4年公元前101.伊萨卡的预言与后者完全一致,将这条著名的法令追溯到424年公元前

伊萨卡以惊人的准确性重新确定了这些关键铭文的年代(扩展数据表3.).虽然看起来微不足道,但这40/30年的时间顺序重组对我们对雅典帝国行为的把握有相当大的影响,使历史学家对古代历史上最重要的时期之一有更深刻的理解2897.事实上,伊萨卡是在希腊铭文文本的最大可用数据集上训练的,这使得挑战或克服个人偏见或现有学术传统中的错误成为可能,尽管有问题的数据集最初是基于积累的学术传统。

报告总结

有关研究设计的进一步资料,请参阅自然研究报告摘要链接到这篇文章。