背景与总结

在本文中,我们首先通过强调当前方法和可用资源的局限性来描述开发新的注释框架的需求。我们将进一步描述用于指导方针细化的全局协议,然后详细描述最终的注释指导方针。我们讨论了如何应对全球过程的注释挑战,并强调了我们框架的贡献和局限性。

文本挖掘中的分类通常为每个新闻条目分配一个主题(类别)(基于文档的分类)。然而,动物卫生新闻中含有丰富的不同类型的流行病学信息。例如,报道疫情的新闻文章往往还描述了疫情控制措施或经济影响,并指出了疫情来源或风险地区(图2)。1).这些要素可能与流行病情报小组评估与发生疾病暴发(又称事件)有关的风险有关。

图1
图1

这是路透社2018年8月25日发表的一篇文章。此新闻描述了在罗马尼亚爆发的非洲猪瘟疫情,包括疫情描述(一个),即爆发的传播途径(b)和有关该病及其传播的一般流行病学知识(c).所有的新闻内容都可以在:journal上找到https://www.reuters.com/article/us-romania-swineflu-pigs-idUSKCN1LA0LR

当新闻包含多个主题时,单标签分类器必须在几个可能的主题中确定一个主题(即标签),这通常会降低分类性能1.EBS系统中的大多数分类方法都集中在二进制新闻相关性上。很少关注其他类型的流行病学信息的检索。

在这种情况下,我们建议将新闻内容拆分为句子,并根据其流行病学主题注释为不同的类别,我们将其称为细粒度信息。根据经验,句子级分类在主题方面似乎比文档级分类更加同质。因此,我们认为句子级分类可以更准确地识别特定类型的信息。

要将注释数据创建为对EI从业者有用的机器学习管道的一部分,我们首先需要详细阐述和评估一个通用的注释框架,该框架应该尽可能地可再现。此外,基于句子注释的类列表应该允许我们在动物疾病相关新闻中识别新的流行病学信息类型。

方法

相关工作

在EBS系统中实现的监督学习算法必须在标记的数据集上进行训练,以进一步分类未知数据。因此,已经创建了几个注释文本资源来支持动物健康中的分类器训练任务。表格1介绍动物疾病监测背景下的标记新闻数据集的例子。根据数据集的目的、标注数据的特征及其在可用性(表明语料库和指南是否可免费下载)和可靠性(对应于注释者之间协议的评估)方面的可重复性对数据集进行比较。

表1基于事件的监视应用程序中用于在线新闻处理的注释数据示例。C:分类,NER:命名实体识别,EE:事件提取。

根据创建它的上下文(通常是EBS系统的范围),标记的语料库可以是通才语料库,即包括人类和动物疾病事件23.,或特定的,即针对一种或几种动物疾病1.注释单元和标签(类别)密切依赖于动物疾病领域文本挖掘任务的目标,即(i)分类,(ii)命名实体识别和(iii)事件提取。

  1. (我)。

    对于分类任务,注释通常在文档级别。标签通常与新闻的相关性相关,以便过滤掉不相关的内容4567.其他分类框架为新闻分配了广泛的主题标签,如“疫情相关”或“社会经济”。1.据我们所知,所有基于文档的注释方法都允许每条新闻使用单个标签。

  2. (二)。

    对于命名实体识别任务,语料库在词级(包括多词表达式)上进行注释。一个典型的例子是BioCaster本体的注释框架2

  3. (3)。

    对于事件提取任务,注释单元取决于事件采用的定义。有些作者选择语言定义,即一个动词(称为谓语)和一个主语或宾语(称为论点)。一些复杂的事件注释方案允许提取细粒度的时间信息,例如事件的开始和结束2,或主题属性,如传播方式3.

目前没有可用的带注释的数据和框架可以满足我们当前目标的需要,即检测细粒度的流行病学信息(即主题)。基于文档的方法不足以精确地检测新闻文章中包含的各种信息。基于单词的注释框架在单词级别提供了准确的信息,但它们是面向任务的(提取事件或命名实体),并在一定程度上解决了其他类型流行病学信息的潜力。介于这两种方法之间8,提出了一个基于句子的注释来检测与疫情相关的句子,同时认识到一篇新闻文章包含许多具有不同语义的句子。然而,由于主要目标是检测爆发,与爆发无关的句子(例如,描述治疗或预防)都被合并到一个负面类别中。

除了上述工作的缺点,注释数据和指南的可用性和可重复性在不同的研究中有所不同。由于存储不稳定,一些语料库没有发布或不再可用。例如,必须通过从web源下载文档的Perl脚本检索BioCaster疾病事件语料库。由于一些来源变得不可用,语料库的规模不可避免地会随着时间的推移而减少(2015年,200个来源网页中只有102个仍然可以在线使用9).EBS系统的可用性也妨碍了数据访问——表中的两个EBS系统1不再运作(阿古斯,生物卡斯特)。

大多数提出的方法缺乏可重复性。首先,注释指南通常包含简短的标签描述,而不是详细的方案。其次,在提供的示例中,只有三个注释框架在注释者之间的一致性方面进行了评估。根据生物医学文本注释建议10, BioCaster疾病事件语料库作者使用百分比评分(两两一致)而不是kappa统计3..BioCaster本体的注释框架包含了这两个指标2.多卡帕统计还用于考虑两个以上的注释者进行协议度量611

与张的做法类似8,我们的目标是实现句子级注释,以主题类别丰富爆发相关/不相关的二元分类。我们的目标是有效利用新闻中包含的流行病学信息,特别是当这些信息与评估流行病学情况有关时。

我们的方法

在本节中,我们将描述构建注释资源以提取细粒度流行病学信息的方法。我们首先描述了开发注释指南所采用的全局过程。然后我们给出了最终的注释框架,并描述了提议的类别(标签)。注释指南和注释语料库是公开可用的12

该数据集用于PADI-web(从web自动提取疾病信息平台)系统的上下文中。简单地说,PADI-web是一个致力于检测动物传染病的在线新闻源监测的自动化系统。该工具通过定制的多语言查询自动收集新闻,使用机器学习方法对其进行分类,并使用自然语言处理(NLP)方法提取流行病学信息(如地点、日期、主机、症状等)。在13我们总结了如何使用本研究中描述的语料库来学习基于集成到PADI-web 3.0的机器学习方法的细粒度分类模型。提出的注释方案旨在通过自动分类与疾病相关的新闻中的句子来增强EBS系统。其主要应用之一是通过识别事件相关句子来提高事件抽取任务的性能。我们认为,在相关句子的子集上进行事件提取将降低提取与事件无关的流行病学实体(如日期、地点)的风险。此外,当前事件和风险事件之间的区别允许将事件描述为正在进行或可能发生。与传播途径相关的句子可以手动或自动地与当前的疾病知识进行比较,以确定新的传播途径的出现。最后,基于句子的分类是提高基于文档的分类性能的另一种方法,特别是在事件相关信息出现在几个句子中的上下文中14:可以先对每个句子进行相关或不相关的分类,然后将每个句子的分类结果进行合并,对文档进行分类。

全局注释过程

我们从PADI-web数据库中提取了32条候选英语新闻,同时重点关注那些被归类为相关的新闻。所谓相关新闻,是指与疾病事件有关的新闻报道(描述当前的疫情以及预防和控制措施、准备工作等)。在PADI-web中的分类是每天自动执行的,并依赖于监督机器学习方法;一个分类器家族在由流行病学专家手动标记的600个新闻条目的语料库上进行训练(200个相关新闻文章和400个无关新闻)。

4位注释者(A、B、C、D)为从事疫情情报工作的兽医。其中两人(注释者A和B)之前有过注释任务的经验。在这个过程中,我们遵循了图中所示的四个连续步骤。2.在每个注释步骤之后,我们计算协议度量。

图2
图2

管道注释指南的细化过程。

注释人员讨论了主要的分歧结果,并修改了指南以改进注释过程。我们描述了导致最终指南的主要修改选择。当达到令人满意的一致措施时,即当总体一致超过80%时,我们停止该过程(步骤3)。

为了构建最终的语料库(步骤4),我们聚合了数据集2和3。为了在不一致的情况下为每句话选择一个标签,我们采用了以下程序:

  1. 1.

    对于数据集3(由三个注释器标记):

    1. (一)。

      如果三个注释器中至少有两个分配了相同的标签,我们选择大多数标签,

    2. (b)。

      如果三个标注者各自分配了一个不同的标签,那么标注者a将从提出的标签中选择一个最终标签;

  2. 2.

    对于数据集2(由两个注释器标记):

    1. (一)。

      如果两个批注者都不同意,批注者A会从提议的标签中选择一个最终的标签,

    2. (b)。

      注解经验证与最终指南的一致性。

通过使用最终指南注释新数据集,语料库进一步增加(参见数据记录部分)。

注释的指导方针

在本小节中,我们将介绍指南中每个标签的最终注释框架和定义。该框架的详细版本和标记的语料库在Dataverse存储库中公开可用12

在我们的框架中,每个句子都用一个标记标记事件类型和一个标记标记信息类型,如图所示。3..事件类型级别确定语句是否与爆发事件相关,如果与爆发事件相关,则确定与事件的时间关系。信息类型级别描述流行病学信息的类型,即细粒度主题。句子的意思取决于整个新闻内容,以及它的流行病学背景。因此,对于每一组句子(来自一条新闻),注释器首先读取新闻元数据(即标题、来源和发布日期)。注释器为每个级别和每个句子选择一个标签。由于有些句子可能包含属于多个信息类型类别的信息,注释者必须精确定位主要信息。

图3
图3

两级注释框架。

事件类型

在关注句子流行病学主题的同时,必须考虑到句子与当前流行病学状况之间的关系:新闻中的句子可能描述几年前发生的一次疫情,也可能提供关于某种疾病的一般信息。更准确地说,从EBS的角度来看,只有涉及当前事件或风险事件的句子才值得关注。

在本文中,我们将事件定义为特定区域和时间范围内疾病的发生。事件类型标签旨在区分涉及当前/最近疫情的句子(“当前事件”和“风险事件”)与涉及以前疫情的句子(“旧事件”)或一般信息(“一般”)。不包含流行病学信息的句子被认为是不相关的(“不相关”)。

  • 当前事件这门课包括与当前情况相关的句子。有五组主要的句子被认为是“当前的”:

    1. 1.

      最近的事件,相对于主要事件.这包括在附近地点和/或在主要事件周围的短时间窗口内发生的事件。例如,“周六,在广州黄浦区一个农场的30头猪中发现了类似的感染。”

    2. 2.

      前一个日期和最近/当前日期之间的事件聚合.例如,“根据农业委员会的数据,今年到目前为止,台湾有94个家禽农场感染了禽流感。”“今年迄今为止”表示疫情开始与发表日期之间的关系。

    3. 3.

      某一地区疾病最近/目前的流行病学状况.例如,“最近几个月,这种疾病传播得更快,向西更远,影响了以前未受影响的国家。”

    4. 4.

      将来一定会发生的事件.一般来说,这一类包括事件的直接后果,例如将要采取的控制措施。例如,“园区内的所有猪将被宰杀,并设置3公里和10公里的保护和监视区域。”

  • 旧的事件这门课包括有关事件的句子,为主要事件提供历史背景。这些句子都明确提到了过去的日期,有的是绝对的(“2007年”),有的是相对的(“以前”)。这类句子包括两组:

    1. 1.

      旧的事件.例如,“英国最近的一例这种疾病发生在2007年。”

    2. 2.

      过去两个日期之间的事件聚合.例如,“2010年至2011年间,韩国爆发了155起口蹄疫疫情。”

    3. 3.

      某一地区疾病过去的流行病学状况.例如,“2006年至2010年期间,BTV血清型8到达了欧洲西北部的部分地区,这些地区以前从未爆发过蓝舌病。”

  • 风险事件:这类包括所有涉及假设事件的句子。这些句子通常是关于有病原体传入或传播风险的地区。这类句子包括两组:

    1. 1.

      表示关注和/或准备的未受影响地区.例如,“尽管在全国范围内采取了疾病控制和预防措施,但中国可能会爆发更多的非洲猪瘟疫情。”

    2. 2.

      疾病状况不明的区域.例如,Miratorg说:“如果疫情得到证实,喂食站的所有猪都必须被扑杀。”

  • 一般:该类包括疾病或病原体的一般信息。通常,句子描述的是疾病的宿主、临床表现和致病性。例如,蓝舌病是一种反刍动物(如牛、绵羊、山羊和鹿)的病毒性疾病。

  • 无关紧要的:这类句子不包含任何流行病学信息。这一组包括,例如,与疾病无关的一般事实(“从匈牙利进口的猪只占约0。2017年出口到英国的所有猪肉产品的64%。”)或文章新闻人工制品(“评论将被审核。”)。

信息类型

信息类型层次描述句子的流行病学主题。作为流行病学主题,我们包括疑似或确诊事件的通报、对某一地区疾病的描述(“描述性流行病学”和“分布”)、针对疾病爆发的预防或控制措施(“预防和控制措施”)、事件的经济和/或政治影响(“经济和政治后果”)、其疑似或确诊的传播模式(“传播途径”)、表达对危险因素的关注和/或事实(“关注和危险因素”)以及关于病原体或疾病流行病学的一般信息(“一般流行病学”)。

  • 描述性流行病学.这类句子包含描述事件的标准流行病学指标(例如疾病、地点、宿主和日期)。它包括:

    1. 1.

      事件的流行病学描述.例如,“敖德萨和米科莱夫地区已经记录了非洲猪瘟(ASF)病例。”

    2. 2.

      有关事件的致病因素的信息.例如,“结果表明,这些鸟类感染了一种新的H5N1流感病毒。”

    3. 3.

      疑似事件的临床症状.例如,“剩下的雄鹿目前看起来很健康,没有表现出与疾病相关的临床症状。”

  • 分布.这类句子包含了特定地区(即一个地区、一个国家)存在某种疾病的迹象。它包括:

    1. 1.

      流行病学状况描述.例如,“最近几个月,这种疾病传播得更快,向西更远,影响了以前未受影响的国家。”

    2. 2.

      过去日期和最近/当前日期之间的事件聚合.例如,“根据农业委员会的数据,今年到目前为止,台湾有94个家禽农场感染了禽流感。”

  • 预防和控制措施.这类包括描述以下内容的句子:

    1. 1.

      预防措施,即为避免疾病传入未受影响地区而采取的所有卫生和物理措施。例如,“ASF:法国即将结束在比利时边境的围栏。”

    2. 2.

      控制措施,即一旦病原体传入一个地区,为根除病原体而采取的所有卫生和实际行动(如接种疫苗、屠宰、消毒、分区等)。例如,“所有受感染的动物都已被杀死,该地区已被消毒。”

    3. 3.

      说明/建议,即预防和控制措施的行动,我们在这类中包括建议。例如,“猎人、旅行者和搬运工被要求格外注意卫生。”

  • 传播途径.这一类包括表明疾病起源或传播途径的句子。例如,“当局认为这种具有高度传染性的病毒可能是通过河流传播的”。

  • 关注事项及风险因素.这类句子包括表明某一地区有疾病传入或传播的危险的句子。我们在这一组中包括两种类型的句子:

    1. 1.

      确认怀疑一个或几个危险因素,即与疾病发病率增加有关的个人、行为和环境特征。例如,“最近的一波检查发现农场存在4000种不同的生物安全违规行为,Gosvetfitosluzhba警告说,这可能很快会导致进一步的疫情爆发。”

    2. 2.

      语义恐惧或担忧的表达关于(i)假设病原体侵入未受影响的地区。例如,“非洲猪瘟对英国是一个真正的威胁,”她说。“令人担忧的局势发展。例如,“几个国家受到了影响,由于疾病的传播速度,政府和养猪户受到了警告。”

  • 经济和政治后果.这一类包括所有提及疫情对一个地区的直接或间接经济或政治影响的内容。它包括预防和控制措施的后果。例如,“Gorod估计,2017年非洲猪瘟对拉脱维亚行业造成的经济损失可能达到1700万欧元。”

  • 一般流行病学.此类别仅用于标记为“一般”的事件类型级别的句子。它合并了上面描述的“事件描述”和“传输路径”类。在这个特定的事件类型级别上,这两个类别包括对疾病宿主、致病性和传播途径的描述。例如,“这种病毒是通过蠓叮咬传播的,它不会影响人类。”

Multi-topic句子

为了处理多主题句子,我们提供了两条规则来帮助注释者做出选择:

  • 如果一个类别(标签)是另一个类别(标签)的结果,注释器应该选择第一个类别(标签)。例如,如果一个句子既描述了一项控制措施,又描述了其经济影响,那么这句话就应该标注为“预防和控制措施”。

  • “关注和风险因素”和“传播途径”都为评估疾病出现或传播的风险提供了极有价值的信息。因此,注释者应该优先考虑这些标签,而不是其他标签,形成一个多主题句。

表格2提供了经常遇到的多主题情况的示例,以及根据上面显示的两条规则选择主标签的示例。

表2典型情况下多主题句的消解。

注释的协议

在本节中,我们将描述框架细化过程中协议度量的变化。作为定量的一致性度量,我们计算了注释间一致性和Cohen 's kappa系数。对于注释间的一致性,我们定义了三个不同的级别,即完全一致(所有注释人达成一致)、部分一致(两名注释人达成一致)和完全不一致(所有注释人都不同意)。在多标签的情况下,我们将协议定义为严格协议,即如果两个注释者给出完全相同的标签,则它们之间存在协议。

科恩卡帕系数(κ)是一种广泛使用的注释者之间一致性的统计度量,它考虑了偶然预期的一致性程度15κ计算如下:

$ $ \ kappa = \压裂{公关(a)公关(e)} {1-Pr (e)} $ $
(1)

在哪里公关一个)是观察到的两个注释者之间的一致,公关e)是达成协议的假设概率。

表格3.比较第1步(指南的初始版本)和第3步(指南的最终版本)中获得的一致结果。我们分别通过对注释器计算kappa,然后计算平均值。在步骤1中,我们在事件类型注释(κ= 0.30),而我们对信息类型(κ= 0.53)。注释者对事件类型标签完全认同的句子只有29%,而对信息类型完全认同的句子有49%。

表3第1步(初始指南,N = 132句)和第3步(最终指南,N = 83句)的协议统计数据。

第3步的统计数据(最终指南)表明这两个类别的协议都有了实质性的改善。事件型kappa仍低于信息型kappa(分别为0.71和0.78)。

讨论

在本节中,我们将介绍框架细化过程中出现的关键问题,同时概述我们改进注释者间协议的选择。我们首先讨论全局框架的两个特征,然后解释用于修改注释准则的两种不同策略。

全球框架

双层注释

类似于事件注释方法,注释器分别标记事件类型及其属性2,我们最终的注释框架依赖于每个句子中两个标签的归属:事件类型和信息类型。我们选择这种方法是因为主题标签(信息类型)包含不同的时间和事件级别。从基于事件的监视观点来看,它们的相关性有所不同。例如,描述在发表日期前2年发生的疫情的句子(“旧事件”)明显不如描述当前疫情的句子相关。但是,所提供的信息类型(病毒爆发描述)保持不变。因此,双层方法适用于在不同的事件状态之间分配一致的信息类型标签。这种选择增加了注释时间和复杂性,但我们认为,它允许我们分别考虑时空和主题标签,从而极大地提高了所分配标签的价值。

单标牌注释

我们选择基于句子的方法来解决文档级方法缺乏粒度的问题。然而,一个句子也可能包含不同的主题。因此,在步骤3之前,我们允许多标签(注释器可以为一个句子分配任意数量的标签,包括事件类型和信息类型)。对于事件类型,第三个数据集中只有两个句子具有多标签,它们都是“当前事件”和“旧事件”。在这两句话中,都提到了历史上的疫情,作为上下文,例如,“尚未确认疫情的原因,但在20世纪期间,该地区曾发生过其他事件。”

多标签句子在信息类型上更常见,根据注释者的说法,多标签句子占句子的14%(12/83)到34%(28/83)。最常见的联想是:

  • "预防和控制措施"加上"描述性流行病学"或"经济和政治后果"在这些句子中,两个标签之间存在因果关系。例如,在下面这句话中,禁令是对相关疫情的回应:“波兰新闻机构报道,该禁令与在波兰与白俄罗斯边境的死野猪中发现的两例非洲猪瘟有关。”这些情况通过提供规则来解决,在因果关系的情况下选择主标签。我们优先考虑因果标签,声称它通常包含主要信息。在前一句中,疫情发生优先于禁令。因此,这句话应该被标记为“描述性流行病学”。

  • “描述性流行病学”和“临床表现”,主要指死亡率(“36头猪群中发现两头感染,其中一头死亡”)或无症状病例(“因此在常规监测下检测到受影响的猪群,因为没有与该事件相关的临床迹象”)。这些情况通过合并两个类来解决,如“类的合并”一节所述。

提高注释者之间一致性的策略

创建新类

在此过程中,我们创建了新标签“Distribution”。在第一批指南中,诸如“最近几个月,这种疾病传播得更为迅速”之类的句子被注释者标记为“描述性流行病学”或“一般流行病学”。这类句子描述的是当前的情况,而不是具体的事件。另一方面,它们描述了依赖于特定上下文(时空可定位)的流行病学情况。因此,它们不能被认为是“一般流行病学”。

类的合并

我们在注释过程中合并了以下类别:

  1. (1).

    当前事件和相关事件

最初,我们将事件类型标签分为当前事件和过去事件的三组:

  • 时事,即新闻文章中提到的最近发生的主要事件,

  • 相关事件,即发生在过去但与当前事件相关的事件,

  • 旧事件,即过去发生的与当前情况没有任何联系的事件(定义与最终指南中的定义相同)

当前事件和相关事件之间的区别是第一步中出现分歧的主要原因。决定一个事件是当前事件还是相关事件并非易事,因为它取决于不同注释者之间的时空截止。因此,我们决定将当前爆发和最近爆发收集到同一类别(“当前事件”)。一些作者建议使用临时固定窗口。例如,3个月内发生的事件是相关的16.该阈值还用于将事件标记为历史事件(发生在3个月以前),以及最近事件(发生在2周到3个月以前)和当前事件(发生在过去2周内),如所述2

我们认为,设定一个严格的时间窗口与每种疾病的流行病学特异性不一致。相反,我们决定汇总这两个类别,只区分当前/相关事件与旧事件。这种区分提高了事件类型级别的一致性:标记为“旧事件”的所有六个句子都获得了完全一致的结果。在这些句子中,典型的语义线索(例如使用时间短语,如“几天前”或“2006年”)明确表明缺乏流行病学联系。

  1. (2).

    临床表现和描述性流行病学

    “临床表现”类别出现在第一版指南中。该标签主要由一位注释者与“描述性流行病学”标签联合使用。在这些句子中,似乎所有类似症状的术语都与“死亡”或“死亡”有关,例如“到目前为止,已有六头成年牛和两头小牛死于这种疾病”。这些表达式不是用于提供临床图像,而是用于表明病例数。因此,我们决定在最终框架中将其与“描述性流行病学”合并。

  2. (3).

    预防和控制措施

在中间准则中,我们将预防和控制措施分为两个不同的类别。这一选择增加了本课程中不同意见的数量,因为根据具体情况,几种类型的措施可以被认为既是预防措施,也是控制措施。例如,屠宰受感染动物是有关受影响地区的一项控制措施,但从未受影响地区的角度来看是一项预防措施(限制疾病传播)。禁止动物移动以及接种疫苗也可以作为控制措施(避免疾病从受影响地区传播)和预防措施(防止疾病传入未受影响地区)。在BioCaster本体方案中,这种上下文依赖性使得“控制”类别在协议方面成为最具挑战性的类别17

限制

应注意拟议注释框架中的若干限制,因为它们可能影响进一步分类任务的执行。

首先,我们为每个关卡采用单标签方法。不允许每个句子有多个标签是有问题的,因为几个句子属于几个类,注释器可能很难确定哪个类别应该优先。这可能会导致错误分类错误和在监督方法中的信息丢失。然而,多标签的使用提出了寻找合适的一致性指标的问题,同时增加了寻找适当分类方法的主要复杂性18.当一些典型的情况发生时,我们试图通过解决指南中的多标签情况来协调注释者的选择。

此外,我们在标签方案中没有包括极性或情感分析。例如,表明没有爆发或检测结果为阴性的句子应标记为“描述性流行病学”。实际上,在网络新闻叙述中,声称负面事件的句子相当罕见。当前的框架可以通过在每个句子中添加极性标签来增强,因为有必要包括否定检测以避免错误警报。

在本节中,我们提出了一种基于句子的注释方案,目的是超越传统的基于文档的分类和实体识别。我们在很大程度上依赖领域专家的意见来构建框架,同时试图在公平的注释器之间的协议和类粒度之间找到一个平衡点。事件类型标签的最终注释者平均得分为0.71 Kappa,信息类型标签的平均得分为0.78 Kappa。虽然从流行病学角度来看,某些感兴趣的类别(例如“关注和风险因素”、“传播途径”)代表性不足,但我们认为,拟议的框架有助于快速增加实例数量和可重复性。

数据记录

CIRAD Dataverse中的数据集12包含两个文件,一个注释语料库和注释指南,提供每个类别的详细描述。标注的语料库文件包含从88篇动物疾病相关新闻文章中提取的1244句人工标注句子。这些新闻文章是从动物卫生监测的生物监测系统PADI-web (https://padi-web.cirad.fr/en/).文件分为三张:

  • 第一个表提供关于新闻文章的元数据(新闻文章的唯一id、标题、新闻文章网站的名称、发布日期和URL)。

  • 第二页包含486句话(来自32篇新闻文章- 10247个单词),用于构建注释框架。每个句子标签对应两个或三个注释者之间的共识标签。每行对应一篇新闻文章中的一个句子,并有两个不同的标签,事件类型和信息类型。列集包含该句子所属的新闻文章的id,该句子的唯一id,表示其在新闻内容中的位置(整数,范围从1到nn是新闻文章中的句子总数),句子文本内容,事件类型标签和信息类型标签。

  • 第三页包含758个额外的句子(来自56篇新闻文章- 16,417个单词),由一个注释人员基于相同的注释框架进行注释。列集与前一个工作表类似。

技术验证

我们通过监督分类任务评估了注释方法的价值。当模型在已知标签(即由领域专家注释)的实例上训练时,这种分类被称为监督分类。19.这两个注释级别形成了两个连续的分类任务:(i)事件类型的分类和(ii)信息类型的主题分类(图。4).为了在足够的类大小下评估分类,我们使用了由两个注释器注释的句子和由单个注释器注释的额外语料库(section corpus),并训练了几个分类器(section classification)。

图4
图4

分类任务。

语料库

我们最终得到的语料库包含1244个句子,其中160个句子是不相关的。因此,用于信息类型分类的句子子集由1084个句子组成。

在事件类型级别上,64%的句子(799/1244)被标记为“当前事件”,11%(136/1244)被标记为“一般事件”,8%(105/1244)被标记为“风险事件”,4%(44/1244)被标记为“旧事件”。“无关”句子占语料库的13%(160/1244)。信息类型级别包含1084个注释句子。在这些句子中,37%(401/1084)被标记为“描述性流行病学”,29%(310/1084)被标记为“预防和控制措施”,10%(110/1084)被标记为“关注和危险因素”,10%(109/1084)被标记为“一般流行病学”,6%(69/1084)被标记为“传播途径”,5%(58/1084)被标记为“经济和政治后果”,2%(27/1084)被标记为“分布”。

事件类型层面的句子分布高度不平衡,说明疾病相关新闻文章主要提供的信息是当前的情况(current event)。

信息类型水平更为平衡,两类(“描述性流行病学”和“预防和控制措施”)占句子的67%(711/1084)。

尽管规模不大,但我们的语料库在其领域(即动物卫生)和性质(即在线新闻文章)方面都高度专业化。因此,这种语料库类型比传统上在生物医学NLP领域的最先进方法中使用的基准语料库更具体20.

分类

将文档语料库转换为机器学习可读的格式涉及两个步骤。每个文档首先被转换成一个由所选特征组成的向量。词袋(BOW)是用于将文本文档转换为向量的最流行的模型之一。在这个模型中,词汇表对应于整个语料库中出现的所有术语21.每个文档d编码在n-维向量,其中每个分量w道明表示一个特性(术语)的存在或缺失t在文档中(其中n是词汇的长度)。如果特性t出现在文档中的,为特性权重w道明具有非零值。

在第二步中,为文档中的每个特性分配权重。术语频率-文档频率倒数(特遣部队- - - - - -以色列国防军)为词频和逆文档频的乘积22.最高的术语特遣部队- - - - - -以色列国防军与文档集合相比,值在文档中的出现频率明显较高。

在这个评估中,语料库中的每个句子代表一个文档。我们通过去掉标点符号并将单词转换为小写来简化词汇。然后,我们将所有的句子转换成单词袋模型,使用特遣部队- - - - - -以色列国防军重量。

我们比较了三种广泛用于文本分类的分类器:

  1. 1.

    朴素贝叶斯(Naive Bayes, NB)是一类基于贝叶斯定理的概率分类器。这些分类器基于特征之间具有高度独立性的假设。我们使用了多项式朴素贝叶斯分类器,它假设特征具有多项分布。

  2. 2.

    支持向量机(SVM)是一种非概率线性分类技术。支持向量机已广泛应用于文本分类,包括句子等小尺寸文本823和微博24.对于重要的文本数据向量属性,它实现了健壮的性能,这些属性是稀疏的和密集的(包含很少的相关特征)25.我们使用了线性核参数(线性SVM)分类器,因为线性核对文本数据表现良好2627

  3. 3.

    多层感知器(Multilayer Perceptron, MLP)是一种人工神经网络分类器。ANN分类器在与词嵌入表示结合时表现良好2829

我们通过广泛使用的交叉验证方法估计训练模型的性能。我们使用了5倍数,因为这个值经经验证明可以产生低方差的测试错误率估计,同时不会受到过高偏差的影响30.

在每一次折叠中,我们计算监督分类中使用的传统指标,即精密度、召回率、准确度和F-measure。在课堂上一个层次上,精密度对应于班级中分类的正确句子的比例一个(Eq。2),回忆量对应于属于类的句子的比例一个被正确识别(Eq。3.):

$ $精度(A) = \压裂{\ \ \;;句子;正确\;由于\;\;类\;一个}{\ \ \;;句子;由于\;\;类\;一个}$ $
(2)
$ $召回(A) = \压裂{\ \ \;;句子;正确\;由于\;\;类\;一个}{总\;数量\ \;句子\;归属感\;\;类\;一个}$ $
(3)

F-measure是精度和召回率的调和平均值(Eq。4):

$$F-measure(A)=\frac{2\times Precision(A)\times Recall(A)}{Precision(A)+Recall(A)}$$
(4)

为了计算所有类别的性能以解释类别不平衡,我们计算了加权精度、召回率和F-measure(平均每个标签的频率加权平均值)。

例如,考虑a类(频率=N一个)和B类(频率=Nb),为加权精度精度w是:

$ $ Precisio {n} _ {w} = \压裂{{n} _{一}}{{n} _{一}+ {n} _ {b}} \乘以精密(a) + \压裂{{n} _ {b}} {{n} _{一}+ {n} _ {b}} \ *精密(b) $ $
(5)

请注意,加权f测量不是在精度和召回率的一般值之间计算的。

准确度是指正确预测数占总预测数的比例。

在这些实验中,我们比较了事件类型和信息类型分类的不同分类器。性能总结在表中4.MLP和SVM的性能相当,且明显优于NB分类器。这些行为对于事件类型和信息类型分类是相同的。信息类型级别的分类性能平均低于事件类型级别的分类性能。其他结果(例如按类别划分的结果)在13

表4在词袋(BOW)表示下训练的分类器的性能,包括加权精度、召回率、F-measure和5倍交叉验证的准确性。