博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记
阅读量:4289 次
发布时间:2019-05-27

本文共 2891 字,大约阅读时间需要 9 分钟。

Entity, Relation, and Event Extraction with Contextualized Span Representations


作者:陈宇飞

单位:燕山大学



目录

  • Entity, Relation, and Event Extraction with Contextualized Span Representations

一、摘要

  本文构建了一个针对信息提取任务中的命名实体识别、关系提取和事件提取的统一多任务框架。该框架通过枚举、精炼和评分文本范围来完成所有任务,这些方法旨在捕获局部(句子内)和全局(跨句子)的上下文信息。在ACE05、SciERC、GENIA、WLPC这四个不同领域的数据集中取得了最高的排名。

二、引言

  在许多的信息抽取任务中,跨句子的全局上下文或者短语之间都会存在一定的联系依赖,可以从中获益。例如,共指关系可以提供相关信息,帮助推理那些难以分类的实体的类型。在事件提取任务中,句子中的实体知识可以为预测事件触发提供有用的信息。最近,端到端的系统通过动态的构造spans图,模型获得了很好的性能。同时,语境语言模型在自然语言处理任务上取得了成功。例如,Bert模型可以通过transformer架构来获取上下文中token之间的关系。

  本文中提出的框架叫做DYGIE++框架(如下图所示),该框架枚举候选文本跨度,并且结合使用上下文语言模型和文本跨度图传递的某一特定任务进行信息更新,来对这些候选文本跨度进行编码。
  本文在命名实体识别、关系、事件抽取任务上进行了分析总结,得出的结论如下:
(1)该框架在四个数据集的所有任务(除一个子任务外)获得了最好成绩;
(2)Bert模型可以捕获重要的内部和相邻的句子上下文信息,可以通过增加上下文句子数来提高性能;
(3)通过消息传递更新的上下文编码使该模型能够结合跨句依赖,从而提高Bert的性能,特别是在专业领域的工业工程任务中。
在这里插入图片描述

三、任务和模型

3.1 任务定义

  把输入的文档表示为一系列 t o k e n token token D D D,然后使用该框架构建spans S={

s 1 , . . . . . . s T s_1,......s_T s1,......sT},其中S表示句子中所有可能的短语的集合。
  任务定义:
  (1)命名实体识别任务是预测每个span s i s_i si最佳实体标签类型 e i e_i ei,在所有任务中,最好的标签可能是“null”标签。
  (2)事件抽取任务通过给每个token d i d_i di 分配一个标签 t i t_i ti,它被预测为一个事件触发词。然后,对于每个触发词 d i d_i di,通过具有相同 d i d_i di 的语句中预测所有spans s i s_i si 的论元角色 a i j a_{ij} aij ,将事件论元分配给该事件触发词。
  (3)关系抽取任务是预测span对( s i , s j s_i,s_j si,sj)的最佳关系类型 r i j r_{ij} rij,在本文所使用的任务数据集中,所有的关系都是在同一句子中的跨度之间的。同时使用共指消解任务作为辅助任务,来改进三个任务的表示方式。

3.2 模型

  首先模型采用Bert模型对句子进行编码,然后文本的 s p a n s spans spans是通过连接其左右端点的 t o k e n token token 表示,再加上学习到的 s p a n span span宽度 e m b e d d i n g embedding embedding来枚举构造。图结构是根据模型当前对文档中跨度之间的关系的最佳猜测动态生成的。每个跨度表示 g j t g_j^t gjt通过对图传播中相邻的三个变体的跨度表示进行积分来更新。在共指传播中,一个 s p a n span span在图中的邻居可能是它的前指。在关系传播中,图中的邻居是句子中相关的实体。在事件传播中,有事件触发词节点和事件论元节点;触发词节点将消息传递给它们可能的论元,论元将消息传递回它们可能的触发词。整个过程是端到端训练的,模型同时学习如何识别 s p a n span span之间的重要联系以及如何在这些 s p a n span span之间共享信息。

  更新公式如下,
在这里插入图片描述

其中 V x t ( i , j ) V_x^t(i,j) Vxt(i,j) s p a n span span i i i s p a n span span j j j在任务 x x x下的相似性度量 u x t ( i ) u_x^t(i) uxt(i),例如在共指传播任务中, V x t ( i , j ) V_x^t(i,j) Vxt(i,j)就代表 s p a n span span j j j s p a n span span i i i的前指的置信度分数。 ⨀ \bigodot 表示元素按位相乘。

最后更新的span表示 g j t + 1 g_j^{t+1} gjt+1被计算为先前表示和当前更新的凸组合,权重由gating函数确定。
Multi-task classification :用两层前馈神经网络( F F N N FFNN FFNN)作为评分函数。对于 s p a n span span g i g_i gi的触发词和命名实体识别,计算 F F N N t a s k ( g i ) {FFNN}_{task}(g_i) FFNNtask(gi)。对于共指、关系和论元角色分类任务,将相关的嵌入对连接起来,计算 F F N N t a s k ( [ g i , g j ] ) {FFNN}_{task}([g_i,g_j]) FFNNtask([gi,gj])

四、实验

Model Variations: 在实验阶段,本文还提出了模型的一些变体,比如Bert+LSTM,Bert Finetune这些变体模型,在每个数据集上都进行了对比实验,结果如下。

在这里插入图片描述
在这里插入图片描述
  在表6中展示的是使用不同的Bert输入窗口大小的实验结果,结果表明,适当的扩大Bert的输入窗口大小可以提高模型性能。

在这里插入图片描述

  实验还使用了SciBERT来和Bert进行了比较,结果如表7所示,其中在SciERC和GENIA数据集上,SciBERT取得了最好成绩。分析结果,SciBERT是通过一个大型多领域的科学出版物语料库训练出的预训练模型。这表明,在训练前引入相似领域的无标记文本可以显著提高训练成绩。

在这里插入图片描述

五、实验总结

  本文探讨Bert嵌入和图传播相结合来捕获上下文信息的能力。与单独使用任何一种方法相比,结合这两种方法提高了性能,Bert建立了鲁棒的多句表示,图传播增加了与考虑的问题和领域相关的附加结构。未来的工作可以将该框架扩展到其他NLP任务,并探索其他方法来建模高阶交互,就像在事件提取中出现的那些交互。

转载地址:http://ihmgi.baihongyu.com/

你可能感兴趣的文章
java使用javacsv读取csv文件 导入Mysql数据库
查看>>
Toolbar 不为人知的助手,ActionMenuView
查看>>
Java回调方法详解
查看>>
如何获取url中的参数并传递给iframe中的报表
查看>>
以前端架构师的思想看问题:解决单页应用,系统角色请求抢占session发送请求问题
查看>>
jsessionid问题解决方案
查看>>
MySQL和Oracle的delete,truncate
查看>>
idea使用心得(2)-安装设置与创建web项目
查看>>
将项目放到服务器tomcat上运行
查看>>
JS几种变量交换方式以及性能分析对比
查看>>
Android面试一天一题(6)——如何进行技术选型
查看>>
Velocity笔记--使用Velocity获取动态Web项目名的问题
查看>>
安卓学习:如何将一个Activity设置成窗口的样式
查看>>
Android: 自定义 View
查看>>
MySQL-99语法:外连接与内连接-(左内连接多表和查询)
查看>>
Struts2之Struts2-2.5.5 Interceptor
查看>>
Java基础-21总结字符流,IO流编码问题,实用案例
查看>>
Zookeeper请求处理
查看>>
当Java遇见了Html--Jsp……
查看>>
什么是分布式数据存储
查看>>