强烈建议你试试无所不能的chatGPT，快点击我

论文笔记 | FLAT: Chinese NER Using Flat-Lattice Transformer

阅读量：4290 次

发布时间：2019-05-27

本文共 2895 字，大约阅读时间需要 9 分钟。

作者：刘锁阵

单位：燕山大学

论文地址：https://arxiv.org/pdf/2004.11795.pdf

代码地址：https://github.com/LeeSureman/Flat-Lattice-Transformer

文章目录

Character-word lattice结构对于解决中文NER问题是有效的，然而由于格子结构是复杂的和动态的，大多数现在的基于格子的模型很难完全利用GPU的并行计算能力，并且通常有着比较低的推断速度。

在本篇paper中，作者提出了FLAT：Flat-Lattice Transformer for Chinese NER，将格子结构转换为由位置区间组成的平坦结构。每个区间对应一个字符或潜在单词及其在原始格中的位置。通过使用Transformer和特定的位置编码方案，Flat可以充分利用格子信息，并具有出色的并行化能力。

背景介绍

使用Lattice的两种方式：

一种是设计一个模型与格子输入兼容，例如Lattice LSTM和LR-CNN。在Lattice LSTM中，如Figure 1(b)所示，采用了一个额外的单词单元对潜在单词进行编码，并使用注意机制在每个位置融合变量节点。LR-CNN使用CNN来在不同的窗口编码可能的单词。然而，RNN和CNN都很难构建长距离依赖模型。由于动态的lattice 结构，这些方法不能完全利用GPU的并行计算能力。

另一种方法是将格子转换为图，并使用GNN来进行编码，例如LGN和CGN。

在本篇论文中，作者提出了Flat Lattice Tranformer。

Transformer采用了全连接的注意力机制来对文本序列中的长距离信息进行建模，为了记录位置信息，引入了文本序列中每个token的位置表示。

并针对lattice结构设计了一个位置编码方案。

模型设计

在这里插入图片描述

将格子转换为平坦结构

在根据词典从文本中得到格子之后，将其展平。如Figure 1(c)所示，Flat-Lattice被定义为区间的集合，一个区间对应一个token，一个head和一个tail。

对于区间的相关位置编码

对于在格子中的两个区间 $x_i$ 和 $x_j$ ,他们有三种关系：

交叉(相交)

包含

分离

使用dense vector来对他们的关系进行建模。因为区间包含头部和尾部信息，所以不仅可以使用它表示两个token的关系，而且还能够表示一些更详细的信息，例如一个字符和一个单词之间的距离。

假定

h e a d [i]

和

t a i l [i]

表示区间

x_i

的头部和尾部位置。显然，可以得到4种相关距离：

$d_{ij}^{hh} = head[i] - head[j]$

$d_{ij}^{ht} = head[i]-tail[j]$

$d_{ij}^{th} = tail[i] - head[j]$

$d_{ij}^{tt} = tail[i] - tail[j]$

相关位置编码：

R_{ij} = ReLU(W_r(P_{d_{ij}^{hh}}\oplus P_{d_{ij}^{th}}\oplus P_{d_{ij}^{ht}}\oplus P_{d_{ij}^{tt}}))

计算 $p_d$ (Vaswani et al. (2017))

P_d^{2k} = sin(d/10000^{2k/d_{model}})

P_d^{2k+1} = cos(d/10000^{2k/d_{model}})

然后通过一个注意力机制的变体(Dai et al., 2019))来使用相关位置编码：

A_{i,j}^{*} = W_q^T E_{x_i}^T E_{x_j} W_{k,E} + W_q^T E_{x_i}^T R_{ij}W_{k,R} + u^T E_{x_j}W_{k,E} + v^T R_{i,j}W_{k,R}

接下来的计算与vanilla Transformer相同。

在FLAT之后，只将字符表示传入输出层，再之后是CRF。

实验结果和分析

作者使用了四个中文数据集来用于评估模型：

Onenotes 4.0(Weischedel and Consortium, 2013)

MSRA (Levow, 2006)

Resume(Zhang and Yang, 2018)

Weibo (Peng and Dredze, 2015; He and Sun, 2016)

数据集展示：

在这里插入图片描述

结果对比：

Table 2

注意力机制优于Lattice-LSTM的两个原因：

所有的字符能够直接与它匹配的单词交互

长距离依赖能够被完全建模

计算效率对比：

在这里插入图片描述

与BERT的兼容：

在这里插入图片描述

可以看到，对于大数据集例如onenotes和MSRA，FLAT+BERT能够相比BERT有不错的提升。对于小数据集Resume和Weibo，提升效果比较小。

结论

在本篇论文中，作者引入了一个flat-lattice Transformer来结合中文NER的词典信息。

模型的核心是将lattice结构转换为区间集合，并引入了特定位置编码。

实验结果表明FLAT模型在效果和性能上都明显优于其它基于词典的模型。

转载地址：http://tqmgi.baihongyu.com/

你可能感兴趣的文章

为什么要用枚举实现单例模式（避免反射、序列化问题）

微服务架构下的分布式限流方案思考

全网最详细的一篇SpringCloud总结

消息中间件中的有序消息，其实是排队但是不能插队

不知道分布式事务，还想进互联网大厂

mysql为什么使用B+树作为索引的结构

mysql索引总结(1)-mysql 索引类型以及创建（文章写的不错！！！）

聊聊CAS - 面试官最喜欢问的并发编程专题

Spring Boot 中使用一个注解轻松将 List 转换为 Excel 下载

高并发环境下，先操作数据库还是先操作缓存？

MySQL Explain详解

一直搞不清楚什么是读写分离，主从复制的原理，今天总算搞懂了

消息队列 mq 必会面试题

线程池的工作原理是啥？能手写一个线程池吗？

一口气说出 6种延时队列的实现方案，大厂offer稳稳的

原来redis这么简单，跟着文章操作一遍你就会了

Redis两种持久化机制RDB和AOF详解（面试常问，工作常用）

事务隔离级别中的可重复读能防幻读吗？

老伙计，关于JDK并发包，这些不为人知的秘密你知道多少？

图片的左右切换

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-05 02:34:05 当前IP: 18.118.144.248 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我