论文笔记:Simplify the Usage of Lexicon in Chinese NER Minlong-程序员宅基地

技术标签: 论文笔记  NER  信息科学  

一、摘要

以前我们已经提到过一篇结合字典进行中文命名实体识别的文章《Chinese NER Using Lattice LSTM》. 这个方法能够一定程度解决分词错误。然而,这个方法有一个重要的缺陷,就是效率低下,其在源码的issue中也提到了,目前竟然不支持并行化。因此,这篇文章希望设计出一种更加有计算效率的方式。

二、模型

该论文主要是在底层字和词的表示上进行了创新。首先文章总结了Lattice Lstm成功的原因:

  • 其保存了所有可能匹配的单词。
  • 其可以将预训练好的word embedding嵌入到系统中。
  • 模型具有attention机制自动给单词赋权重。

基于此三个方法,文章提出了一种新的对输入进行编码的方式。这样的方法是一种集合编码的方法。对每个字符c使用集合 B ( c ) , M ( c ) , E ( c ) , S ( c ) B(c),M(c),E(c),S(c) B(c),M(c),E(c),S(c)编码其字符具有的词信息。编码规则如下

  • B ( c ) B(c) B(c)集合:包含所有以字符c为起始的词
  • M ( c ) M(c) M(c)集合:包含所有以字符c为中间字的词
  • E ( c ) E(c) E(c)集合:包含所有以字符c为结束字的词
  • S ( c ) S(c) S(c)集合:c单独组成一个词

如果集合为空则成员为None

举例来说:

suppose that { c 1 , c 2 } , { c 1 , c 2 , c 3 } , { c 2 , c 3 , c 4 } \{c1, c2\}, \{c1, c2, c3\}, \{c2, c3, c4\} { c1,c2},{ c1,c2,c3},{ c2,c3,c4} , Consider the sentence s = { c 1 , ⋅ ⋅ ⋅ , c 5 } s = \{c1, · · · , c5\} s={ c1,,c5} and and { c 2 , c 3 , c 4 , c 5 } \{c2, c3, c4, c5\} { c2,c3,c4,c5} match the lexicon. Then, for c 2 c_2 c2, B ( c 2 ) = { { c 2 , c 3 , c 4 } , { c 2 , c 3 , c 4 , c 5 } } B(c2) = \{\{c2, c3, c4\}, \{c2, c3, c4, c5\}\} B(c2)={ { c2,c3,c4},{ c2,c3,c4,c5}}, M ( c 2 ) = { { c 1 , c 2 , c 3 } } M(c2) = \{\{c1, c2, c3\}\} M(c2)={ { c1,c2,c3}}, E ( c 2 ) = { { c 1 , c 2 } } E(c2) = \{\{c1, c2\}\} E(c2)={ { c1,c2}}, and S ( c 2 ) = { N O N E } S(c2) = \{NONE\} S(c2)={ NONE}

这样,融合词的表示,我们构造新型的字向量表示:
在这里插入图片描述
其中 V s ( X ) V^s(X) Vs(X)用于词集合编码为固定大小的向量,最后作者采用的方法为:
在这里插入图片描述
其中 e w ( w ) e^w(w) ew(w)为对应词的word embedding, z ( w ) z(w) z(w)是固定的单词出现的频数

We set c to the value that there are 10% of training words occurring less than c times within the statistic data set

三、实验结果

具体参看论文,这里就不赘述了

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Wangpeiyi9979/article/details/102782954

智能推荐

整合ssm相关配置文件_进行ssm整合时相关配置文件如何处理?-程序员宅基地

文章浏览阅读137次。ssm整合一.applicationContext.xml1.配置数据源2.配置mybatis的sqlSessionFactory工厂//引用数据源//配置类的别名classpath:cn/sxt/mapper/UserMapper.xml34.5.<tx:advice id=“txAdvice” transaction-manag..._进行ssm整合时相关配置文件如何处理?

Java Server Faces Events And Listeners (JSF中的事件与监听器)-程序员宅基地

文章浏览阅读92次。JSF的一个核心就是事件与监听。JSF事件分为以下几种: 1、Value-change events(值改变事件) < h:inputText valueChangeListener ="#{myForm.processValueChanged..._jsf valuechangeevent

评估方法:CMMI/能力成熟度模型集成-程序员宅基地

文章浏览阅读772次,点赞5次,收藏6次。CMMI,全称为Capability Maturity Model Integration,即能力成熟度模型集成。它是由美国卡内基梅隆大学软件工程研究所研发的过程改进模型,也是国际上用于评价软件企业能力成熟度的一项重要标准。CMMI的目的是帮助软件企业对软件工程过程进行管理和改进,增强开发与改进能力,从而能按时地、不超预算地开发出高质量的软件。

CefSharp+Selenium 实现支付宝自动化支付_cef 支付宝自动支付-程序员宅基地

文章浏览阅读3.2k次。本人使用的是Codeer-Software/Selenium.CefSharp.Driver (github.com)k_cef 支付宝自动支付

SpringCloud启动报错,提示The Following Method Did Not exist:CompositeHealthIndicator_启动报错compositehealthcontributor-程序员宅基地

文章浏览阅读2.1k次。今天升级SpringBoot的版本,然后启动的时候懵逼了,报了个错:1234567891011121314 Error starting Tomcat context. Exception: org.springframework.beans.factory.BeanCreationException. Message: Error c..._启动报错compositehealthcontributor

AirVO:一种抗光照干扰的点线视觉里程计-程序员宅基地

文章浏览阅读332次。文章:AirVO: An Illumination-Robust Point-Line Visual Odometry作者:Kuan Xu, Yuefan Hao , Shenghai Yuan , Chen Wang , Lihua Xie编辑:点云PCL代码:https://github.com/sair-lab/AirVO.git来源:arXiv2023欢迎各位加入知识星球,获取PDF论文,..._airvo: an illumination-robust point-line visual odometry

随便推点

微信小程序 - 视图与逻辑 介绍-程序员宅基地

文章浏览阅读1.1k次,点赞25次,收藏25次。下拉刷新是一种用户在页面顶部向下滑动时触发的事件,通常用于实现页面的数据更新或重新加载。上拉触底是一种用户在页面底部向上滑动时触发的事件,通常用于实现分页加载更多数据。生命周期是指一个小程序从被创建到被销毁的整个过程。在这个过程中,小程序会经历不同的阶段和事件,开发者可以通过生命周期函数来执行相应的逻辑操作。生命周期函数是在特定时机会被自动触发的函数,开发者可以在这些函数中编写相应的逻辑代码。在小程序中,生命周期函数包括应用生命周期函数和页面生命周期函数。

三维高密度电法寻找UXO试验_三维高密度电法如何布置电极-程序员宅基地

文章浏览阅读207次。三维高密度电法_三维高密度电法如何布置电极

c语言源程序有关常识,莆田学院C语言程序设计模拟试卷.doc-程序员宅基地

文章浏览阅读230次。莆田学院C语言程序设计模拟试卷莆田学院《C语言程序设计》模拟试卷 - 02-(考试时间120分钟)一、单项选择题()在C语言中,用户能使用的正确标识符是【1】 。A) 5f B) _for C) struct D) _f.52、以下【2】是正确的C语言常量。A) 0678 B) '\' C) 1.2E3.5 D) 123L3、以下程序的运行结果是什么【..._以下 那个是正确的c语言常量。 a) 0678 b) '\0101' c) 1.2e3.5 d) 123l

opencv图像颜色空间转换_opencv c语言颜空间的转换(bgr->hsv,bgr->xyz,bgr->ycrcb)-程序员宅基地

文章浏览阅读4.8k次。opencv常用的样色空间包括RGB, HSV和YUV等。RGB颜色空间是基于三基色原理二形成的,常用于图像显示系统中;HSV描述的色度,饱和度,亮度这些表示颜色得方法,常用于描述色彩变化;YUV是通过亮度和色度来描述颜色,色度由UV通道组合而成。opencv提供cvtColor(inputArray src, outputArray dst, int code, int dstCn = 0)_opencv c语言颜空间的转换(bgr->hsv,bgr->xyz,bgr->ycrcb)

自考计算机专业实践好多,自考计算机实践难考吗?-程序员宅基地

文章浏览阅读828次。【导语】自考计算机实践难考吗?对于初次报考自学考试的自考生很想知道自考计算机实践课难不难。因此,重庆自学考试网整理了自考计算机实践科的内容,希望对考生有所帮助。自学考试的实践环节,包括《计算机应用基础》的上机考核,这个是公共课,专科段的任何专业都需要考,主要是考试计算机的基础操作。考试时间一般是45分钟,在考试之前在计算机前面练习练习就没有问题了。另外,像设计类的专业,可能需要提交一个毕业设计,这..._自考计算机实践课好过吗

31.Linux-wm9876声卡驱动(移植+测试)-程序员宅基地

文章浏览阅读201次。本节学习目的1)分析Linux中的OSS声卡系统2)移植wm9876声卡3)使用madplay应用程序播放mp31.声音三要素采样频率音频采样率是指录音设备在一秒钟内对声音信号的采样次数, 常用的采样率有:8KHz - 电话所用采样率, 对于人的说话已经足够清除22.05KHz- 无线电广播所用采样率32KHz - min..._linux麦克风驱动移植

推荐文章

热门文章

相关标签