【论文笔记-44~】多语言实体链接

news/2024/9/21 18:44:30

~2011

1. Cross-Language Entity Linking

文章核心观点:
本文介绍了一种新的跨语言实体链接任务,旨在将不同语言的文档中的命名实体与英文知识库中的实体描述进行匹配。作者提出了一种利用统计音译和跨语言信息检索的方法来解决这一任务,并在21种语言上进行了实验验证。实验结果显示,该方法平均性能可以达到英文单语言基线的94%,在个别语言上性能介于86%到99%之间。此外,文章还探讨了训练数据量对分类器性能的影响,以及利用相关语言进行训练的可行性。总体来说,本文为跨语言实体链接任务提供了有效的解决思路和实验验证。

方法:

  1. 候选识别:使用快速的名称匹配技术从知识库中识别出可能对应输入实体的知识库节点。具体技术包括:查询名称与候选名称的精确匹配、已知别名或昵称查找、查询与候选之间的字符4-gram数量、以及查询与候选之间IDF加权词的数量。
  2. 候选排名:使用监督机器学习对每个候选进行打分,并选择得分最高的一个作为输出。特征函数基于查询的内在属性、知识库候选的内在属性以及查询与候选之间的比较。
  3. 跨语言候选识别:先将查询名称翻译成英文,然后应用单语言的英文启发式方法。
  4. 上下文匹配:将跨语言上下文匹配视为跨语言信息检索问题,使用概率结构化查询方法。对维基百科文章进行索引,学习平行文本中的单词翻译概率,并实现概率结构化查询。
  5. 关系特征:将知识库中的事实作为“文档”,与查询文档计算文档相似度。
  6. 命名实体特征:对查询文档进行命名实体识别,并从输出中创建特征。
  7. 实体类型特征:检查知识库实体的类型是否与查询一致。
  8. 无匹配特征:一些特征可以指示是否存在匹配的知识库条目。
    使用支持向量机进行排名学习。

方法补充:我们使用平行文档集合和众包来生成其他语言中的地面真实情况。我们工作所基于的一个基本见解是,如果我们使用平行文本集合的英文部分构建一个实体链接测试集,我们可以利用为英文特别开发现成的注释者和工具,然后将英文结果投影到其他语言上。因此,我们应用英文NER在文本中找到人名(Ratinov和Roth,2009),我们的英文实体链接系统识别候选实体ID,以及亚马逊Mechanical Turk上的英文注释者选择每个名称的正确kbid。最后,我们使用在伯克利词对齐器(Haghighi等人,2009)中实现的标准统计词对齐技术,将英文名称提及映射到非英文文档中的相应名称。

转移范例:标签
转移资源:翻译,词对齐
评估语言:en +(见下图)

评估数据集:TAC-KBP 2010,self-generated

2012~2018

X. SemEval-2015 Task 13: Multilingual All-Words Sense Disambiguation and Entity Linking

在这篇论文中,我们描述了在SemEval 2015任务13:多语言词义消歧中的组织和所获得的结果。我们对结果的分析揭示了WSD(词义消歧)和EL(实体链接)任务整合中的有趣方面,例如语义签名、PPR(个性化页面排名)和用于名词和命名实体消歧的相似性度量的效用,以及用于动词、形容词和副词消歧的Lesk基础度量。另一个从这项任务中出现的有趣结果是,监督方法很难在多语言环境中泛化。实际上,参加这项任务的监督系统只考虑了英语。此外,这项任务再次确认了WordNet首感启发式方法是一个难以击败的硬基线。不幸的是,没有特定领域的消歧系统参加这项任务。然而,在生物医学领域,参与系统的表演质量比在其他考虑的领域中更高。
作为未来的研究方向,我们希望继续探究这一新联合任务的性质,并集中研究命名实体消歧和词义消歧之间的区别,特别关注非欧洲语言。

2. Cross-lingual wikification using multilingual embeddings

核心观点:
方法:

  1. 单语言嵌入学习:利用Skip-Gram模型为每种语言学习词和标题的嵌入。
  2. 多语言嵌入学习:利用CCA方法将不同语言的嵌入投影到同一空间,其中使用维基百科标题的跨语言链接作为词典。
  3. 候选生成:基于外语维基百科的锚文本和英语标题链接构建索引,为提及生成候选标题。
    4.3 候选排名:使用多语言嵌入计算提及和候选标题之间的相似度特征,训练一个排名模型输出最终分数。
    选择最佳候选:选择具有最高相关分数的候选标题作为答案,如果无适当候选,则输出NIL。
  4. 实验验证:在12种语言的维基百科数据集和TAC KBP2015实体链接数据集上验证该方法的有效性。

转移范例:参数
转移资源:multilingual word embeddings,Wikipedia
评估语言:
评估数据集:TAC KBP2015,self-generated

不足:难以处理目标语言的实体提及有相应英文页面但没有本页面的情况。
相关工作:略

待补充:CCA方法。

MAG: A multilingual, knowledge-base agnostic and deterministic entity linking approach

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/31604.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙HarmonyOS实战-Stage模型(UIAbility组件)

🚀一、UIAbility组件 🔎1.概述 HarmonyOS中的Stage模型是一种基于UIAbility组件的应用程序架构。UIAbility是HarmonyOS系统中用于构建用户界面的基本组件之一。它负责处理应用程序界面的显示和交互。 在Stage模型中,每个应用程序都有一个或多个Stage。Stage是一个独立的界…

ctfshow-菜狗杯-web

菜狗杯 一言既出 打开题目就是一个朴实无华的php代码我们分析一下: 需要传入一个num的参数,使num==114514,后面经过intval转化后要num==1919810,否则直接结束进程 这下就有点难办了,但其实我们只要其实闭合一下这个assert函数,不让这个结束的条件成立就行,payload如下 nu…

地产新模式,这次真成了

当前房地产的主线,除了「救市」,还有很重要的是「改革」。怎么改?一是租售并举,建立保障住房体系。也就是我们说过很多次的,供给侧结构改革。保障性租赁住房还在加速。二是从“大开发”模式,向“大资管”模式转型。也就是对存量物业的改造升级、运营升级、经营模式升级。…

开发板登录返回以及退出设计

IO编程 开发板登录返回以及退出设计/****************************************************************************** file name: 2024-05-14_main.c* author : tongyaqi1110@163.com* date : 2024-05-14* function : 在LCD上显示并触摸开发板登录返回以及退出设计* n…

机器学习之朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯定理的分类算法,常用于解决文本分类和垃圾邮件过滤等问题。它的"朴素"体现在对每个特征之间的条件独立性的假设,即假设给定目标值的情况下,每个特征都是相互独立的。尽管这个假设在实际问题中并不总是成立,但朴素贝叶斯的简单性和高效…

mBlock Arduino(9)舵机(Servo motor)控制

舵机(Servo motor)英文常简称 Servo,中文也有人称伺服机,由控制电路、齿轮、直流马达等组成,可使用〈mBlock & Arduino(4)利用 PWM 模拟类比讯号〉中谈过的 PWM 技术来控制舵机转动角度,像Plotclock就应用了三个舵机,以手臂在白板上绘制出目前的时间。舵机控制原理…

PPO近端策略优化玩cartpole游戏

这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像,但是模型是actor…

实验8-tensorboard

VMware虚拟机 Ubuntu20-LTS python3.6 tensorflow1.15.0 keras2.3.1 运行截图:代码: 实验8-1tensorboard可视化import tensorflow as tf#定义命名空间 with tf.name_scope(input):#fetch:就是同时运行多个op的意思input1 = tf.constant(3.0,name=A)#定义名称,会在tensorboa…