MENU

OAG: Toward Linking Large-scale Heterogeneous Entity Graphs

March 3, 2022 • Read: 613 • GNN阅读设置

Paper:https://doi.org/10.1145/3292500.3330785

Code:https://github.com/zfjsail/OAG/

Slides:http://keg.cs.tsinghua.edu.cn/jietang/publications/kdd2019-Zhang-et-al-OAG.pptx

ABSTRACT

采用Aminer数据集和Microsoft Academic Graph数据集实验,提出LinKG框架,实现大规模链接异构实体图。

LinKG由三部分构成,每部分分别处理一类实体

  • 采用LSTM捕获word-sequence-based entities,如venues
  • 采用locality-seneitive hashing和CNN来捕获large-scale entities,如papers
  • 采用HGAT来建模entities with ambiguity,如authors

image-20220227181847604

PROBLEM DEFINITION

在异构图$HG_1$和$HG_2$中找到实体间的联系$L=\{(e_1,e_2)|e_1\in HG_1,e_2\in HG_2\}$,即$e_1$和$e_2$在$HG_1、HG_2$中代表相同实体。

LINKG

LinKG的基本架构

image-20220227182045843

对于三类的link分别采用不同的方法

  • venue linking:只是用venue的全名是最简单高效的,不必使用额外信息。该部分含有两个技术:名称匹配和LSTM的序列编码
  • paper linking:充分使用异构信息,包括论文的标题和发表年份,以及authors和venue。采用Hashing技术快速处理,才CNN来进行有效链接。
  • author linking:为每个author生成一个异构子图,由他的合著者、papers和venues组成。此外,将前两个模块的venue和paper的链接结果合并到author的链接中。该任务还面临重名的问题,因此采用HGAT来进行链接。

Linking Venues — Sequence-based Entities

venues的信息有很多,包括它自身的name和keywords,除此之外还有与它相连的authors和papers。但是会有很多的author和paper与它相连,因此该信息很难利用好。此外,只用keyword也很难区别venue间的相似性。

Name Matching

通过它们的full names and abbreviations可以link超过27000对,剩下不能通过此判断的venue通常有如下特点:

  • 词序倒置
  • 增加或没有前后缀
LSTM

仅通过name matching不能精确匹配。在full name中的相对单词和关键词序列通常都是保留的。因此对其Integral Sequence和Keyword Sequence进行建模。Integral Sequence是venue名称的原始词序列,Keyword Sequence是从Integral Sequence提取的关键词派生得来的。采用增强的LSTM来解决该问题。

通过LSTM计算venue的u、v等值,并最后通过FC层比较相似度。

image-20220301190938304

Linking Papers — Large-scale Entities

面临问题在于large-scale,paper数目多,有标点符号的paper title会简写,paper会重名重venue。采用hashing和cnn来解决。

Locality-sensitive Hashing(LSH)

LSH通过hash的方法将数据从原空间hash到新空间,在原空间相似性大的数据在新空间也大,在原空间相似性小的数据在新空间也小。

首先用Doc2Vec将titles转换到为low-dimensional real-valued vectors,再用LSH进一步将real-valued vectors转化为binary codes。

Convolution Neural Networks (CNN)

LSH可以高效匹配,但是由于概率性的问题,仍然会存在信息丢失。因此需要一个更加精细的方法,通过CNN来解决unlinked papers。分三步

  1. candidate paper pair search;候选论文对搜索,为了避免$n^2$对候选论文,采用基于title keywords的倒排序索引技术。
  2. paper similarity matrix construction; 构建论文相似度矩阵,为每个候选论文对构建相似度矩阵,使用其paper titles和authors作为CNN的输入。如果第i和第j个词在两篇paper中相同,则$z_{ij}^{(0)}$为1,不然为0.由于没必要比较跨实体的相似性,因此将这两个相似矩阵分别在CNN第一层建模。
  3. CNN-based pairwise similarity learning.基于CNN的成对相似性学习。通过卷积层和池化层捕获高阶特征。然后flatten隐层矩阵得到dense向量,concatenate title和author的向量。通过MLP预测匹配值,最后通过softmax来输出匹配概率。

image-20220301200141286

Linking Authors — Ambiguous Entities

从上亿个结点直接进行匹配不切实际,因此还是先为名称相似的作者构建候选对,再为候选对中作者构建一个异构自子图,如果两个自子图有相同的paper和venue(paper和venue之前匹配过),则它们可以相互连接,最后应用HGAT来确定作者匹配。

Paired Subgraph Construction

对于候选对中的author,选择其相邻的author、venue和paper构建子图。

Paired Subgraph Construction

候选对的相同邻居可以为author间配对提供信息。采用HGAT聚合邻居节点信息。

首先基于语义信息和结构信息对实体的输入特征进行预训练。

  • 语义特征:为AMiner中所有words训练skip-gram词嵌入模型。对关联词的embedding进行平均,得到每个实体的embedding。
  • 结构特征:采用LINR,得到每个实体的embedding。

组合两种embedding得到GAT的输入特征h。

Encoder layers:多个图注意力层

Output layers:通过encoder后,每个节点都得到了聚合它邻居节点信息的hidden embedding。将候选对的两个embedding融合到一个相邻,用两层FC得到候选对的输出表示。