OAG: Toward Linking Large-scale Heterogeneous Entity Graphs

Paper：https://doi.org/10.1145/3292500.3330785

Code：https://github.com/zfjsail/OAG/

Slides：http://keg.cs.tsinghua.edu.cn/jietang/publications/kdd2019-Zhang-et-al-OAG.pptx

ABSTRACT

采用Aminer数据集和Microsoft Academic Graph数据集实验，提出LinKG框架，实现大规模链接异构实体图。

LinKG由三部分构成，每部分分别处理一类实体

采用LSTM捕获word-sequence-based entities，如venues
采用locality-seneitive hashing和CNN来捕获large-scale entities，如papers
采用HGAT来建模entities with ambiguity，如authors

PROBLEM DEFINITION

在异构图$HG_1$和$HG_2$中找到实体间的联系$L=\{(e_1,e_2)|e_1\in HG_1,e_2\in HG_2\}$，即$e_1$和$e_2$在$HG_1、HG_2$中代表相同实体。

LINKG

LinKG的基本架构

对于三类的link分别采用不同的方法

venue linking：只是用venue的全名是最简单高效的，不必使用额外信息。该部分含有两个技术：名称匹配和LSTM的序列编码
paper linking：充分使用异构信息，包括论文的标题和发表年份，以及authors和venue。采用Hashing技术快速处理，才CNN来进行有效链接。
author linking：为每个author生成一个异构子图，由他的合著者、papers和venues组成。此外，将前两个模块的venue和paper的链接结果合并到author的链接中。该任务还面临重名的问题，因此采用HGAT来进行链接。

Linking Venues — Sequence-based Entities

venues的信息有很多，包括它自身的name和keywords，除此之外还有与它相连的authors和papers。但是会有很多的author和paper与它相连，因此该信息很难利用好。此外，只用keyword也很难区别venue间的相似性。

Name Matching

通过它们的full names and abbreviations可以link超过27000对，剩下不能通过此判断的venue通常有如下特点：

词序倒置
增加或没有前后缀

LSTM

仅通过name matching不能精确匹配。在full name中的相对单词和关键词序列通常都是保留的。因此对其Integral Sequence和Keyword Sequence进行建模。Integral Sequence是venue名称的原始词序列，Keyword Sequence是从Integral Sequence提取的关键词派生得来的。采用增强的LSTM来解决该问题。

通过LSTM计算venue的u、v等值，并最后通过FC层比较相似度。

Linking Papers — Large-scale Entities

面临问题在于large-scale，paper数目多，有标点符号的paper title会简写，paper会重名重venue。采用hashing和cnn来解决。

Locality-sensitive Hashing(LSH)

LSH通过hash的方法将数据从原空间hash到新空间，在原空间相似性大的数据在新空间也大，在原空间相似性小的数据在新空间也小。

首先用Doc2Vec将titles转换到为low-dimensional real-valued vectors，再用LSH进一步将real-valued vectors转化为binary codes。

Convolution Neural Networks (CNN)

LSH可以高效匹配，但是由于概率性的问题，仍然会存在信息丢失。因此需要一个更加精细的方法，通过CNN来解决unlinked papers。分三步

candidate paper pair search;候选论文对搜索，为了避免$n^2$对候选论文，采用基于title keywords的倒排序索引技术。
paper similarity matrix construction; 构建论文相似度矩阵，为每个候选论文对构建相似度矩阵，使用其paper titles和authors作为CNN的输入。如果第i和第j个词在两篇paper中相同，则$z_{ij}^{(0)}$为1，不然为0.由于没必要比较跨实体的相似性，因此将这两个相似矩阵分别在CNN第一层建模。
CNN-based pairwise similarity learning.基于CNN的成对相似性学习。通过卷积层和池化层捕获高阶特征。然后flatten隐层矩阵得到dense向量，concatenate title和author的向量。通过MLP预测匹配值，最后通过softmax来输出匹配概率。

Linking Authors — Ambiguous Entities

从上亿个结点直接进行匹配不切实际，因此还是先为名称相似的作者构建候选对，再为候选对中作者构建一个异构自子图，如果两个自子图有相同的paper和venue（paper和venue之前匹配过），则它们可以相互连接，最后应用HGAT来确定作者匹配。

Paired Subgraph Construction

对于候选对中的author，选择其相邻的author、venue和paper构建子图。

Paired Subgraph Construction

候选对的相同邻居可以为author间配对提供信息。采用HGAT聚合邻居节点信息。

首先基于语义信息和结构信息对实体的输入特征进行预训练。

语义特征：为AMiner中所有words训练skip-gram词嵌入模型。对关联词的embedding进行平均，得到每个实体的embedding。
结构特征：采用LINR，得到每个实体的embedding。

组合两种embedding得到GAT的输入特征h。

Encoder layers：多个图注意力层

Output layers：通过encoder后，每个节点都得到了聚合它邻居节点信息的hidden embedding。将候选对的两个embedding融合到一个相邻，用两层FC得到候选对的输出表示。