MENU

图论基础

December 23, 2021 • Read: 636 • GNN阅读设置

图的表示

  • $Graph$的定义 $G=\{V,E\}$,${V=\{v_1,...,v_n\}}$是大小为$N=|V|$的点集,$E=\{e_1,...,e_m\}$是长度为$M$的边集。
  • 邻接矩阵的定义 $G=\{V,E\}$的邻接矩阵$A\in\{0,1\}^{N\times N}$。$A_{i,j}$表示节点$v_i,v_j$之间的邻接关系。相邻为1,不相邻为0。
  • 关联($incident$)的定义 节点$v_i$和$v_j$相邻当且仅当它们之间存在一条边,此时也认为边$e_i$和顶点$v_{e_i}$(或$v_{e_j}$)相关联

图的性质

  • 度($Degree$)表示该节点与其它节点相邻的次数

度$d(v_i)$的两种计算方法

  • 通过图中相邻边的数目

$$ d(v_i)=\sum_{v_j\in V}\mathbb{1}\varepsilon(\{v_i,v_j\}),\\ \mathbb{1}\varepsilon(\{v_i,v_j\})=\left\{ \begin{aligned} 1,(v_i,v_j)\in \varepsilon \\ 0,(v_i,v_j)\notin \varepsilon \end{aligned} \right. $$

  • 通过图的邻接矩阵

$$ d(v_i)=\sum_{j=1}^NA_{i,j} $$

  • 度的相关定理

图中所有节点的度之和是图中边的数量的两倍

$$ \sum_{v_i\in V}d(v_i)=2\cdot|\varepsilon| $$

相关推论:无向图邻接矩阵的非零元素的个数是边的数量的两倍

连通度

  • 途径($Walk$) 图的途径是节点和边的交替序列,从一个节点开始,以一个节点结束,其中每条边与紧邻的节点相关联

从节点$u$到节点$v$结束的途径称为$u-v$途径。途径长度即为途径中包含的边的数量。$u-v$途径并不一定唯一。

  • 迹($Trail$) 迹是边各不相同的途径
  • 路($Path$) 路是节点各不相同的途径,也称路径
  • 途径相关定理 $A^n$表示图邻接矩阵的n次幂,则$A_n$的第$i$行第$j$列 的元素等于长度为$n$的$v_i-v_j$途径的个数
  • 子图($SubGraph$)图$G=\{V,E\}$的子图$G'=\{V',E'\}$由节点集的子集$V'\in V$和边集的子集$E\in E'$组成。此外,集合$V'$必须包含集合$E'$设计的所有节点
  • 连通分量($Connected Compontent$) 给定一个图$G=\{V,E\}$,如果一个子图$G'=\{V',E'\}$中任意一对节点之间都存在至少一条路,且$V'$中的节点不与任何$V/V'$中的节点相连,那么$G'$就是一个连通分量。
  • 连通图($Connected Graph$) 如果一个图$G=\{V,E\}$只有一个连通分量,那么$G$是连通图
  • 最短路($Short Path$) 给定图$G$中的一对节点$v_s,v_t\in V$,且$P_st$表示节点$v_s$到节点$v_t$的路的集合。那么节点$v_s$和节点$v_t$间的最短路定义为:

$$ p_{st}^{sp}=arg min_{p\in P_{st}}|p| $$

其中$p$表示$P_{st}$中一条长度为$|p|$的路;$p_{st}^{sp}$表示最短路。任意给定的节点对之间可能有很多条最短路

  • 直径($Diameter$) 给定一个连通图$G=\{V,E\}$,它的直径定义为

$$ diameter(G)=max_{v_s,v_t\in V}min_{p\in P_{st}}|p| $$

即为最长的最短路

中心性

  • 度中心性($Degree\quad Centrality$) 节点$v_i$的度中心性为

$$ c_d(v_i)=d(v_i)=\sum_{j=1}^NA_{i,j} $$

  • 特征向量中心性($Eigenvector \quad Centrality$) 节点$v_i$的特征向量中心性用它的相邻节点的中心性来定义,为

$$ c_e(v_i)=\frac{1}{\lambda}\sum_{j=1}^NA_{i,j}\cdot c_e(v_j) $$

矩阵形式表示为

$$ c_e=\frac{1}{\lambda}A\cdot c_e\\ \lambda\cdot c_e=A\cdot c_e $$

$c_e\in\mathbb{R}^N$是一个包含所有节点的特征向量中心性的向量。

可以选择最大的特征值$\lambda$,将它的相应的特征行了作为中心性向量。

  • $Katz$中心性($Katz\quad Centrality$) $Katz$中心性是特征向量中心性的变形,除了邻居节点,它还通过一个常数来考虑节点本身。节点$v_i$的$Katz$中心性可以定义为:

$$ c_k(v_i)=\alpha\sum_{j=1}^NA_{i,j}c_k(v_j)+\beta $$

矩阵形式表示为

$$ c_k=\alpha Ac_k+\beta\\ (I-\alpha\cdot A)c_k=\beta $$

若$\alpha=\frac{1}{\lambda_{max}}$和$\beta=0$时,则$Katz$中心性等价于特征向量中心性。$\alpha$的选择对$Katz$中心性的选择非常关键:大的$\alpha$值可能使矩阵$I-\alpha\cdot A$变成病态矩阵,而小的$\alpha$可能使得中心性变得没有意义,因为总是使得节点分配相同的分数。实践中,经常令$\alpha<\frac{1}{\lambda_{max}}$,从而保证矩阵$I-\alpha\cdot A$的可逆性。则$c_k$为

$$ c_k=(I-\alpha\cdot A)^{-1}\beta $$

  • 介数中心性($Betweenness\quad Centrelity$) 介数中心性度量节点是否处于图中的重要位置。如果有很多路通过该节点,则该节点在图中处于一个重要位置。节点$v_i$的介数中心性可以定义为:

$$ c_b(v_i)=\sum_{v_s\neq v_i \neq v_t} \frac{\sigma_{st}(v_i)}{\sigma_{st}} $$

其中,$\sigma_{st}$表示所有从节点$v_s$到节点$v_t$的最短路的数目;$\sigma_{st}(v_i)$表示这些路中经过节点$v_i$的路的数目。介数中心性会随着图的增大而增大,为了使介数中心性在不同图中有可比性,需要对其进行归一化。一种有效的方法是将所有节点的中心性除以其中的最大值。

$$ c_nb(v_i)=\frac{2\times \sum_{v_s\neq v_i \neq v_t} \frac{\sigma_{st}(v_i)}{\sigma_{st}}} {(N-1)(N-2)} $$

谱图论

  • 谱图论是通过分析图的拉普拉斯矩阵的特征值和特征向量研究图的性质。
  • 拉普拉斯矩阵($Laplacian\quad Matrix$ ) 对于给定图$G=\{V,E\}$及其邻接矩阵$A$,其拉普拉斯矩阵为

$$ L=D-A $$

其中$D$是对角矩阵,$D=diag(d(v_i),...,d(v_N))$,其归一化形式为

$$ L=D^{-\frac{1}{2}}(D-A)D^{-\frac{1}{2}}=I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}} $$

归一化的原因:采用加法规则时,对于度大的节点特征越来越大,而对于度小的节点却相反,这可能导致网络训练过程中梯度爆炸或者消失的问题。

相关证明参见:https://www.zhihu.com/question/42678425

  • 拉普拉斯矩阵的性质

    • 拉普拉斯矩阵是对称半正定矩阵
    • 对于图$G=\{V,E\}$,其拉普拉斯矩阵的特征值是非负的
    • 对于图$G$,其拉普拉斯矩阵的特征值为0的数目(特征值0的重数)等于图中的连通分量的数目

证明与更多关于拉普拉斯矩阵参见:https://zhuanlan.zhihu.com/p/362416124

图信号处理

  • 图信号由图$G=\{V,E\}$和在节点域上定义的将节点映射为实数值的映射函数$f$构成。该映射函数可表示为:

$$ f:v\to \mathbb{R}^{N\times d} $$

其中$d$是属性向量的维度。

接下来定义$d$为一维,所以可用$f[i]$表示节点$v_i$的映射值

传统的信号处理中,信号可以表示在两个域——时域和频域。图信号也可以表示为两个域,即空间域和谱域。

  • 平滑度(或频率) 如果某个图中相邻的节点的值是相似的,那么这个图被认为是平滑的($smooth$),一个平滑的图信号是低频率的,因为这些值通过图中的边在缓慢地变化。具体的来说,一个图信号越平滑,$f^TLf$的值也越小。因此$f^TLf$的值也被称为信号的平滑度。
  • 图信号的谱域基础是。($Graph\quad Fourier\quad Transform,GFT$),它是建立在谱图论之上的。一个图$G$上的信号$f$的图傅里叶变换可表示为

$$ \hat{h}[l]=<f,u_l>=\sum_{i=1}^Nf[i]u_l[i] $$

其中$u_l$表示图的拉普拉斯矩阵$L$的第$l$个特征向量,其对应的特征值$\lambda_l$表示$u_l$的频率(或平滑度)。向量$\hat{f}$是$f$的图傅里叶变换,$\hat{f}[l]$表示它的第$l$个元素。这些特征向量是图$G$上傅里叶基。$f$的图傅里叶基的矩阵表示

$$ \hat{f}=U^Tf $$

其中$U$的第$l$列为$u_l$

由于

$$ u_l^TLu_l=\lambda_l\cdot u_l^{T}u_l=\lambda_l $$

可知特征值$\lambda_l$度量对应的特征向量$u_l$的平滑度。这些特征向量是图$G$上傅里叶基,其对应的特征值表示它们的频率。图傅里叶变换是将图信号$f$分解到不同频率的傅里叶基的过程

  • 图上同样存在这图傅里叶逆变换($Inverse \quad Graph \quad Fourier \quad Transform,IGFT$),它将信号的谱域转成空间域表示

$$ f[i]=\sum_{l=1}^N\hat{f}[l]u_l[i] $$

矩阵表示为

$$ f=U\hat{f} $$

复杂图

  • 异构图($Heterogeneous \quad Graphs$)一个异质图$G$由一组节点$V=\{v1,...,v_N\}$和一组边$\varepsilon=\{e_1,...,e_N\}$构成。其中每个节点和每条边都对应着一个类型。用$T_n$表示节点类型的集合,$T_e$表示边类型的集合。一个异质图右两个映射函数,分别是将每个节点映射到对应类型的$\phi_n:V\to T_n$,及将每条边映射到对应类型的$\phi_e: \varepsilon \to T_e$
  • 二分图($Bipartite \quad Graphs$) 给定一个图$G=\{V,E\}$,$G$是二分图当且仅当$V=V_1\cup V_2,V_1 \cap V_2=\emptyset$,并且对于所有的边$e=(v_e^1,v_e^2)\in\varepsilon$,都有$v_e^1\in V_1$和$v_e^2\in V_2$
  • 多维图($Multi-dimensional \quad Graphs$) 一个多维图由于一个节点集$V=\{v_1,\cdots,v_N\}$和$D$个边集$\{\varepsilon_1,\cdots,\varepsilon_D\}$构成。每个边集$\varepsilon_d$描述了节点之间的一种关系。这$D$种关系也可以表示为$D$个邻接矩阵$A^{(1)},\cdots,A^{(D)}$。第$d$维对应着邻接矩阵$A^{(d)}\in\mathbb{R}^{N\times N}$,描述了节点之间的边$\varepsilon_D$。$A^{(d)}$的第$i,j$项,即$A_{i,j}^{(d)}$,等于1当且仅当$v_i$和$v_j$在第$d$维存在一条边(或者$(v_i,v_j)\in\varepsilon_d$),否则为0。
  • 符号图($Signed \quad Graphs$) 用$G=\{V,\varepsilon^{+},\varepsilon^{-}\}$表示一个符号图,其中$V=\{v_1,\cdots,v_N\}$是一个包含$N$个节点的集合,而$\varepsilon^{+} \subset V\times V$和$\varepsilon^{-} \subset V\times V$分别表示正边和负边集合。且$\varepsilon^{+}\cap \varepsilon^{-}=\emptyset$。正边和负边也可以用符号邻接矩阵$A$表示,其中$A_{i,j}=1$表示当且仅当$v_i$和$v_j$存在一条正边,$A_{i,j}=-1$表示负边,$A_{i,j}=0$表示没有边
  • 超图
  • 动态图($Dynamic\quad Graphs$)

图的计算任务

  • 侧重节点的任务 节点分类、链接预测、节点排序和社区检测
  • 侧重于图的任务 图分类、图匹配和图生成