网络环境中的大数据处理往往涉及复杂的图结构,比如学术合作网络中包含论文、作者、机构等多种实体。而GNN在这些任务中表现不俗,但几乎所有模型都局限于假设图中只有一种节点和边。因此,学术界开始关注异构图的研究。Graph Transformer,HGT模型通过将图中的节点和边分解为不同的矩阵,用三个矩阵的乘积来捕捉节点类型到边类型再到目标节点类型的信息。这个方法直接解决了GNN难以处理异构图的问题,使得它可以应对亿级规模的异构图。HGT模型还在其中引入了相对时间编码技术,这样可以处理动态图中的时间维度。传统方法常把图切分成静态快照分别处理,而HGT则通过为每个节点加上时间差编码,把所有边放到同一幅图里进行训练。这种做法既能够捕捉瞬时互动,也能回顾历史渊源。为了保证亿级异构图能够高效训练和推理,HGT还配套了一套采样算法HGSampling。这个算法根据不同类型节点比例随机抽样,并且利用重要性采样来减少信息损失。OAG数据集上的实验证明HGT能够有效提升各项指标,平均提升9-21%。值得注意的是,HGT还能通过自注意力机制自动挖掘隐式元路径。这些路径是模型自己“悟”出来的,因此更有价值。这个发现表明让模型自主学习路径比人为设计更加高效准确。通过HGT,研究者成功让亿级异构图变得更加“秒懂”。HGT在WWW 2020大会上的论文给出了解决方案。