Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata

读了一篇paper，MSRA的Wei Wu的一篇《Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata》。是关于Ranking Relevence方面的文章。下面简单讲下我对这篇文章的理解，对这方面感兴趣的小伙伴们可以交流一下。

1. Abstract

这篇文章的重点在于使用query-doc的点击二部图，结合query/doc的meta数据（组织成multiple types of features），来学习出query-doc（顺带介绍了query-query，doc-doc）的similarity。

为了计算上述的similarity，作者采用了两个不同的linear mappings，用来把query从query feature space，把doc从doc feature space映射到相同的latent space上，然后便可通过计算这个latent space上两者的vector的dot product来获得两者的similarity。于是，便把对similarity的learning形式化为对mapping的learning，而这个mapping的learning的目标是为了maximize从enriched click-through bipartite gragh上观察到的query-doc的similarity（可以通过query-doc pair的点击数来衡量）。另外，这个linear mapping是针对一种类型的features，获得一种类型features的similarity function，如果有multiple types of features的话，则最终的similarity function是每个type的similarity function的线性组合。

learning过程用到的算法包括Singular Value Decomposition（SVD）和Multi-view Partial Least Squares（M-PLS）。

2. Introduction

作者提到了先前的关于计算query-doc similarity的几种方法。

1）feature based methods：Vector Space Model（VSM），BM25，Language Models for Information Retrieval（LMIR）等。

2）gragh based methods：mining query-doc similarity from a click-through bipartite gragh等。

而这篇文章是将两者结合起来：

3. Problem Formulation

将每种type的features的query或者document用一个向量的形式来表示，，则linear mapping可以看做是维度为和的两种形式的矩阵（和），通过这两种变换矩阵，query或者doc在原始空间上的向量被变换成latent space上的维度为的向量和。于是，对于这种type的faetures，simialrity function表示为。我们可以将点击二部图中query-doc的点击数看作是query-doc similarity的大小，而通过maximize观察到的query-doc的similarity来学习linear mapping和线性加权的权重。