实体排序论文-1

基于给定实体和属性的相似实体推荐方法

相似实体推荐主要用在问答系统和搜索引擎中.

一个实体可能对应着多个概念,引入属性之后,我们更可能推断出查询意图.例如,苹果+总部,我们知道苹果指的是公司;苹果+口感,我们知道说的是水果.

进行相似实体推荐,要做两件事:

  • 根据实体和不同属性的组合概率推断实体所属的概念
  • 得到该概念下候选的相似实体,排序后输出

实体概念化

建立概念的属性模板

基于假设:当一个概念的不同实体下频繁出现某个属性时,认为这个属性对于本概念是典型的.典型属性的权重高!

具体做法:把每个实体所有属性加入其所属的概念中,计数该属性出现的次数并做归一化.
$$
P(a_j|c_k) = \frac {count(a_j)}{max\lbrace count(a_i)|a_i \in attr(c_k)\rbrace}
$$

$$
Template(c_k)=\left\lbrace {(a_i,p(a_i|c_k))|a_i \in e_i \land e_i \in c_k}\right\rbrace
$$

给定属性推断实体概念

$$
P(c_k|e^s,A) = \sum_{i:a_i\in A}^{N}P(a_i|c_k)
$$

直觉上,源实体属性在某个概念中出现的越多,属于该概念的概率越高;

实体相似性

实体间关系的关联方式:
  • 概念关联: 相同概念下的实体相似,比如水果这个概念下,苹果,梨,葡萄就是相似的;
  • 属性关联: 相似实体通常具有相似的属性集,比如苹果和葡萄,就会有口感,产地,价格等共有属性;
  • 链接关联: 一个实体页面中出现的其它实体通常和该实体是类似的
根据上面的关联方式,得到三个直观的假设:
  1. 两个实体相似,首先这两个实体属于同一个概念;
  2. 一个实体页面频繁出现另一个实体,那么这两个实体较相似;
  3. 如果两个实体共有属性较多,那么这两个实体较相似;
模型

$$
{使用概率}P(e^t|Q){表示给定一个查询}Q={ e^s,A},A={a_1,a_2,…,a_N}(e^s表示输入的源实体,A表示输入的属性列表),推荐一个相似的实体e^t的条件概率.
$$

$$
P(e^t|Q)=\frac{P(e^t,Q)}{P(Q)}\infty P(e^t,Q),P(Q)不受e^t的影响,可以不考虑
$$

$$
P(e^t,Q)=P(Q|e^t)P(e^t)=P(e^s,A|e^t)P(e^t)=P(e^s|e^t)P(A|e^t)P(e^t)=P(e^s,e^t)P(A|e^t)=P(e^t|e^s)P(e^s)P(A|e^t)
$$

$$
\infty P(e^t|e^s)P(A|e^t) {,式中假设e^s和A相互独立,P(e^s)不影响最终结果可以去掉}
$$

得到的两个P,一个表示实体相关度,另一个表示与属性集的重合度.

计算实体相关度

考虑了候选实体在源实体页面出现的频度,以及候选实体和源实体属性的Jaccard相似度.
$$
P(e^t|e^s)=\alpha \frac{count(e^t)}{\sum_{i:e^i\in E}^{N}count(e^i)}+(1-\alpha) \frac{|A^s \bigcap A^t|}{|A^s \bigcup A^t|}
$$

计算与属性集的重合度

考虑候选实体属性集与查询属性集的Jaccard相似度.
$$
P(A|e^t)=\frac{|A^t \cap A|}{|A|}
$$

结果分析

方法名 方法
Base_1 不推断概念,只考虑候选实体,源实体的属性重合度
Base_2 概念推断,不考虑候选实体和查询属性集合的重合度
Base_3 不推断概念,考虑候选实体和查询属性集合的重合度
Ad 概念推断,考虑候选实体和查询属性集合的重合度

1,3都没有推断实体概念,导致推荐实体与搜索意图有较大差距,3由于考虑了查询重合度效果比1好;

2,4都进行了概念推断,可以判断搜索者意图,提高了准确率,4由于考虑了查询重合度效果比2好;

随着查询输入的属性增多,234方法的结果都有所提高,这是因为查询的属性增多时,可以推断出实体更细粒度的概念,更好地推断搜索者的意图;

1没有考虑查询属性,因此结果并不因为属性增多而提高.