构建IT领域概念图谱

原文地址

摘要

关联开放数据(LOD)中包含丰富的知识和语义,它的发展促使了很多知识型应用的诞生和兴起。在这些应用中,实体间的相关性(不同于相似性)这一概念扮演了重要角色。

​ 在给定一个查询后我们感兴趣的不只是确切的返回值(exact answers ),还有那些与查询紧密相关的东西。

​ 利用DBpedia中IT领域数据构建概念图谱的方法,不仅利用字符串匹配,还可以利用LOD数据集中编码的显示或隐式语义。在此基础上构建的专家系统,可以帮助那些在IT领域进行实体搜索任务的用户。

​ 为了对相关实体进行排序需要计算相关度,这就涉及到不同的相关性度量(relatedness measures)。

导读

​ 基于关键词匹配的搜索在同义、歧义发生时,表现得很挣扎(suffer)。哪怕查询语句、资源描述都结构化了,同样的问题依然存在。导致这一问题的主要原因是,它们都无法捕获查询、资源描述中的词语的**词义(meaning of terms)以及语义关联(the semantic relation)**。

​ 相关性(relatedness)是语义上的,比相似性概念宽泛(wider)。举例来说,MySQL和PostgreSQL很相似的,PHP和MySQL则是很相关的。

​ 构建图谱的关键在于,怎么衡量两个实体间的相关度。

​ 本文提出了一种语义感知的度量来评估实体间相关度,并利用这个度量构建IT领域概念图谱,图上每个节点都是IT概念(编程语言、数据库、技术、框架,等等)。

​ 构建图谱时,利用了来自web的数据的统计特征以及从LOD数据集中抽取的语义知识