构建IT领域概念图谱
摘要
关联开放数据(LOD)中包含丰富的知识和语义,它的发展促使了很多知识型应用的诞生和兴起。在这些应用中,实体间的相关性(不同于相似性)这一概念扮演了重要角色。
在给定一个查询后我们感兴趣的不只是确切的返回值(exact answers ),还有那些与查询紧密相关的东西。
利用DBpedia中IT领域数据构建概念图谱的方法,不仅利用字符串匹配,还可以利用LOD数据集中编码的显示或隐式语义。在此基础上构建的专家系统,可以帮助那些在IT领域进行实体搜索任务的用户。
为了对相关实体进行排序需要计算相关度,这就涉及到不同的相关性度量(relatedness measures)。
导读
基于关键词匹配的搜索在同义、歧义发生时,表现得很挣扎(suffer)。哪怕查询语句、资源描述都结构化了,同样的问题依然存在。导致这一问题的主要原因是,它们都无法捕获查询、资源描述中的词语的**词义(meaning of terms)以及语义关联(the semantic relation)**。
相关性(relatedness)是语义上的,比相似性概念宽泛(wider)。举例来说,MySQL和PostgreSQL很相似的,PHP和MySQL则是很相关的。
构建图谱的关键在于,怎么衡量两个实体间的相关度。
本文提出了一种语义感知的度量来评估实体间相关度,并利用这个度量构建IT领域概念图谱,图上每个节点都是IT概念(编程语言、数据库、技术、框架,等等)。
构建图谱时,利用了来自web的数据的统计特征以及从LOD数据集中抽取的语义知识。
jupyter notebook添加kernel
安装jupyter时使用了推荐的Anaconda,python默认环境python3。
添加python2的方法如下,亲测有效 - 0-
1 | conda create -n py27 python=2.7 |
《编码》读后感
很有趣的书。
早点读到这本书的话,学习计算机基础知识的时候应该会一边学一边感叹“哇!有意思!”吧。
计算机在今天如此普及,现代人享受便利的时候如果想想这东西是怎么发明出来的,一定得惊叹“不可思议”。
盲文、摩斯码、灯泡、电池、继电器、十进制、bit、二进制、门电路等等,书中记录了这些探索是如何一步一步影响着现代科技的。
每一种语言都可以看作是一套编码。
编码是为了满足人的某个需求出现的,而语言是为了交流。
规则不一样时,同一个物体在编码空间所处的位置就不一样了。
如果只有一门语言,一种编码,就不需要翻译了。
人类起初在不同的区域形成了不同的语言,如今交流如此频繁,回归一种语言是不是有一种宿命的感觉。
God is watching you.