实验环境

系统:
ubuntu16.04

软件目录:

  • 项目目录/home/gao/software/kgdemo/
  • 数据库/home/gao/software/mysql
  • 应用框架/home/gao/software/apache-jena-3.6.0(这里使用了它的TDB组件
  • SPARQL服务器/home/gao/software/apache-jena-fuseki-3.6.0
  • 数据转化工具/home/gao/software/d2rq-0.8.1
  • 本体构建工具/home/gao/software/Protege-5.2.0
阅读全文 »

原文地址

摘要

关联开放数据(LOD)中包含丰富的知识和语义,它的发展促使了很多知识型应用的诞生和兴起。在这些应用中,实体间的相关性(不同于相似性)这一概念扮演了重要角色。

​ 在给定一个查询后我们感兴趣的不只是确切的返回值(exact answers ),还有那些与查询紧密相关的东西。

​ 利用DBpedia中IT领域数据构建概念图谱的方法,不仅利用字符串匹配,还可以利用LOD数据集中编码的显示或隐式语义。在此基础上构建的专家系统,可以帮助那些在IT领域进行实体搜索任务的用户。

​ 为了对相关实体进行排序需要计算相关度,这就涉及到不同的相关性度量(relatedness measures)。

导读

​ 基于关键词匹配的搜索在同义、歧义发生时,表现得很挣扎(suffer)。哪怕查询语句、资源描述都结构化了,同样的问题依然存在。导致这一问题的主要原因是,它们都无法捕获查询、资源描述中的词语的**词义(meaning of terms)以及语义关联(the semantic relation)**。

​ 相关性(relatedness)是语义上的,比相似性概念宽泛(wider)。举例来说,MySQL和PostgreSQL很相似的,PHP和MySQL则是很相关的。

​ 构建图谱的关键在于,怎么衡量两个实体间的相关度。

​ 本文提出了一种语义感知的度量来评估实体间相关度,并利用这个度量构建IT领域概念图谱,图上每个节点都是IT概念(编程语言、数据库、技术、框架,等等)。

​ 构建图谱时,利用了来自web的数据的统计特征以及从LOD数据集中抽取的语义知识

能不能使用线性分类器得到形状为圆圈的决策边界?

阅读全文 »

安装jupyter时使用了推荐的Anaconda,python默认环境python3。
添加python2的方法如下,亲测有效 - 0-

1
2
3
4
conda create -n py27 python=2.7
source activate py27
conda install notebook ipykernel
ipython kernel install --user

很有趣的书。

早点读到这本书的话,学习计算机基础知识的时候应该会一边学一边感叹“哇!有意思!”吧。

计算机在今天如此普及,现代人享受便利的时候如果想想这东西是怎么发明出来的,一定得惊叹“不可思议”。

盲文、摩斯码、灯泡、电池、继电器、十进制、bit、二进制、门电路等等,书中记录了这些探索是如何一步一步影响着现代科技的。

每一种语言都可以看作是一套编码

编码是为了满足人的某个需求出现的,而语言是为了交流。

规则不一样时,同一个物体在编码空间所处的位置就不一样了。

如果只有一门语言,一种编码,就不需要翻译了。

人类起初在不同的区域形成了不同的语言,如今交流如此频繁,回归一种语言是不是有一种宿命的感觉。

God is watching you.

0%