Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (10): 77-84     https://doi.org/10.11925/infotech.2096-3467.2017.0366
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
关联数据中owl:sameAs网络分析*
贾君枝(), 李晓
山西大学经济与管理学院 太原 030006
Analyzing owl:sameAs Network in Linked Data
Jia Junzhi(), Li Xiao
School of Economics and Management, Shanxi University, Taiyuan 030006, China
全文: PDF (2732 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】调研owl:sameAs连接在真实数据网络中的配置和应用情况。【方法】从BTC 2014数据集中抽取部分数据, 应用统计学方法对样本数据构成的sameAs网络进行结构分析、域名分析和实例类型分析。【结果】数据分析结果表明, 真实数据网络中sameAs连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、本体对齐、知识发现以及跨数据集查询等提供参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
贾君枝
李晓
关键词 owl:sameAs数据集互联网络    
Abstract

[Objective] This paper examines the application of the owl:sameAs link in the Web of Data. [Methods] First, we extracted owl:sameAs links from the BTC 2014 dataset. Then, we analyzed the structure of the sample data, as well as their domain names and instance types. [Results] The retrieved links of owl:sameAs were sparse, and most entities only had single connection between each other. [Limitations] The size of our sample data was small, and more comprehensive analysis was needed. [Conclusions] Our study lays some foundations for data integration, ontology alignment, knowledge discovery of the Web of Data.

Key wordsowl:sameAs    Interlinking of Datasets    Network
收稿日期: 2017-05-05      出版日期: 2017-11-08
ZTFLH:  G254  
基金资助:*本文系国家社会科学基金重点项目“基于关联数据的中文名称规范档语义描述及数据聚合研究”(项目编号: 15ATQ004)的研究成果之一
引用本文:   
贾君枝, 李晓. 关联数据中owl:sameAs网络分析*[J]. 数据分析与知识发现, 2017, 1(10): 77-84.
Jia Junzhi,Li Xiao. Analyzing owl:sameAs Network in Linked Data. Data Analysis and Knowledge Discovery, 2017, 1(10): 77-84.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0366      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I10/77
谓词缩写 谓词URI及备注 数量
rdf:type <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> 定义实例和类之间的联系 64 449
owl:sameAs <http://www.w3.org/2002/07/owl#sameAs> 表示由不同URI标识的两个RDF资源指的是同一个对象 44 746
skos:exactMatch <http://www.w3.org/2004/02/skos/core#exactMatch> 连接两个有足够的可信度并在信息检索应用程序较大范围可以交替使用的概念, 是skos:closeMatch的子属性 13 102
rdfs:seeAlso <http://www.w3.org/2000/01/rdf-schema#seeAlso> 将一个资源关联到另一个解释它的资源 5 570
skos:closeMatch <http://www.w3.org/2004/02/skos/core#closeMatch> 连接两个足够相似以致在一些信息检索应用程序可以交替使用的概念 1 490
dcterms:type <http://purl.org/dc/terms/type> 描述文件格式、物理媒介或资源的维度 1 170
  数据集间互联统计
sameAs谓词 数量 占比
<http://www.w3.org/2002/07/owl#sameAs> 44 746 97.60%
<http://www.w3.org/2000/01/rdf-schema#sameAs> 631 1.38%
<owl:sameAs> 445 0.97%
<htpp://www.abes.fr/owlsameAs> 16 0.03%
<http://lexvo.org/ontology#nearlySameAs> 4 0.009%
<http://linkedgeodata.org/ontology/gadmSameAs> 4 0.009%
  owl:sameAs谓词表达形式
  样本sameAs网络中的一个连接组件
  连接组件规模分布
  节点度数分布
  样本sameAs网络域名网络结构图
  数据集的入度分布和出度分布
  基于owl:sameAs连接的实体对象类型分布
  基于owl:sameAs连接的实例的rdf:type信息获取
源数据集 目标数据集 基于owl:sameAs连接的最常用的type对
源数据集type 目标数据集type
theses.fr idref.fr <http://www.abes.fr/foafPerson> <http://xmlns.com/foaf/0.1/Person>
<http://www.abes.fr/foafAgent> <http://xmlns.com/foaf/0.1/Person>
<http://www.abes.fr/foafAgent> <http://xmlns.com/foaf/0.1/Organization>
d-nb.info dbpedia.org <http://d-nb.info/standards/elementset/gnd#
DifferentiatedPerson>
<http://dbpedia.org/class/yago/Traveler109629752>
morelab.deusto.es dblp.l3s.de <http://swrc.ontoware.org/ontology#Article> <http://purl.org/dc/dcmitype/Text>
wals.info glottolog.org <http://purl.org/dc/terms/LinguisticSystem> <http://purl.org/linguistics/gold/Language>
didactalia.net data.nytimes.com <http://rdfs.org/sioc/types#Tag> <http://www.w3.org/2004/02/skos/core#Concept>
  基于owl:sameAs连接的源数据集和目标数据集常用type
[1] Bizer C, Tom H, Berners-Lee T, et al.Linked Data: The Story So Far[J]. International Journal on Semantic Web & Information Systems, 2009, 5(3): 1-22.
doi: 10.4018/jswis.2009081901
[2] Abele A, McCrae J. Linking Open Data Cloud Diagram 2017 [EB/OL]. [2017-03-07].
[3] Schmachtenberg M, Bizer C, Paulheim H.Adoption of the Linked Data Best Practices in Different Topical Domains[C]// Proceedings of the 13th International Semantic Web Conference. 2014: 245-260.
[4] Gunaratna K, Lalithsena S, Sheth A.Alignment and Dataset Identification of Linked Data in Semantic Web[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2014, 4(2): 139-151.
doi: 10.1002/widm.1121
[5] Parundekar R, Knoblock C A, Ambite J L.Linking and Building Ontologies of Linked Data[C]// Proceedings of the 9th International Semantic Web Conference, Shanghai, China. 2010.
[6] Correndo G, Penta A, Gibbins N, et al.Statistical Analysis of the owl:sameAs Network for Aligning Concepts in the Linking Open Data Cloud[J]. Lecture Notes in Computer Science, 2012, 7447(5): 215-230.
doi: 10.1007/978-3-642-32597-7
[7] Nikolov A, Motta E.Capturing Emerging Relations Between Schema Ontologies on the Web of Data[C]//Proceedings of the 9th Semantic Web Conference, Shanghai, China. 2010.
[8] Gunaratna K, Thirunarayan K, Jain P, et al.A Statistical and Schema Independent Approach to Identify Equivalent Properties on Linked Data[C]// Proceedings of the 9th International Conference on Semantic Systems. ACM, 2013: 33-40.
[9] Bechhofer S, van Harmelen F, Hendler J, et al. OWL Web Ontology Language Reference. [EB/OL].[2016-11-02].
[10] 郭世泽, 陆哲明. 复杂网络基础理论[M]. 北京: 科学出版社, 2012.
[10] (Guo Shize, Lu Zheming.Basic Theory of Complex Networks [M].Beijing: Science Press, 2012.)
[11] Tobias K, Andreas H. Billion Triples Challenge 2014 Dataset [EB/OL]. [2016-10-11].
[12] Using owl:sameAs in Linked Data[EB/OL]. [2016-10-12].
[13] Auer S, Bizer C, Kobilarov G, et al.DBpedia: A Nucleus for a Web of Open Data[C]// Proceedings of the 6th International Semantic Web Conference on Semantic Web. 2007.
[14] Hotho A.BibSonomy: A Social Bookmark and Publication Sharing System[C]// Proceedings of the 14th International Conference on Conceptual Structures, Aalborg, Denmark. Aalborg University Press, 2006.
[15] EUscreen Linked Open Data Pilot [EB/OL]. [2017-03-08].
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 鲁云蒙,刘铁忠. 基于知识关联性的科研合作网络隐性知识扩散模型研究:以重大科技工程为例*[J]. 数据分析与知识发现, 2021, 5(9): 10-20.
[3] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[4] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[5] 王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[6] 王勤洁, 秦春秀, 马续补, 刘怀亮, 徐存真. 基于作者偏好和异构信息网络的科技文献推荐方法研究*[J]. 数据分析与知识发现, 2021, 5(8): 54-64.
[7] 顾耀文, 张博文, 郑思, 杨丰春, 李姣. 基于图注意力网络的药物ADMET分类预测模型构建方法*[J]. 数据分析与知识发现, 2021, 5(8): 76-85.
[8] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[9] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[10] 马莹雪,赵吉昌. 自然灾害期间微博平台的舆情特征及演变*——以台风和暴雨数据为例[J]. 数据分析与知识发现, 2021, 5(6): 66-79.
[11] 高伊林,闵超. 中美对“一带一路”沿线技术扩散结构比较研究*[J]. 数据分析与知识发现, 2021, 5(6): 80-92.
[12] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[13] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[14] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[15] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn