Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (10): 77-84     https://doi.org/10.11925/infotech.2096-3467.2017.0366
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
关联数据中owl:sameAs网络分析*
贾君枝(), 李晓
山西大学经济与管理学院 太原 030006
Analyzing owl:sameAs Network in Linked Data
Jia Junzhi(), Li Xiao
School of Economics and Management, Shanxi University, Taiyuan 030006, China
全文: PDF (2732 KB)   HTML ( 2
输出: BibTeX | EndNote (RIS)      
摘要 

目的】调研owl:sameAs连接在真实数据网络中的配置和应用情况。【方法】从BTC 2014数据集中抽取部分数据, 应用统计学方法对样本数据构成的sameAs网络进行结构分析、域名分析和实例类型分析。【结果】数据分析结果表明, 真实数据网络中sameAs连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、本体对齐、知识发现以及跨数据集查询等提供参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
贾君枝
李晓
关键词 owl:sameAs数据集互联网络    
Abstract

[Objective] This paper examines the application of the owl:sameAs link in the Web of Data. [Methods] First, we extracted owl:sameAs links from the BTC 2014 dataset. Then, we analyzed the structure of the sample data, as well as their domain names and instance types. [Results] The retrieved links of owl:sameAs were sparse, and most entities only had single connection between each other. [Limitations] The size of our sample data was small, and more comprehensive analysis was needed. [Conclusions] Our study lays some foundations for data integration, ontology alignment, knowledge discovery of the Web of Data.

Key wordsowl:sameAs    Interlinking of Datasets    Network
收稿日期: 2017-05-05      出版日期: 2017-11-08
ZTFLH:  G254  
基金资助:*本文系国家社会科学基金重点项目“基于关联数据的中文名称规范档语义描述及数据聚合研究”(项目编号: 15ATQ004)的研究成果之一
引用本文:   
贾君枝, 李晓. 关联数据中owl:sameAs网络分析*[J]. 数据分析与知识发现, 2017, 1(10): 77-84.
Jia Junzhi,Li Xiao. Analyzing owl:sameAs Network in Linked Data. Data Analysis and Knowledge Discovery, 2017, 1(10): 77-84.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0366      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I10/77
谓词缩写 谓词URI及备注 数量
rdf:type <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> 定义实例和类之间的联系 64 449
owl:sameAs <http://www.w3.org/2002/07/owl#sameAs> 表示由不同URI标识的两个RDF资源指的是同一个对象 44 746
skos:exactMatch <http://www.w3.org/2004/02/skos/core#exactMatch> 连接两个有足够的可信度并在信息检索应用程序较大范围可以交替使用的概念, 是skos:closeMatch的子属性 13 102
rdfs:seeAlso <http://www.w3.org/2000/01/rdf-schema#seeAlso> 将一个资源关联到另一个解释它的资源 5 570
skos:closeMatch <http://www.w3.org/2004/02/skos/core#closeMatch> 连接两个足够相似以致在一些信息检索应用程序可以交替使用的概念 1 490
dcterms:type <http://purl.org/dc/terms/type> 描述文件格式、物理媒介或资源的维度 1 170
  数据集间互联统计
sameAs谓词 数量 占比
<http://www.w3.org/2002/07/owl#sameAs> 44 746 97.60%
<http://www.w3.org/2000/01/rdf-schema#sameAs> 631 1.38%
<owl:sameAs> 445 0.97%
<htpp://www.abes.fr/owlsameAs> 16 0.03%
<http://lexvo.org/ontology#nearlySameAs> 4 0.009%
<http://linkedgeodata.org/ontology/gadmSameAs> 4 0.009%
  owl:sameAs谓词表达形式
  样本sameAs网络中的一个连接组件
  连接组件规模分布
  节点度数分布
  样本sameAs网络域名网络结构图
  数据集的入度分布和出度分布
  基于owl:sameAs连接的实体对象类型分布
  基于owl:sameAs连接的实例的rdf:type信息获取
源数据集 目标数据集 基于owl:sameAs连接的最常用的type对
源数据集type 目标数据集type
theses.fr idref.fr <http://www.abes.fr/foafPerson> <http://xmlns.com/foaf/0.1/Person>
<http://www.abes.fr/foafAgent> <http://xmlns.com/foaf/0.1/Person>
<http://www.abes.fr/foafAgent> <http://xmlns.com/foaf/0.1/Organization>
d-nb.info dbpedia.org <http://d-nb.info/standards/elementset/gnd#
DifferentiatedPerson>
<http://dbpedia.org/class/yago/Traveler109629752>
morelab.deusto.es dblp.l3s.de <http://swrc.ontoware.org/ontology#Article> <http://purl.org/dc/dcmitype/Text>
wals.info glottolog.org <http://purl.org/dc/terms/LinguisticSystem> <http://purl.org/linguistics/gold/Language>
didactalia.net data.nytimes.com <http://rdfs.org/sioc/types#Tag> <http://www.w3.org/2004/02/skos/core#Concept>
  基于owl:sameAs连接的源数据集和目标数据集常用type
[1] Bizer C, Tom H, Berners-Lee T, et al.Linked Data: The Story So Far[J]. International Journal on Semantic Web & Information Systems, 2009, 5(3): 1-22.
doi: 10.4018/jswis.2009081901
[2] Abele A, McCrae J. Linking Open Data Cloud Diagram 2017 [EB/OL]. [2017-03-07].
[3] Schmachtenberg M, Bizer C, Paulheim H.Adoption of the Linked Data Best Practices in Different Topical Domains[C]// Proceedings of the 13th International Semantic Web Conference. 2014: 245-260.
[4] Gunaratna K, Lalithsena S, Sheth A.Alignment and Dataset Identification of Linked Data in Semantic Web[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2014, 4(2): 139-151.
doi: 10.1002/widm.1121
[5] Parundekar R, Knoblock C A, Ambite J L.Linking and Building Ontologies of Linked Data[C]// Proceedings of the 9th International Semantic Web Conference, Shanghai, China. 2010.
[6] Correndo G, Penta A, Gibbins N, et al.Statistical Analysis of the owl:sameAs Network for Aligning Concepts in the Linking Open Data Cloud[J]. Lecture Notes in Computer Science, 2012, 7447(5): 215-230.
doi: 10.1007/978-3-642-32597-7
[7] Nikolov A, Motta E.Capturing Emerging Relations Between Schema Ontologies on the Web of Data[C]//Proceedings of the 9th Semantic Web Conference, Shanghai, China. 2010.
[8] Gunaratna K, Thirunarayan K, Jain P, et al.A Statistical and Schema Independent Approach to Identify Equivalent Properties on Linked Data[C]// Proceedings of the 9th International Conference on Semantic Systems. ACM, 2013: 33-40.
[9] Bechhofer S, van Harmelen F, Hendler J, et al. OWL Web Ontology Language Reference. [EB/OL].[2016-11-02].
[10] 郭世泽, 陆哲明. 复杂网络基础理论[M]. 北京: 科学出版社, 2012.
[10] (Guo Shize, Lu Zheming.Basic Theory of Complex Networks [M].Beijing: Science Press, 2012.)
[11] Tobias K, Andreas H. Billion Triples Challenge 2014 Dataset [EB/OL]. [2016-10-11].
[12] Using owl:sameAs in Linked Data[EB/OL]. [2016-10-12].
[13] Auer S, Bizer C, Kobilarov G, et al.DBpedia: A Nucleus for a Web of Open Data[C]// Proceedings of the 6th International Semantic Web Conference on Semantic Web. 2007.
[14] Hotho A.BibSonomy: A Social Bookmark and Publication Sharing System[C]// Proceedings of the 14th International Conference on Conceptual Structures, Aalborg, Denmark. Aalborg University Press, 2006.
[15] EUscreen Linked Open Data Pilot [EB/OL]. [2017-03-08].
[1] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[2] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[3] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[4] 刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
[5] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[6] 张毅,杨奕,邓雯. 网络在线信任影响因素研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 15-26.
[7] 李文政,顾益军,闫红丽. 基于网络贝叶斯信息准则算法的社区数量预测研究*[J]. 数据分析与知识发现, 2020, 4(4): 72-82.
[8] 闫春,刘璐. 基于改进SOM神经网络模型与RFM模型的非寿险客户细分研究*[J]. 数据分析与知识发现, 2020, 4(4): 83-90.
[9] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[10] 邓建高,张璇,傅柱,韦庆明. 基于系统动力学的突发事件网络舆情传播研究:以“江苏响水爆炸事故”为例*[J]. 数据分析与知识发现, 2020, 4(2/3): 110-121.
[11] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[12] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[13] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[14] 徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
[15] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn