77范文网 - 专业文章范例文档资料分享平台

关联数据发布技术和工具

来源:网络收集 时间:2019-03-10 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

利用关联数据实现机构知识库的语义扩展方法研究

【摘要】首先,对关联数据的相关技术进展进行研究,并分析其在数字图书馆知识库领域的应用现状,同时结合机构知识库在语义扩展方面的需求,研究利用关联数据实现机构知识库语义扩展的关键技术,形成机构知识库语义扩展的核心方法。其次,以中国科学院机构知识库平台CASIR为例,抽取其可扩展的实体关系并添加约束规则,应用D2RQ开源工具进行RDF化的知识呈现和语义标注,最终将其扩展到DC、FOAF、SKOS、ISWC、Vcard等关联词表及DBpedia Ontology、DBLP Bibliography外部数据源。实验证明,该方法合理可行,为加速国科图实现从基础服务版的机构知识库到语义集成资源版的机构知识库的发展蜕变奠定了基础。

【关键词】关联数据 机构知识库 语义扩展 RDF D2RQ 【分类号】G250.76

Study on the Semantic Expansion of Institutional Repository

Based on Linked Data

Wang Sili Zhu Zhongming Yao Xiaona Zheng Lei

(The Lanzhou Branch of the National Science Library ,Chinese Academy of Sciences, Lanzhou

730000,China)

【Abstracts】Firstly, The paper studies the related technology development of the linked data and analyses the application situation of linked data in digital library,then combines with the Institutional repository’s demand to study on the key technology and finally propse the core methd for realizing the Semantic Expansion of Institutional repository based on linked data. Secondly, taking the CASIR for example, the paper extracts the entity relationship of the CASIR and adds some constraints rules to it, then uses the D2RQ to carry out the knowledge representation and semantic annotation as RDF format. Finally ,It can expand the CASIR to DC、FOAF、ISWC、Vcard、DBpedia Ontology、DBLP Bibliography . In fact,the method should lay a good foundation in accelerating the CASIR providing not only basic service but also a real sematic integration sevice with its rationality and feasibility in the future.

【Keywords】Linked data Institutional repository Semantic Expansion RDF D2RQ

1

目录

1引言 ........................................................................................................................................ 3 1.1 研究背景及意义 ............................................................................................................ 3 1.2 研究目标和内容 ............................................................................................................ 4 1.3 研究方法和路线 ............................................................................................................ 4 2关联数据的相关技术与典型应用案例分析 ........................................................................ 5 2.1关联数据的产生和发展背景 ......................................................................................... 5 2.2 关联数据的相关技术进展研究 .................................................................................... 6 2.2.1关联数据的创建、发布、浏览的相关技术和工具 .............................................. 6 2.2.2关联数据的应用、融合、Mashup的相关技术和项目 ...................................... 10 2.3与数字图书馆相关的典型应用案例分析 ................................................................... 12 3利用关联数据实现机构知识库的语义扩展方法研究 ...................................................... 13 3.1机构知识库语义扩展的需求和关键技术定位 ........................................................... 13 3.2应解决的关键问题和解决方案 ................................................................................... 14 4机构知识库语义扩展模块的设计和实现 .......................................................................... 16 4.1抽取实体关系和添加关联规则 ................................................................................... 16 4.2利用D2RQ进行语义标注和关联 ................................................................................ 18 5 语义扩展模块的运行和应用测试 ..................................................................................... 22 5.1基本运行情况 ............................................................................................................... 22 5.2用户测试及反馈的意见 ............................................................................................... 26 6结论 ...................................................................................................................................... 28 参考文献: ............................................................................................................................. 31 附件: ..................................................................................................................................... 32 附件1 iswc.n3 ..................................................................................................................... 32

2

1引言

1.1 研究背景及意义

机构知识库(Institutional Repository,IR)是知识开放获取运动的产物,是大学以及科研机构对其知识资产进行有效管理的工具,是机构知识能力建设和服务能力提升的重要机制。当前,随着语义网技术的不断推进和白热化发展,从“面向用户”到“面向机器”,从信息描述到知识呈现,从语义隐含到语义揭示,从以概念为中心到以“概念-关系”为中心,从信息表示到智能推理,面对越来越高的科研需求,传统的机构知识库愈发显得责任重大。

[2]

2011年7月,在西班牙的赛博计量学实验室(Cybermetrics Lab)推出的世界开放获取机构知识库的200强排名名单中,整个大中华地区,排名最靠前的是National Taiwan University(国立台湾大学),位于第24位。其次分别是位于第67位的National Cheng Kung University(国立成功大学)、位于第80位的University of Hong Kong(香港大学)、以及位于第89位的National Chiao Tung University(台湾交通大学)。中国大陆的北京大学和清华大学只排到了第109位和第197位。该实验室评价机构知识库影响力的指标主要有4个: (1)规模(Size)。用Google、Yahoo、Bing Search、Baidu这四大搜索引擎能够索引到的总页数去衡量。

(2)可见度(Visibility)。用从该机构知识库获取到的不同外部链接的总数去衡量。 (3)内容丰富性(Rich Files)。用包含相关学术文献和科研作品的不同格式的文件总数去衡量,主要指Adobe Acrobat (.pdf), Adobe PostScript (.ps), Microsoft Word (.doc) and Microsoft Powerpoint (.ppt). (4)学术性(Scholar)。将Google Scholar中能搜索到的该机构知识库2006至2010年公开发表的条目总数以及从Scimago SIR中获取到的2004至2008年的全部产出结合在一起去衡量。

这些指标分别占的权重如下,见图1:

[1]

图1机构知识库各评价指标所占权重

数据来源:http://www.webometrics.info/about_rank.html

仔细评估这些指标,我们可以发现,指标(3)和(4)基本属于机构知识库自身的硬性条件,需要依靠知识资产的长期积累去提升。而指标(1)和(2)的影响因子一共占到了70%,比例大,权重高,并且是能够通过对现有的机构知识库进行扩展而得以提高。

因而,要想在 “优胜劣汰”的行业竞争法则中占有一席之地,我们必须考虑进行机构知识库的语义扩展,扩大机构知识库的“规模”,提高机构知识库的“可见度”,从根本上拓展和丰富机构知识库的服务方式,加快提高发现内容和传递服务质量的步伐,以确保机构知识库的服务比网络上其他信息提供者更具竞争力,从而更深层次地推动机构知识库的建设和发展应用。

3

1.2 研究目标和内容

通过对机构知识库和关联数据的初步研究证实,资源发现对机构知识库建设是极其重要的,而关联数据的优越性则为机构知识库的资源发现服务提供了可能的增强途径和方法。中国科学院机构知识库以发展机构知识能力和知识管理能力为目标,能够实现对机构知识资产的收集、长期保存、合理传播利用,这是它自身的优越性。但在语义网的高标准要求下和面对各个研究所以及大学等越来越综合和复杂的信息环境来看,仍迫切需要增强语义扩展,积极建设对知识内容进行捕获、转化、传播、利用和审计的能力。因而围绕这一基本原则和需求,提出了本项目的研究目标和内容:

(1)首先,调研和分析关联数据的发展背景和应用现状,着重掌握并评估其相关技术的进展情况和相关工具的使用方法;同时,对其与数字图书馆知识库领域紧密结合的相关典型应用案例进行透彻分析,探讨机构知识库中数字对象间的知识组织关系,研究利用关联数据实现机构知识库语义扩展的关键技术,为进一步实现机构知识库的语义扩展奠定基础。 (2)其次,以中国科学院研究所机构知识库平台(Chinese Academy Sciences

[3]

Institutional Repository,CASIR)为例进行试验研究,将上述关键技术转化为具体的可实施的语义扩展方案,抽取CASIR中重要的实体关系并添加约束规则,选择合适的关联数据源或关联词表,利用RDF进行知识呈现和语义标注,最终实现其和外部数据源间的关联。

1.3 研究方法和路线

针对研究目标和内容,本文的研究方法主要有两种:

(1)文献调研法:对关联数据的相关技术进展和典型应用案例进行跟踪调研,研究利用关联数据实现机构知识库的语义扩展的关键技术。

(2)信息系统分析设计法:结合中国科学院机构知识库平台CASIR的语义扩展需求,将其核心的实体关系RDF化,并实现和外部数据源间的关联。

项目具体的实施路线如下,见图2:

4

文献调研 相关技术进展研究 典型应用案例分析 语义扩展的关键技术和方法 信息系统分析设计 关联数据源 D2R工具 CASIR语义扩展试验 研究报告 图2 项目实施路线

2关联数据的相关技术与典型应用案例分析 2.1关联数据的产生和发展背景

关联数据(Linked Data)的概念最早是在2006年由被誉为互联网之父的Tim Berners-lee提出,并同时发布了关联数据开放的四条基本原则: (1)使用URI作为任何事物的标识;

(2)使用HTTP URI使任何人都可以访问这些标识;

(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息; (4)尽可能提供相关的URI,以使人们可以发现更多的事物。

该原则提供了在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,部署实例数据和类数据的方法,从而使得人们可以通过HTTP协议揭示并获取这些数据。具体来说,RDF对资源的表达通过一系列的三元组来实现,每个三元组由主语(Subject)、谓词(Predicate)和对象(Object)三个部分组成,构成一个声明。主语是URI所标识的资源,实例对象可以是一个字符串,如字母、时间、数字等,也可以是一个URI,或是与主语有关的其他资源的标识符,即RDF链接(RDF Link)。谓词表明了主语和对象之间的关系,谓词也可以是URI,比如来自某一词表或URI集合。RDF链接不仅可以链接同一数据源中的资源,还可以与其他数据源链接,这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统,最终使得用户能跟随RDF链接浏览整个数据Web。因此,RDF链接是数据Web的基础,它将独立的资源编织成数据Web,通过数据Web,关联数据浏览器或搜索引擎的网络爬虫能够遍历整个网络。它与普通网页间的URL链接最大的不同之处就在于,它强调通过建立已有信息的语义标注和实现数据之间的相互关联,进而形成有益于人机理解的语境信息,为最终构建并实现机器可读到机器可理解的语义

5

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库关联数据发布技术和工具在线全文阅读。

关联数据发布技术和工具.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/507981.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: