关于资源同步框架规范(ResourceSync)

OAI (Open Archives Initiative) 致力于“开发与推进有助于内容有效传播的互操作标准。”目前的项目包括鼎鼎大名的OAI-PMH、OAI-ORE,以及最新的ResourceSync。
ResourceSync(资源同步)于2014年4月成为美国国家标准
ANSI/NISO Z39.99-2014, ResourceSync Framework Specification

ResourceSync基于网站地图协议(Sitemap protocol),为web提供一个同步框架,通过Resource List(资源清单)、Resource Dump(资源仓库=打包文件)、Change Lists(变化清单)或Change Dumps(变化仓库)方式,使得第三方系统(或者镜像)可以与服务器不断变化的内容保持同步(增加、更新、删除)。

目前可以查到的中文资料很少,汇总如下:

国家标准文献共享服务平台工作简报 2014年6月 第3期 国外标准化动态(p.20)
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法
(全文pdf 114MB,龟速下载,全文待补[update 2015-1-29 附后])

编目精灵:从NISO工作组看当前技术热点(2013年4月26日)
介绍“Working Group Connection”2013年4月号,NISO三个委员会之一Discovery to Delivery Topic Committee(发现到传递专题委员会)工作之一:
ResourceSync Working Group 资源同步工作组:研究、开发、原型、测试与布署大规模Web资源同步,意在同步对象本身,不仅仅是其元数据,建立在OAI-PMH策略上。核心小组得到斯隆基金资助,也得到包括其他产业及研究伙伴(部分受JISC赞助)的助力;年初发布公示了beta版规范,希望5月底完成最终规范供投票批准;实施规范包括Python和Jave代码库,以及DSpace专用Java实施,正进行中,马上会提供

梁娜, 张晓林. 机构知识库的互操作需求和互操作规范框架. 现代图书情报技术, 2013, 29(9): 1-7
“OAI联盟还提出OAI-RSF[41], 通过Resource List、Change List、Resource Dump和Change Dump的交换来支持不同IR间的内容动态更新。”
[41] Open Archives Initiative-ResourceSync Framework Specification – Beta Draft[EB/OL]. (2013-08-09) . [2013-08-20]. http://www.openarchives.org/rs/0.9.1/resourcesync.

———-国家标准文献共享服务平台工作简报(2014年6月 第3期,p.20-21)———-
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法

美国国家信息标准组织(NISO)和开放档案计划(OAI)宜布出版ResourceSync框架规范(ANSI/NISO Z39.99-2014)——一个新的用于网上详细介绍一台报务器可以执行允许第三方系统,保持其不断发展的资源同步各种功能的美国国家标准。该ResourceSync联合项目由Alfred P. Sloan Foundation和Jisc支持资助,开始制定有关网络资源实时同步的一个新的开放标准。
“越来越多的大型数字馆藏可从多个虚拟主机的位置提供服务,会被缓存在多台服务器上,并通过几个服务系统被利用,”Los Alamos国家实验室科学家、OAI执行总监、以及ResourceSync工作组联席主席Herbert Van de Sompel解释说。“由于网络资源的不断变化,这种内容激增导致利用一个及时和准确的方式,进行不断内容同步的服务器保持服务成为具有挑战性的问题。我们通过两年合作努力制定了该现范,它可以用来满足各种各样使用案例的挑战,通过制定标准规范和已被广泛采用的协议间对接使之变为可能。”
“该OAI协议的元数据收割(PMH)2.0规范,可以用来有效地同步资源的元数据,”康奈尔大学IT应用开发主管Simeon Warner说道,“但同步资源本身从未被指定。虽然有些资源同步方式存在,它们通常是临时性的,涉及个别的安排,并不能得到普遍部署。该新规范填补了这一空白。”
“该ResourceSync规范引入了一系列于实现的功能,一个服务器可能支持启用远程系统与其不断发展的资源保持更紧密的一致,”Old Dominion大学计算机系副教授Michael L. Nelson解释道,“这也描述了一台服务器如何展示它支持的功能。远程系统可以检查这些信息,用以确定如何最好地与不断发展的数据保持一致。所有功能都通过Sitemap协议引入的文件格式基础上得以实现。功能可以被组合用以实现不同的功能级别,从而满足不同地方或社区的需要。”
“我们期待这个新标准将通过同步和更新过程的自动化为知证库管理者节省大量的时间、精力和资源,”NISO执行董事Todd Carpenter说。“最终的结果将是提升网络知识库中内容的普遍可用性和减少由于过时、不准确、以及今天在互联网上存在被替代的内容而产生的各种问题。”
信息源:http://www.niso.org/news/pr/view?item_key=6b81b2cd3a1891acd38682a006772dfa7ecec2ab
(潘薇编辑)

[原标题:NISO and OAI Publish American National Standard on ResourceSync Framework Specification : Provides methods for web servers to automate the synchronization of resources]

事件本体:The Event Ontology

不少应用乃至本体中都有“事件”实体,很多时候复用“事件本体”:
The Event Ontology(SourceForge,可能有墙)
开发于伦敦玛丽皇后大学的数字音乐中心,草案写于2004年10月。
事件本体把围绕事件的实体分为6类:事件/子事件、代理、因子、产品、空间、时间。其中代理(Agent)指起作用者(通常是人,但也可能是物比如计算机),因子(Factor)指除代理外的其他参与因素(比如使用的工具、抽象的起因)。
事件本体只提供一个简单的框架,对类和属性都没有细化,如其文档所说“由于其简单性和可用性,本本体已在广泛语境下被证明有用:从会议中的讨论,到描述一场音乐会,或在一个爵士片断中演奏的和弦(与时间线本体同用),节日等等”。

模型:(原始文档图可能有墙,另找图替代)
Event Ontology

事件本体使用4个命名空间,除本身外,复用人物、时间、地理的3个本体:
event: 事件本体(本身) http://purl.org/NET/c4dm/event.owl#
foaf: 人物 http://xmlns.com/foaf/spec/
time: 时间本体(OWL-time) http://www.w3.org/2006/time#OWL
geo: 地理定位本体(The WGS84 Geo Positioning Ontology) http://www.w3.org/2003/01/geo/wgs84_pos

Classes(事件、因子、产品,复用其他命名空间:代理、空间事物和时间实体)
– Event 事件
– Agent 代理(foaf:Agent)
– Factor 因子(除“代理”外的其他参与因素)
– Product 产品
– SpatialThing 空间事物(geo:SpatialThing)
– TemporalEntity 时间实体(time:TemporalEntity)

Properties(事件实体文件清单中包括现已不用的相同含意、不同名称属性,以下未列;不含复用属性)
– sub_event 子事件(切分复杂事件,如一场由多个音乐家参与的演出,以每个音乐家作为一个事件)
– agent / isAgentIn 代理(个人、计算机……)
– factor / isFactorOf 因子(工具、乐器、抽象原因……)
– literal_factor (与其他更专指属性同用,比如温度……,提供其值)
– product 产品(活动产生的东西——一个声音、一个派……)
– place 地点
– time 时间

PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)