OAI-ORE《对象重用与交换》笔记

《对象重用与交换》(OAI-ORE),此标准的名称说明了目的或功用,但“对象”指什么?这个“对象”,当指资源及其组合,在OAI-ORE中称为“聚合”(aggregations)。
“我们使用多页Web文档首页的URI来标识整个文档,我们使用HTML页面的URI提供访问一个Flickr集以识别整个图像集。但这些URI实际上只是识别这些特定页面,不是构成整个文档的页面联合,或者识别在一个Flickr聚合中所有图像的联合。本质上,此问题是,没有标准途径去描述聚合的成分或边界,这正是OAI-ORE致力于提供的。”——ORE User Guide – Primer

OAI-ORE目前为1.0版,用户指南文件包括入门、抽象模型、词表、序列化格式等:
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) (version 1.0, 17 October 2008)

概要:
在Web中,“资源”指代感兴趣的任何项目,聚合则指资源的某种组合。
OAI-ORE基于语义网,以RDF图(三元组)描述Web资源的聚合。
OAI-ORE使用资源地图(Resource Map)描述聚合的成分或边界,揭示聚合本身及与被聚合资源间关系,并可选用代理(Proxy)指明被聚合资源。
OAI-ORE标准可用于网络爬虫、网络计量研究、数据交换与交互、数据重用与重构等,供机读使用。

ORE模型中关键实体间关系UML图

———- ORE Specification – Abstract Data Model 抽象数据模型 ———-

聚合特征
– 资源可能在一个服务器上,也可能分布在Web上;
– 资源间关系各异,如包含、替代等;
– 资源类型可能不同,甚至由不同词表定义,如书目、目次等;
– 资源与外部资源间关系各异,如引文、镜像、译文等。

聚合举例
– 相同类型、不同项目:收藏图片集,来自不同网站;多页HTML文档,以“前页”、“后页”链接;
– 相同项目、不同格式:Flickr上的照片,有多个尺寸与分辨率的图像,另有评论等;学术出版物,以过渡页(splash page)形式存储在arXiv等中,链接到多种格式全文,另有引文链接等;
– 不同类型资源组合:研究成果集,由成果、数据、可视化分析工具组成;
– 有层次的资源组合如:叠加期刊(overlay journal),文章组合为期、期组合为卷、卷组合为期刊。

5.3代理(Proxy)【这个没完全弄明白,尤其是第3个】
特定于聚合环境的关系(非全域/全局关系,即不是在所有情况下成立),必须断言两个三元组(代理P作为被聚合资源AR的代理,在聚合A中起作用):
<P> <ore:proxyFor> <AR>
<P> ore:proxyIn <A>

用途:
– 被聚合资源间关系(如:顺序关系,只适用于特定聚合中。参考文献的顺序,对各参考文献本身不适用)
<P-1> <hasNext> <P-2>
– 外部被断言关系到被聚合资源(如:引用关系。聚合是最佳论文集,用代理表明所引被聚合资源为最佳论文)
<URI-1> <xyz:cites> <P-1>
– 链接被聚合资源(如:起源或出处,被聚合资源来源于另一个资源)
<P-1> <ore:lineage> <P-2>
对主体代理的资源地图必须包含三元组 <P-1> <ore:proxyFor> <AR-1>
对客体代理的资源地图必须包含三元组 <P-2> <ore:proxyFor> <AR-1>(两个三元组中被聚合资源AR-1相同)

the use of ore:lineage

———- ORE Specification – Vocabulary 词表 ———-
指导原则是在可能的情况下重用已有词表。
使用命名空间:ore(本身), oreatom; dc, dcterms, dcmitype; foaf; owl, rdf, rdfg, rdfs

自定义类与关系
(4个)
ore:Aggregation 聚合;父类 dcmitype:Collection
ore:AggregatedResource 被聚合资源
ore:Proxy 代理(代表一个存在于特定聚合中的被聚合资源)
ore:ResourceMap 资源地图;父类 rdfg:Graph

关系/谓词(8个)
ore:aggregates 聚合;父属性 dcterms:hasPart;定义域 ore:Aggregation,值域 ore:AggregatedResource
ore:isAggregatedBy 被聚合;父属性 dcterms:isPartOf;逆属性 ore:aggregates
ore:describes 描述;定义域 ore:ResourceMap,值域 ore:Aggregation
ore:isDescribedBy 被描述;逆属性 ore:describes
ore:lineage 世系;定义域、值域 ore:Proxy
ore:proxyFor 代理;定义域 ore:Proxy,值域 ore:AggregatedResource
ore:proxyIn 代理在;定义域 ore:Proxy,值域 ore:Aggregation
ore:similarTo 相似;父属性 rdfs:seeAlso;定义域 ore:Aggregation,值域 ore:Resource

推荐的重用词表(例举而非枚举)
– 类
DCMI类型:为资源赋予大类
DCTerms:主要作为关系的定义域、值域
FOAF:用于与人相关的资源,包括个人、组织和项目

– 关系(两类关系:1、资源-关系-文字;2、资源-关系-资源)
DC元素:dc:description,dc:format(建议用MIME类型),dc:language(建议使用ISO 639-1),dc:rights,dc:title
DCTerms:dcterms:audience(建议客体dcterms:AgentClass),dcterms:contributor(建议客体dcterms:Agent),dcterms:conformsTo(建议客体dcterms:Standard),dcterms:creator(建议客体dcterms:Agent, foaf:Person),dcterms:created(ISO8601格式),dcterms:extent,dcterms:isVersionOf,dcterms:modified(ISO8601格式),dcterms:references(建议客体Resource),dcterms:replaces,dcterms:rights(建议客体dcterms:RightsStatement)
FOAF:foaf:mbox,foaf:name,foaf:page
RDF:rdf:type(建议客体rdfs:Class)
RDFS:dfs:isDefinedBy(为类规定取值词表),rdfs:label(为类规定人读标签),rdfs:seeAlso

暑假偷师上图:“URI设计”专题分享与讨论

上海图书馆夏MM的国家社科基金课题,结合上图的关联数据项目,基本上每周一次相关专题分享与研讨。参与者来自多个机构,看着他们不断前进的步伐,很羡慕那种氛围。
本周他们讨论URI规则等,是我感兴趣的主题。正巧昨天开始正式放暑假,于是今天在37度的烧烤模式下,去上图蹭听学习。感谢他们的接纳。
首先由许磊主讲《URI设计原则》,从爱尔兰国立大学两位研究员对URI类型及设计模式等的研究开始,以所述URI类型,分析各国图书馆界关联数据和政府开放数据的URI模式。
三十分钟报告结束,进入讨论阶段,夏MM主持探讨前已发布的家谱系统URI是否需要更改,哪些需要改。Keven并进一步提出上图的URI政策问题,为今后更多项目做准备。尽管现场没有定论,但确定会后据此提出方案。至此不过四十五分钟,真是相当务实高效的会议。

今天的报告让我对URI类型和模式有了比较清晰的认识,至少区分Thing、Concept、Resource和Onto四种URI是我比较明白的,Hierarchical URI也可理解,Representation URI就不明所以了。期待许磊写出文章。

———-小河尘的分割线———-
许磊在书社会发了不少博文,主要涉及编目与关联数据。关于MARC、RDA、FRBR、BIBFRAME等等的学习笔记,信息量相当大。比如BIBFRAME方面有:
【学习笔记】BF规范(2015-06-07)
Bibflow简介(2015-05-08)
[学习笔记]RDA注册元素与BF属性–题名篇(2014-08-29)
[续]catwizard老师的博文–Bibframe.org的类与属性发布(2014-04-30)[此文刚才查时才发现,估计一年多前还没加上书社会好友,因此先前没注意到]

推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像,未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外,还归纳了图书馆四类数据即书目数据(元数据)、数字资源(扫描及全文数据)、读者数据、使用数据(流通、下载),最后提出图书馆为什么要关联数据的四个理由(未记全,暂略),等等。

Tom Baker有三个报告,从关联数据入门到应用,到图书馆关联数据(主要涉及编目领域)。几个引语:
“追求完美是做好事的大敌”,他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”(Linked Data and the Charm of Weak Semantics),Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……,现在“链接”也有同样效果,对计算机来说恐怕更是如此。
对于BIBFRAME,他提及目前有四个项目
-美国国会图书馆(LC)
-LD4L (Linked Data for Libraries Project):斯坦福、康奈尔、哈佛及梅隆基金
-Bibflow Project:加州大学戴维斯分校+Zepheira
-美国国家医学图书馆(NLM)实验
(会后问Tom新出现的bibfra.me,最近在BIBFRAME邮件组引起讨论的,他将其归入bibflow项目)
关于“编目的未来”,他给出三个选项,没有答案:
-MARC?
-BIBFRAME,前述四个项目中的哪一个?何时?
-schema.org+RDFa?商业项目的稳定性存疑。(也提及Google Reader这个说关就关的前车之鉴)

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》,似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下,得到Tom的解释,或许并非问题的解答,但却让我理解了他们的观点(方括号中为我的想法):
FRBR第1组实体作为类,这个thing是什么?一本书分成WEMI,无法让普通用户理解(事实上编目员也不理解,国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑,否则无法掌握RDA)。应该用profile实现FRBR(这就有点像现在的用MARC数据做FRBR化了,虽则原本编目时并没有刻意区分过四种实体——如此理解,就对现有MARC做profile是不是也可以呢,嗯?)。

参见:读书笔记:FRBR、RDA和BIBFRAME词表的RDF推理测试(2015-3-7)

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告,相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》,从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统,并做了现场演示,效果相当好。
应该说“如何实现”部分介绍得不够多,问答阶段有MM询问关联了哪些外部关联资源,夏MM给出了更多信息:如[geonames的关联]地图位置确定用API获取,并非在本地保存经纬度数据;人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时,曾写博文抢先作了介绍(“基于BIBFRAME的上海图书馆家谱本体发布”),目前该网站已是一个原型(演示)系统了,可以去玩玩:
上海图书馆:家谱知识库系统
现场演示的家族迁徙图很炫,只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正:在《上川明经胡氏宗谱》中有迁徙图,去看看吧]

陈涛(中科院生命科学信息中心)《关联数据的技术实现框架》,介绍了实现关联技术的各种现有技术与工具,涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉,有感兴趣者,可以加入他的QQ群共同探讨:150461365 三人行(语义有你)