乱花迷眼 – 第 22 页 – 编目精灵III

OAI-ORE《对象重用与交换》笔记

《对象重用与交换》(OAI-ORE)，此标准的名称说明了目的或功用，但“对象”指什么？这个“对象”，当指资源及其组合，在OAI-ORE中称为“聚合”(aggregations)。
“我们使用多页Web文档首页的URI来标识整个文档，我们使用HTML页面的URI提供访问一个Flickr集以识别整个图像集。但这些URI实际上只是识别这些特定页面，不是构成整个文档的页面联合，或者识别在一个Flickr聚合中所有图像的联合。本质上，此问题是，没有标准途径去描述聚合的成分或边界，这正是OAI-ORE致力于提供的。”——ORE User Guide – Primer

OAI-ORE目前为1.0版，用户指南文件包括入门、抽象模型、词表、序列化格式等：
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) (version 1.0, 17 October 2008)

概要：
在Web中，“资源”指代感兴趣的任何项目，聚合则指资源的某种组合。
OAI-ORE基于语义网，以RDF图（三元组）描述Web资源的聚合。
OAI-ORE使用资源地图(Resource Map)描述聚合的成分或边界，揭示聚合本身及与被聚合资源间关系，并可选用代理(Proxy)指明被聚合资源。
OAI-ORE标准可用于网络爬虫、网络计量研究、数据交换与交互、数据重用与重构等，供机读使用。

ORE模型中关键实体间关系UML图

———- ORE Specification – Abstract Data Model 抽象数据模型 ———-

聚合特征
– 资源可能在一个服务器上，也可能分布在Web上；
– 资源间关系各异，如包含、替代等；
– 资源类型可能不同，甚至由不同词表定义，如书目、目次等；
– 资源与外部资源间关系各异，如引文、镜像、译文等。

聚合举例
– 相同类型、不同项目：收藏图片集，来自不同网站；多页HTML文档，以“前页”、“后页”链接；
– 相同项目、不同格式：Flickr上的照片，有多个尺寸与分辨率的图像，另有评论等；学术出版物，以过渡页（splash page）形式存储在arXiv等中，链接到多种格式全文，另有引文链接等；
– 不同类型资源组合：研究成果集，由成果、数据、可视化分析工具组成；
– 有层次的资源组合如：叠加期刊（overlay journal），文章组合为期、期组合为卷、卷组合为期刊。

5.3代理(Proxy)【这个没完全弄明白，尤其是第3个】
特定于聚合环境的关系（非全域/全局关系，即不是在所有情况下成立），必须断言两个三元组（代理P作为被聚合资源AR的代理，在聚合A中起作用）：
<P> <ore:proxyFor> <AR>
<P> ore:proxyIn <A>
用途：
– 被聚合资源间关系（如：顺序关系，只适用于特定聚合中。参考文献的顺序，对各参考文献本身不适用）
<P-1> <hasNext> <P-2>
– 外部被断言关系到被聚合资源（如：引用关系。聚合是最佳论文集，用代理表明所引被聚合资源为最佳论文）
<URI-1> <xyz:cites> <P-1>
– 链接被聚合资源（如：起源或出处，被聚合资源来源于另一个资源）
<P-1> <ore:lineage> <P-2>
对主体代理的资源地图必须包含三元组 <P-1> <ore:proxyFor> <AR-1>
对客体代理的资源地图必须包含三元组 <P-2> <ore:proxyFor> <AR-1>（两个三元组中被聚合资源AR-1相同）

the use of ore:lineage

———- ORE Specification – Vocabulary 词表 ———-
指导原则是在可能的情况下重用已有词表。
使用命名空间：ore(本身), oreatom; dc, dcterms, dcmitype; foaf; owl, rdf, rdfg, rdfs

自定义类与关系
– 类（4个）
ore:Aggregation 聚合；父类 dcmitype:Collection
ore:AggregatedResource 被聚合资源
ore:Proxy 代理（代表一个存在于特定聚合中的被聚合资源）
ore:ResourceMap 资源地图；父类 rdfg:Graph

– 关系/谓词（8个）
ore:aggregates 聚合；父属性 dcterms:hasPart；定义域 ore:Aggregation，值域 ore:AggregatedResource
ore:isAggregatedBy 被聚合；父属性 dcterms:isPartOf；逆属性 ore:aggregates
ore:describes 描述；定义域 ore:ResourceMap，值域 ore:Aggregation
ore:isDescribedBy 被描述；逆属性 ore:describes
ore:lineage 世系；定义域、值域 ore:Proxy
ore:proxyFor 代理；定义域 ore:Proxy，值域 ore:AggregatedResource
ore:proxyIn 代理在；定义域 ore:Proxy，值域 ore:Aggregation
ore:similarTo 相似；父属性 rdfs:seeAlso；定义域 ore:Aggregation，值域 ore:Resource

推荐的重用词表（例举而非枚举）
– 类
— DCMI类型：为资源赋予大类
— DCTerms：主要作为关系的定义域、值域
— FOAF：用于与人相关的资源，包括个人、组织和项目

– 关系（两类关系：1、资源-关系-文字；2、资源-关系-资源）
— DC元素：dc:description，dc:format（建议用MIME类型），dc:language（建议使用ISO 639-1），dc:rights，dc:title
— DCTerms：dcterms:audience（建议客体dcterms:AgentClass），dcterms:contributor（建议客体dcterms:Agent），dcterms:conformsTo（建议客体dcterms:Standard），dcterms:creator（建议客体dcterms:Agent, foaf:Person），dcterms:created（ISO8601格式），dcterms:extent，dcterms:isVersionOf，dcterms:modified（ISO8601格式），dcterms:references（建议客体Resource），dcterms:replaces，dcterms:rights（建议客体dcterms:RightsStatement）
— FOAF：foaf:mbox，foaf:name，foaf:page
— RDF：rdf:type（建议客体rdfs:Class）
— RDFS：dfs:isDefinedBy（为类规定取值词表），rdfs:label（为类规定人读标签），rdfs:seeAlso

暑假偷师上图：“URI设计”专题分享与讨论

上海图书馆夏MM的国家社科基金课题，结合上图的关联数据项目，基本上每周一次相关专题分享与研讨。参与者来自多个机构，看着他们不断前进的步伐，很羡慕那种氛围。
本周他们讨论URI规则等，是我感兴趣的主题。正巧昨天开始正式放暑假，于是今天在37度的烧烤模式下，去上图蹭听学习。感谢他们的接纳。
首先由许磊主讲《URI设计原则》，从爱尔兰国立大学两位研究员对URI类型及设计模式等的研究开始，以所述URI类型，分析各国图书馆界关联数据和政府开放数据的URI模式。
三十分钟报告结束，进入讨论阶段，夏MM主持探讨前已发布的家谱系统URI是否需要更改，哪些需要改。Keven并进一步提出上图的URI政策问题，为今后更多项目做准备。尽管现场没有定论，但确定会后据此提出方案。至此不过四十五分钟，真是相当务实高效的会议。

今天的报告让我对URI类型和模式有了比较清晰的认识，至少区分Thing、Concept、Resource和Onto四种URI是我比较明白的，Hierarchical URI也可理解，Representation URI就不明所以了。期待许磊写出文章。

———-小河尘的分割线———-
许磊在书社会发了不少博文，主要涉及编目与关联数据。关于MARC、RDA、FRBR、BIBFRAME等等的学习笔记，信息量相当大。比如BIBFRAME方面有：
【学习笔记】BF规范（2015-06-07）
Bibflow简介（2015-05-08）
[学习笔记]RDA注册元素与BF属性–题名篇（2014-08-29）
[续]catwizard老师的博文–Bibframe.org的类与属性发布（2014-04-30）[此文刚才查时才发现，估计一年多前还没加上书社会好友，因此先前没注意到]

推动关联数据应用：《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像，未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外，还归纳了图书馆四类数据即书目数据（元数据）、数字资源（扫描及全文数据）、读者数据、使用数据（流通、下载），最后提出图书馆为什么要关联数据的四个理由（未记全，暂略），等等。

Tom Baker有三个报告，从关联数据入门到应用，到图书馆关联数据（主要涉及编目领域）。几个引语：
“追求完美是做好事的大敌”，他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”（Linked Data and the Charm of Weak Semantics），Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……，现在“链接”也有同样效果，对计算机来说恐怕更是如此。
对于BIBFRAME，他提及目前有四个项目：
－美国国会图书馆（LC）
－LD4L (Linked Data for Libraries Project)：斯坦福、康奈尔、哈佛及梅隆基金
－Bibflow Project：加州大学戴维斯分校+Zepheira
－美国国家医学图书馆（NLM）实验
（会后问Tom新出现的bibfra.me，最近在BIBFRAME邮件组引起讨论的，他将其归入bibflow项目）
关于“编目的未来”，他给出三个选项，没有答案：
－MARC？
－BIBFRAME，前述四个项目中的哪一个？何时？
－schema.org+RDFa？商业项目的稳定性存疑。（也提及Google Reader这个说关就关的前车之鉴）

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型：FRBR、RDA和BIBFRAME比较》，似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下，得到Tom的解释，或许并非问题的解答，但却让我理解了他们的观点（方括号中为我的想法）：
FRBR第1组实体作为类，这个thing是什么？一本书分成WEMI，无法让普通用户理解（事实上编目员也不理解，国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑，否则无法掌握RDA）。应该用profile实现FRBR（这就有点像现在的用MARC数据做FRBR化了，虽则原本编目时并没有刻意区分过四种实体——如此理解，就对现有MARC做profile是不是也可以呢，嗯？）。

参见：读书笔记：FRBR、RDA和BIBFRAME词表的RDF推理测试（2015-3-7）

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告，相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》，从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统，并做了现场演示，效果相当好。
应该说“如何实现”部分介绍得不够多，问答阶段有MM询问关联了哪些外部关联资源，夏MM给出了更多信息：如[geonames的关联]地图位置确定用API获取，并非在本地保存经纬度数据；人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时，曾写博文抢先作了介绍（“基于BIBFRAME的上海图书馆家谱本体发布”），目前该网站已是一个原型（演示）系统了，可以去玩玩：
上海图书馆：家谱知识库系统
现场演示的家族迁徙图很炫，只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正：在《上川明经胡氏宗谱》中有迁徙图，去看看吧]

陈涛（中科院生命科学信息中心）《关联数据的技术实现框架》，介绍了实现关联技术的各种现有技术与工具，涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉，有感兴趣者，可以加入他的QQ群共同探讨：150461365 三人行（语义有你）