RDA第3章机器可操作数据元素(讨论稿)

RDA真是永远的beta版。2010年中推出的时候,就是个未完成版(缺少第三组实体相关部分)。两年过去,未完成的仍未完成,已完成的又在修订,2012年4月发布了第一次修改。

刚看到ALA/ALCTS/CC:DA(编目委员会)RDA第3章机器可操作数据元素工作组5月提出的讨论稿(Machine-Actionable Data Elements in RDA Chapter 3: Discussion Paper (May 2012),14页),感觉向关联数据迈进的幅度很大。当然,还只是讨论稿,如果考虑到MARC会被取代,那么被接受的可能性还是很大的。

该工作组的主要任务是重新评估RDA第3章中包含量化信息的数据元素的结构,主要涉及3.4数量、3.5尺寸,也考虑到3.16声音特征、3.17放映特征、3.19数字文化特征。提出的模型由三部分组成:测度的“方面”Aspect、“单位”Unit及数值“量”Quantity,也即将原来的一个子元素拆分为三个。

从讨论稿中取两个例子就一目了然了:
地图
现文本描述:20 × 30 cm, on sheet 25 × 35 cm
建议:
content/carrier: map
Aspect: width
Unit: cm
Quantity: 20
Aspect: height
Unit: cm
Quantity: 30
carrier: sheet
Aspect: width
Unit: cm
Quantity: 25
Aspect: height
Unit: cm
Quantity: 35

乐谱
现文本描述:1 score and 3 parts (19 pages)
建议:
Aspect: extent/number of subunits
Unit: score
Quantity: 1
Aspect: extent/number of subunits
Unit: parts
Quantity: 3
Aspect: extent/number of subunits
Unit: pages
Quantity: 19

设计的准则是,从文本描述变为可操作的内容,可提供如下功能:
· 易于为确定区分内容进行匹配
· 按大小、尺寸或其他准则排序
· 基于数量对媒介材料做更细粒度的分面 [充分发挥注册的取值词表的作用]
· 为自动确定数量提供更佳途径
· 以不同语言提供文本值与标签 [且没有不同语言语法的牵拌,更简单]
· 能够为特定用户精简及条列更复杂的数量信息(类似与MARC馆藏信息)[正翻译第3章,对此深有体会]
· 录入时数据有效性检查 [形式上检查是否遗漏]

对RDA元素集的修订,讨论稿提出了四个选项,单一数量类(”extent” class)最清晰。附录II给出了本建议的四幅RDF图。

看时的感觉就是高人设计,看到讨论稿最后的工作组成员,原来阵容如此强大:
Submitted by Peter Rolla (chair) on behalf of the Task Force: John Attig, Karen Coyle, Gordon Dunsire, Diane Hillmann, Randall Roeder, Paul Weiss, and Kathy Winzer.

via The Bib Blog: Machine-Actionable Data Elements in RDA Chapter 3: Discussion Paper (June 22nd, 2012)

[update 2014-2-7] 2012年11月JSC会议结果(2012 JSC Meeting Proposals and Discussion Papers: Outcomes),对此讨论稿(6JSC/ALA/17)的结论是:要求ALA开发建议;刚看到2013年11月JSC会议结果(2013 JSC Proposals and Discussion Papers – Actions Taken by JSC),原来2013年弄了一个扩大范围的讨论稿(6JSC/ALA/Discussion/1   Machine-Actionable Data Elements in RDA: Discussion Paper (2013)),对此讨论稿的结论是未被接受,将继续修订,并提交给JSC RDA/ONIX框架工作组。——讨论稿原文见:JSC Working Documents

Schema.org的图书馆扩展

在WorldCat关联数据中看到library:,由Linked data at OCLC得知这是Schema.org的图书馆扩展,由OCLC研究办公室提出。

Experimental “library” extension vocabulary for use with Schema.org

目次
1. Introduction
2. Classes
3. Object Properties
4. Data Properties
5. Named Individuals
6. Annotation Properties
7. Namespace Declarations

其中2-6列举了扩展词汇:
2. 类 Classes(除Carrier载体,其他相当于文献类型)
(has super-classes: schema:CreativeWork)
档案资料 ArchiveMaterial
载体 Carrier(is in range of: has carrierop;has members:Bluray Disk, Cassette Tape, Compact Disk, DVD, Film Reel, LP, Microformni, VHS Tape, Volume, World Wide Web)
计算机文件 Computer File
游戏 Game
图像 Image
交互多媒体 Interactive Multimedia
套件 Kit
乐谱 Musical Score
报纸 Newspaper
期刊 Periodical
学位论文 Thesis(has super-classes: schema:Book)
玩具 Toy
视频 Video
电子游戏 VideoGame(has super-classes: Game)
视觉资料 Visual Material
网站 Web Site

3. 对象特性 Object Properties(用于著录/描述部分)
有载体 has carrier(has domain: schema:CreativeWork;has range: Carrier)
出版地 place of publication(has domain: schema:CreativeWork;has range: schema:Place)

4. 数据特性 Data Properties(专用于联合目录,尤其是WorldCat)
(has domain: schema:CreativeWork;has range: xsd:integer)
馆藏数 holdings count
OCLC控制号 oclcnum

5. 命名个体 Named Individuals(属于图书格式或载体,除了OCLC Research)
(belongs to: schema:BookFormatType或Carrier)
有声书 Audio Book
蓝光碟 Bluray Disk
盲文书 Braille Book
磁带 Cassette Tape
光盘 Compact Disk
持续更新书 Continually Updated Book
DVD
胶片 Film Reel
大字印刷本 Large Print Book
视盘 LP
缩微 Microform
OCLC Research(belongs to: schema:Organization)
VHS Tape
册 Volume(依据RDA?)
World Wide Web

6. 标注特性 Annotation Properties(用于著录/描述部分)
创作者 dc:creator
描述 dc:description
题名 dc:title
语义网词汇状态 vs:term_status

7. 命名空间声明 Namespace Declarations
除默认的http://purl.org/library/外,还用到dc, determs, foaf, owl, rdf, rdfs, schema, vs, xsd(XMLSchema)

附:Schema.org
1、Schema.org的对象(Thing)分为7类
创作作品 CreativeWork
事件 Event
无实体 Intangible(杂项,包括数量、数值、评级、语言等等)
组织 Organization
个人 Person
地点 Place
产品 Product

2、CreativeWork为最通用的创作作品类别,很多“创作作品”是图书馆通常处理不到的。包括:
文章 Article(其下包括:博文、新闻报道、学术论文)
博客 Blog
图书 Book
留言 Comment(在其他项如博文下的评论)
榜单 ItemList
地图 Map
媒介对象 MediaObject(其下包括:声音对象、图片对象、音乐视频对象、视频对象)
电影 Movie
音乐播放列表 MusicPlaylist (其下包括:音乐专辑)
音乐录音 MusicRecording
绘画 Painting
照片 Photograph
Recipe 食谱
述评 Review(独立发布的评论)
雕塑 Sculpture
软件应用 SoftwareApplication(其下包括:移动应用、Web应用)
电视剧集 TVEpisode
电视剧季 TVSeason
电视系列剧 TVSeries
网页 WebPage(其下包括:关于页、结算页、合集页{包括图片库、视频库}、联系页、单项页、个人资料页、检索结果页)
网页元素 WebPageElement(其下包括:网站导航元素、表、网站广告块、页脚、页头、侧栏)

WorldCat也关联数据了

一早在书社会看到远洋师说杜威分类法(DDC)23版的23,000多个分类号和类名昨天发布为关联数据,下班后又在微博上看到OCLC北京代表处说worldcat.org引入关联数据:“在查看一份文献的详细书目信息时,在页面最下方有“Linked Data”栏目,可以点击看到此文献的关联数据”。
此次OCLC的步子迈得很大──用OCLC自己的话说,“2012年6月,OCLC戏剧性地增加了其暴露的关联数据资源”(见Linked data at OCLC)。之前以关联数据发布的VIAF和FAST,内容都不是OCLC的,前者主要来自各国国家馆,后者基于LCSH。OCLC自有的DDC只在dewey.info发布了千分表(参见:关联数据:官方版与山寨版(DDC和LCSH),2009年8月21日) ,这次的DDC是全表,而WorldCat的书目数据量在世界图书馆界也是首屈一指的。
是看到已经发布的关联数据得到了大量利用(英国国家书目作为关联数据发布,每月处理2百万会话),如不尽早发布会被边缘化?难道真如Edmund Chamberlain所说,“如果我们不能学会分享,没人再会跟我们玩了”?(参见:图书馆从传统数据观走向关联数据及语义网:五周年,2012年5月16日)

按提示在worldcat.org细览页底部看到了不起眼的Linked Data,点击看到数据主要采用schema:,少量rdf:以及首次看到的library:。主题部分在schema:about中,rdf:type大多用skos:Concept。用到的URI除OCLC控制号http://www.worldcat.org/oclc/…,还有主题部分的OCLC的FAST号http://id.worldcat.org/fast/…和LCSH号http://id.loc.gov/authorities/subjects/…。

点击Linked Data标题下的More info about Linked Data,就到了OCLC新设的页面:Linked data at OCLC(http://www.oclc.org/data.html),原来的同名页面在开发者网络下(http://www.oclc.org/developer/linked-dat),有一些细节内容。
据介绍,WorldCat.org书目元数据以关联数据发布,采用Schema.org标记及其library扩展。以OCLC自有的书刊文献为主,未包括来自第三方的期刊论文。和VIAF一样,采用ODC(Open Data Commons)许可,允许教学与研究使用,其他目的使用则需遵循WorldCat使用政策──现称“社区规范”(Community Norms from WorldCat Rights and Responsibilities)。
OCLC研究部的原型已开发数月,目前为实验产品。采用Schema.org词汇作为建模基础,目的在于能够让搜索引擎和其他系统消费。──W3C拼不过搜索引擎提出的标准
这是个创新实验项目,未来会因来自图书馆及Web界的反馈而变化。

OCLC在2012/6/19新设立了关联数据讨论组(Linked Data Discussion Group),可以注册参与讨论,也可以RSS订阅。致欢迎词的是OCLC技术布道者Richard Wallis──曾经在英国的Talis担任同样的职务,近年致力于语义网与关联数据技术,今年4月加盟OCLC。(Richard Wallis joins OCLC staff as Technology Evangelist

[update] OCLC News Release: OCLC adds Linked Data to WorldCat.org
DUBLIN, Ohio, USA, 20 June 2012
Richard Wallis和OCLC的软件架构师Jeff Young都对采用schema.org做了说明。新闻稿中出现的另一位是Eric Miller,最近被LC选择设计取代MARC的元数据标准,据称他也正在关联数据策略方面帮助OCLC。

[update 2012-6-22] hangingtogether.org
Two Huge Linked Data Announcements (June 20th, 2012 by Roy)
19日宣布DDC23版全部在网上发布为关联数据(DDC 23 released as linked data at dewey.info),20日宣布全部Worldcat.org加上schema.org及其图书馆扩展。文后附注:此实验意在接受反馈及获取利用结果,期待此模型有所变化,故目前不提供批量下载。

[update 2012-6-25] Data Liberate Blog: OCLC WorldCat Linked Data Release – Significant In Many Ways / By Richard Wallis on June 21, 2012
Richard Wallis称他加盟OCLC的理由之一就是此事,并总结了七方面的重要性。