图书馆标准巴别塔──Schema.org将图书馆连接到web

这是OCLC技术布道者Richard Wallis的观点。
Richard Wallis因关联技术加盟OCLC。在刚结束的IFLA赫尔辛基年会的关联数据圆桌会议(OCLC Linked Data Round Table)上,他在名为《图书馆关联数据进展》报告中宣布,WorldCat关联数据提供一个子集供下载。
参见:WorldCat关联数据子集批量下载(附OCLC的其他关联数据)(2012年8月21日)

报告前面部分列举IFLA 2010年会到2012年会的两年间,图书馆界发布的众多关联数据(附后,包括韩国国家图书馆),后面部分介绍OCLC发布的各个关联数据项目及ODC-BY许可。连接两者的,就是提出“图书馆标准巴别塔”(p.27),以及“Schema.org将图书馆链接到web”(p.61),说明WorldCat采用Schema.org及图书馆扩展的原因。

最近看了各图书馆发布关联数据所用命名空间,对“图书馆标准巴别塔”之说极为认同。Wallis在页面标出的图书馆标准有12个:Bibo, Dublin Core, EAD, FRAD, FRBR, FRSAR, ISBD, MARC, MARCXML, MODS, Onix, RDA;所列不列颠图书馆数据模型(PDF格式)中所采用的命名空间有14个:blt, rdf, rdfs, owl, xsd, dct, isbd, skos, bibo, bio, foaf, event, org, geo。因之OCLC的选择是放弃图书馆标准,采用搜索引擎的标准schema.org,并辅以OCLC的图书馆扩展(library extension,或也有望被纳入schema.org吧)。
参见:Schema.org的图书馆扩展(2012年6月22日)

Wallis的说法是:共享通往Web的道路(p.64):
Schema.org linking libraries to the web(Schema.org将图书馆链接到web)
no replacement for rich bibliographic metadata(不取代丰富的书目元数据)
easily consumed & merged across domains(易于跨域消费与合并)
a powerful complement to it(指图书馆扩展)

于是想,LC书目框架转换行动,会弄出一个什么样的模型呢?给巴别塔添砖加瓦吗,还是像schema.org那样来个一统图书馆天下?

PPT:Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012(有墙)
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012
Via Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012

会议其他报告:IFLA语义网特别兴趣小组(SWSIG)网站消息,Presentations from OCLC Linked Data round table available
(均在目前被墙的slideshare)
– Neil Wilson, British Library – http://www.slideshare.net/nw13/oclc-linked-data-roundtable-event-ifla-2012
– Emmanuelle Bermes, Centre Pompidou – http://www.slideshare.net/Figoblog/ifla-2012-oclc-linked-data-round-table
– Martin Malmsten, National Library of Sweden – http://www.slideshare.net/geckomarma/ifla-2012-oclc-semantic-web-roundtable

———-图书馆关联数据进展———-
Richard Wallis报告中列举的IFLA 2010年会到2012年会间发布的图书馆关联数据:
data.bnf.fr(法国国家图书馆)
datos enlazados en la BNE(西班牙国家图书馆)
Europeana Linked Open Data
Web NDL Authorities(日本国会图书馆)
LC Linked Data Service(美国国会图书馆)
The Open Library(thedatahub.org/dataset/openlibrary)
Zeitschriftendatanbank: Linked Data(德国:期刊资料库)
Linked Data Service of the German National Library(德国国家图书馆)
National Library of Korea: Linked Data(韩国国家图书馆)
VIAF
DDC
FAST Linked Data
British National Bibliography(英国国家书目)
W3C Library Linked Data Incubator Group
LC: Bibliographic Framework Transition Initiative
WorldCat

Schema.org的图书馆扩展

在WorldCat关联数据中看到library:,由Linked data at OCLC得知这是Schema.org的图书馆扩展,由OCLC研究办公室提出。

Experimental “library” extension vocabulary for use with Schema.org

目次
1. Introduction
2. Classes
3. Object Properties
4. Data Properties
5. Named Individuals
6. Annotation Properties
7. Namespace Declarations

其中2-6列举了扩展词汇:
2. 类 Classes(除Carrier载体,其他相当于文献类型)
(has super-classes: schema:CreativeWork)
档案资料 ArchiveMaterial
载体 Carrier(is in range of: has carrierop;has members:Bluray Disk, Cassette Tape, Compact Disk, DVD, Film Reel, LP, Microformni, VHS Tape, Volume, World Wide Web)
计算机文件 Computer File
游戏 Game
图像 Image
交互多媒体 Interactive Multimedia
套件 Kit
乐谱 Musical Score
报纸 Newspaper
期刊 Periodical
学位论文 Thesis(has super-classes: schema:Book)
玩具 Toy
视频 Video
电子游戏 VideoGame(has super-classes: Game)
视觉资料 Visual Material
网站 Web Site

3. 对象特性 Object Properties(用于著录/描述部分)
有载体 has carrier(has domain: schema:CreativeWork;has range: Carrier)
出版地 place of publication(has domain: schema:CreativeWork;has range: schema:Place)

4. 数据特性 Data Properties(专用于联合目录,尤其是WorldCat)
(has domain: schema:CreativeWork;has range: xsd:integer)
馆藏数 holdings count
OCLC控制号 oclcnum

5. 命名个体 Named Individuals(属于图书格式或载体,除了OCLC Research)
(belongs to: schema:BookFormatType或Carrier)
有声书 Audio Book
蓝光碟 Bluray Disk
盲文书 Braille Book
磁带 Cassette Tape
光盘 Compact Disk
持续更新书 Continually Updated Book
DVD
胶片 Film Reel
大字印刷本 Large Print Book
视盘 LP
缩微 Microform
OCLC Research(belongs to: schema:Organization)
VHS Tape
册 Volume(依据RDA?)
World Wide Web

6. 标注特性 Annotation Properties(用于著录/描述部分)
创作者 dc:creator
描述 dc:description
题名 dc:title
语义网词汇状态 vs:term_status

7. 命名空间声明 Namespace Declarations
除默认的http://purl.org/library/外,还用到dc, determs, foaf, owl, rdf, rdfs, schema, vs, xsd(XMLSchema)

附:Schema.org
1、Schema.org的对象(Thing)分为7类
创作作品 CreativeWork
事件 Event
无实体 Intangible(杂项,包括数量、数值、评级、语言等等)
组织 Organization
个人 Person
地点 Place
产品 Product

2、CreativeWork为最通用的创作作品类别,很多“创作作品”是图书馆通常处理不到的。包括:
文章 Article(其下包括:博文、新闻报道、学术论文)
博客 Blog
图书 Book
留言 Comment(在其他项如博文下的评论)
榜单 ItemList
地图 Map
媒介对象 MediaObject(其下包括:声音对象、图片对象、音乐视频对象、视频对象)
电影 Movie
音乐播放列表 MusicPlaylist (其下包括:音乐专辑)
音乐录音 MusicRecording
绘画 Painting
照片 Photograph
Recipe 食谱
述评 Review(独立发布的评论)
雕塑 Sculpture
软件应用 SoftwareApplication(其下包括:移动应用、Web应用)
电视剧集 TVEpisode
电视剧季 TVSeason
电视系列剧 TVSeries
网页 WebPage(其下包括:关于页、结算页、合集页{包括图片库、视频库}、联系页、单项页、个人资料页、检索结果页)
网页元素 WebPageElement(其下包括:网站导航元素、表、网站广告块、页脚、页头、侧栏)

WorldCat也关联数据了

一早在书社会看到远洋师说杜威分类法(DDC)23版的23,000多个分类号和类名昨天发布为关联数据,下班后又在微博上看到OCLC北京代表处说worldcat.org引入关联数据:“在查看一份文献的详细书目信息时,在页面最下方有“Linked Data”栏目,可以点击看到此文献的关联数据”。
此次OCLC的步子迈得很大──用OCLC自己的话说,“2012年6月,OCLC戏剧性地增加了其暴露的关联数据资源”(见Linked data at OCLC)。之前以关联数据发布的VIAF和FAST,内容都不是OCLC的,前者主要来自各国国家馆,后者基于LCSH。OCLC自有的DDC只在dewey.info发布了千分表(参见:关联数据:官方版与山寨版(DDC和LCSH),2009年8月21日) ,这次的DDC是全表,而WorldCat的书目数据量在世界图书馆界也是首屈一指的。
是看到已经发布的关联数据得到了大量利用(英国国家书目作为关联数据发布,每月处理2百万会话),如不尽早发布会被边缘化?难道真如Edmund Chamberlain所说,“如果我们不能学会分享,没人再会跟我们玩了”?(参见:图书馆从传统数据观走向关联数据及语义网:五周年,2012年5月16日)

按提示在worldcat.org细览页底部看到了不起眼的Linked Data,点击看到数据主要采用schema:,少量rdf:以及首次看到的library:。主题部分在schema:about中,rdf:type大多用skos:Concept。用到的URI除OCLC控制号http://www.worldcat.org/oclc/…,还有主题部分的OCLC的FAST号http://id.worldcat.org/fast/…和LCSH号http://id.loc.gov/authorities/subjects/…。

点击Linked Data标题下的More info about Linked Data,就到了OCLC新设的页面:Linked data at OCLC(http://www.oclc.org/data.html),原来的同名页面在开发者网络下(http://www.oclc.org/developer/linked-dat),有一些细节内容。
据介绍,WorldCat.org书目元数据以关联数据发布,采用Schema.org标记及其library扩展。以OCLC自有的书刊文献为主,未包括来自第三方的期刊论文。和VIAF一样,采用ODC(Open Data Commons)许可,允许教学与研究使用,其他目的使用则需遵循WorldCat使用政策──现称“社区规范”(Community Norms from WorldCat Rights and Responsibilities)。
OCLC研究部的原型已开发数月,目前为实验产品。采用Schema.org词汇作为建模基础,目的在于能够让搜索引擎和其他系统消费。──W3C拼不过搜索引擎提出的标准
这是个创新实验项目,未来会因来自图书馆及Web界的反馈而变化。

OCLC在2012/6/19新设立了关联数据讨论组(Linked Data Discussion Group),可以注册参与讨论,也可以RSS订阅。致欢迎词的是OCLC技术布道者Richard Wallis──曾经在英国的Talis担任同样的职务,近年致力于语义网与关联数据技术,今年4月加盟OCLC。(Richard Wallis joins OCLC staff as Technology Evangelist

[update] OCLC News Release: OCLC adds Linked Data to WorldCat.org
DUBLIN, Ohio, USA, 20 June 2012
Richard Wallis和OCLC的软件架构师Jeff Young都对采用schema.org做了说明。新闻稿中出现的另一位是Eric Miller,最近被LC选择设计取代MARC的元数据标准,据称他也正在关联数据策略方面帮助OCLC。

[update 2012-6-22] hangingtogether.org
Two Huge Linked Data Announcements (June 20th, 2012 by Roy)
19日宣布DDC23版全部在网上发布为关联数据(DDC 23 released as linked data at dewey.info),20日宣布全部Worldcat.org加上schema.org及其图书馆扩展。文后附注:此实验意在接受反馈及获取利用结果,期待此模型有所变化,故目前不提供批量下载。

[update 2012-6-25] Data Liberate Blog: OCLC WorldCat Linked Data Release – Significant In Many Ways / By Richard Wallis on June 21, 2012
Richard Wallis称他加盟OCLC的理由之一就是此事,并总结了七方面的重要性。