图书馆标准巴别塔──Schema.org将图书馆连接到web

这是OCLC技术布道者Richard Wallis的观点。
Richard Wallis因关联技术加盟OCLC。在刚结束的IFLA赫尔辛基年会的关联数据圆桌会议(OCLC Linked Data Round Table)上,他在名为《图书馆关联数据进展》报告中宣布,WorldCat关联数据提供一个子集供下载。
参见:WorldCat关联数据子集批量下载(附OCLC的其他关联数据)(2012年8月21日)

报告前面部分列举IFLA 2010年会到2012年会的两年间,图书馆界发布的众多关联数据(附后,包括韩国国家图书馆),后面部分介绍OCLC发布的各个关联数据项目及ODC-BY许可。连接两者的,就是提出“图书馆标准巴别塔”(p.27),以及“Schema.org将图书馆链接到web”(p.61),说明WorldCat采用Schema.org及图书馆扩展的原因。

最近看了各图书馆发布关联数据所用命名空间,对“图书馆标准巴别塔”之说极为认同。Wallis在页面标出的图书馆标准有12个:Bibo, Dublin Core, EAD, FRAD, FRBR, FRSAR, ISBD, MARC, MARCXML, MODS, Onix, RDA;所列不列颠图书馆数据模型(PDF格式)中所采用的命名空间有14个:blt, rdf, rdfs, owl, xsd, dct, isbd, skos, bibo, bio, foaf, event, org, geo。因之OCLC的选择是放弃图书馆标准,采用搜索引擎的标准schema.org,并辅以OCLC的图书馆扩展(library extension,或也有望被纳入schema.org吧)。
参见:Schema.org的图书馆扩展(2012年6月22日)

Wallis的说法是:共享通往Web的道路(p.64):
Schema.org linking libraries to the web(Schema.org将图书馆链接到web)
no replacement for rich bibliographic metadata(不取代丰富的书目元数据)
easily consumed & merged across domains(易于跨域消费与合并)
a powerful complement to it(指图书馆扩展)

于是想,LC书目框架转换行动,会弄出一个什么样的模型呢?给巴别塔添砖加瓦吗,还是像schema.org那样来个一统图书馆天下?

PPT:Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012(有墙)
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012
Via Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012

会议其他报告:IFLA语义网特别兴趣小组(SWSIG)网站消息,Presentations from OCLC Linked Data round table available
(均在目前被墙的slideshare)
– Neil Wilson, British Library – http://www.slideshare.net/nw13/oclc-linked-data-roundtable-event-ifla-2012
– Emmanuelle Bermes, Centre Pompidou – http://www.slideshare.net/Figoblog/ifla-2012-oclc-linked-data-round-table
– Martin Malmsten, National Library of Sweden – http://www.slideshare.net/geckomarma/ifla-2012-oclc-semantic-web-roundtable

———-图书馆关联数据进展———-
Richard Wallis报告中列举的IFLA 2010年会到2012年会间发布的图书馆关联数据:
data.bnf.fr(法国国家图书馆)
datos enlazados en la BNE(西班牙国家图书馆)
Europeana Linked Open Data
Web NDL Authorities(日本国会图书馆)
LC Linked Data Service(美国国会图书馆)
The Open Library(thedatahub.org/dataset/openlibrary)
Zeitschriftendatanbank: Linked Data(德国:期刊资料库)
Linked Data Service of the German National Library(德国国家图书馆)
National Library of Korea: Linked Data(韩国国家图书馆)
VIAF
DDC
FAST Linked Data
British National Bibliography(英国国家书目)
W3C Library Linked Data Incubator Group
LC: Bibliographic Framework Transition Initiative
WorldCat

WorldCat关联数据子集批量下载(附OCLC的其他关联数据)

在刚结束的IFLA年会上,Richard Wallis宣布提供WorldCat关联数据的批量下载──自然不会是全部,而是一个子集,给大家玩玩,可在本地安装后用SPARQL做试验:
书目记录数:120万(对照:WorldCat全部记录2.5亿)
入选条件:超过250个图书馆收藏
文件大小:1GB
三元组数:8千万
格式:RDF n-triples
数据集描述:WorldCat VoID Dataset Description(含dataDump下载网址)

via 书社会远洋过客转贴 2012-8-18
原博文:Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012

——–关于OCLC及其关联数据的八卦———-
OCLC一直很注重对自己权利的保护,事例如:
– 2003年图书馆酒店商标案
参见:OCLC与图书馆酒店的故事:版权与商标(2006年9月25日)
http://catwizard.net/posts/20060925205225.html
– 2009年闹得沸沸扬扬的WorldCat记录使用政策
参见:编目与元数据2009(2010年1月3日)
http://catwizard.net/posts/20100103152717.html
圖書館觀點:關於「WorldCat書目記錄使用及轉出政策」(1st Apr 2009),有墙
后续影响有:瑞典国家图书馆终止加入WorldCat谈判(2011年12月22日)
http://catwizard.net/posts/20111222231009.html

OCLC大规模加入此轮关联数据潮流,不过对权利的保护一如既往:
– VIAF提供批量下载,但那只是OCLC的一项服务,内容并不属于OCLC
参见:虚拟国际规范档移交OCLC(2012年4月5日)
http://catwizard.net/posts/20120405222312.html
– FAST提供批量下载,是LCSH部分内容的分面版,内容也不属于OCLC
参见:FAST: 主题词分面应用(2007年11月28日)
http://catwizard.net/posts/20071128205457.html
– DDC23版全部23,000多个分类号和类名在dewey.info上发布为关联数据。得知后在网站上找了半天,也没有发现完整的DDC(只有原来的千分表)。后来远洋师告知,只是assignable,并不免费公开DDC──那还是要卖银子的。
– 与DDC几乎同时发布的还有WorldCat所有书目记录,显示在每条记录的详细页面下
参见:WorldCat也关联数据了(2012年6月21日)
http://catwizard.net/posts/20120621214628.html
– 下载:WorldCat子集
– 关联数据发布中采用开放数据许可ODC-BY而非公共域许可CC0
参见:虚拟国际规范档数据集以ODC-By许可提供(2012年5月5日)
http://catwizard.net/posts/20120505223629.html
官网消息:OCLC recommends Open Data Commons Attribution License (ODC-BY) for WorldCat data (6 August 2012)
CC网站对ODC-BY和CC0的分析:Library catalog metadata: Open licensing or public domain? / Timothy Vollmer (August 14th, 2012) ,感谢Nalsi提供信息
ODC-BY: Open Data Commons – Attribution License
[update] 指南:OCLC linked data attribution guidelines

日本国会图书馆规范库的关联数据

7月的上图关联数据研讨班上,雨师列举各国国家图书馆的关联数据项目,有些是自己第一次听说。当时记下了日本国会图书馆规范库,打算去看,会后却忘了。今天远洋师在书社会推荐从Talis跳槽到OCLC继续当技术布道者的Richard Wallis的关联数据PPT,是刚过去的IFLA年会上的报告,在其中又看到日本的这个例子,马上去看,免得又忘了。

Web NDL Authorities 国立国会図書館典拠データ検索·提供サービス

它采用了rdf, rdfs, owl, skos及其xl, rda及其FRBR实体frbrent, foaf, dct(dcterm)及该馆定义的元数据术语ndl。
不知道是不是RDA注册元素集首次发布为关联数据[update 2012-8-19: 德国国家图书馆规范数据v.3.1曾同样使用RDA第2组实体],从检索结果看(如用“東京”查),包括(未见到frbrent):
个人:生年(rda:dateOfBirth)
个人:没年(rda:dateOfDeath)
个人:専攻 [估计]
个人:職業·経歴(rda:biographicalInformation)
家族:来歴(rda:familyHistory)
团体:設立年(rda:dateOfEstablishment)
团体:廃止年(rda:dateOfTermination)
团体:期間 [估计]
团体:来歴(rda:corporateHistory)

以上两个“估计”未找到例子,据帮助页面的“表2 詳細画面項目表”推测

———-Web NDL Authorities———-
国立国会図書館典拠データ検索·提供サービス

2011年7月7日开发版公开,预告12月正式服务。2012年1月6日发布正式服务公告。

开发版发布公告中,对该服务有较全面介绍:
日本国会图书馆规范数据包括名称规范(个人名称、家族名称、团体名称、地名及统一题名)与主题规范,合计超过一百万条。以RDF发布,以SPARQL作为API提供外部检索。
[名称规范URI如:http://id.ndl.go.jp/auth/ndlna/00270152(8位数字)
主题规范URI如:http://id.ndl.go.jp/auth/ndlsh/01132830(8位数字)]

– 检索功能
关键词检索:可使用标目、参照、各种读法(片假名、罗马字)[不能简繁字互检]
分类号检索:对地名、统一题名、主题的日本十进分类法(NDC)9版类号、日本国会图书馆分类法(NDLC)完全一致检索。
依规范类型出现不同检索结果,主题可以由“上位語·下位語·関連語”(属、分、参)扩检。

– 下载功能
提供单条下载,以RDF/XML、RDF/Turtle和JSON提供。
批下载仅限主题,为RDF/XML形式或以制表附分隔的文本形式。

– 外部关联功能
除SPARQL外,还提供:
URI:每条规范数据均附URI,可以URI引用
链接到外部数据库:部分数据链接到LCSH、MARC21代码、VIAF及维基百科[维基百科只是根据名称生成的一个链接,非准确关联]
日本国会图书馆服务:书目与规范之间互连 [部分链接有问题,如上引主题规范记录的“参考(rdfs:seeAlso)”,是规范库内链接,但使用的是名称而非ID的8位数字,因而出错]

Via: Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012, #oclcldrt(有墙)

—–附:图书馆关联书目数据项目──以国家图书馆为例—–
摘自:林海青. 关联书目数据:发布、查询、消费和混搭(p.8)(PDF)
美国:国家农业图书馆叙词表 NAL Thesaurus agclass.nal.usda.gov/agt.shtml
日本:国会图书馆规范档 Web NDL Authorities id.ndl.go.jp/auth/ndla
英国国家书目 BNB bnb.data.bl.uk
捷克:多主题结构化主题标目系统 psh.ntkcz.cz/skos/home/html/en
美国:国会图书馆标题表 LCSH id.loc.gov/authorities/
德国:巴伐利亚、柏林、勃兰登堡图书馆联合目录 B3Kat lod.b3kat.de
德国:德国国家书目 DNB www.dnb.de/EN/datendienste/linkedData
西班牙国家图书馆书目 datos.bne.eshttp://catwizard.net/posts/20120214212448.html
法国国家图书馆 data.bnf.fr
瑞典:Libris libris.kb.se
匈牙利国家图书馆目录 NSZL nektar.oszk.hu/wiki/Semantic_web
美国:国会图书馆名称规范档 id.loc.gov/download/
挪威个人名称规范 data.bibsys.no/data

———-相关博文———-
图书馆关联数据,哪些值得关注?(2010-4-20)http://catwizard.net/posts/20100420214134.html(提到LIBRIS、LCSH、匈牙利、德国和OCLC)

大英图书馆开放数据服务(2010-8-25)http://catwizard.net/posts/20100825225826.html

德国国家图书馆规范数据发布为关联数据(2010年10月9日)http://catwizard.net/posts/20101009163450.html
(提到LIBRIS、LCSH、NSZL和OCLC)

德国国家书目发布为关联开放数据(2012年2月1日)http://catwizard.net/posts/20120201203543.html

西班牙国家图书馆关联数据发布(2012年2月14日)http://catwizard.net/posts/20120214212448.html

上图关联数据技术与应用研讨班参加记(2012年7月22日)