WorldCat关联数据子集批量下载(附OCLC的其他关联数据)

在刚结束的IFLA年会上,Richard Wallis宣布提供WorldCat关联数据的批量下载──自然不会是全部,而是一个子集,给大家玩玩,可在本地安装后用SPARQL做试验:
书目记录数:120万(对照:WorldCat全部记录2.5亿)
入选条件:超过250个图书馆收藏
文件大小:1GB
三元组数:8千万
格式:RDF n-triples
数据集描述:WorldCat VoID Dataset Description(含dataDump下载网址)

via 书社会远洋过客转贴 2012-8-18
原博文:Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012

——–关于OCLC及其关联数据的八卦———-
OCLC一直很注重对自己权利的保护,事例如:
– 2003年图书馆酒店商标案
参见:OCLC与图书馆酒店的故事:版权与商标(2006年9月25日)
http://catwizard.net/posts/20060925205225.html
– 2009年闹得沸沸扬扬的WorldCat记录使用政策
参见:编目与元数据2009(2010年1月3日)
http://catwizard.net/posts/20100103152717.html
圖書館觀點:關於「WorldCat書目記錄使用及轉出政策」(1st Apr 2009),有墙
后续影响有:瑞典国家图书馆终止加入WorldCat谈判(2011年12月22日)
http://catwizard.net/posts/20111222231009.html

OCLC大规模加入此轮关联数据潮流,不过对权利的保护一如既往:
– VIAF提供批量下载,但那只是OCLC的一项服务,内容并不属于OCLC
参见:虚拟国际规范档移交OCLC(2012年4月5日)
http://catwizard.net/posts/20120405222312.html
– FAST提供批量下载,是LCSH部分内容的分面版,内容也不属于OCLC
参见:FAST: 主题词分面应用(2007年11月28日)
http://catwizard.net/posts/20071128205457.html
– DDC23版全部23,000多个分类号和类名在dewey.info上发布为关联数据。得知后在网站上找了半天,也没有发现完整的DDC(只有原来的千分表)。后来远洋师告知,只是assignable,并不免费公开DDC──那还是要卖银子的。
– 与DDC几乎同时发布的还有WorldCat所有书目记录,显示在每条记录的详细页面下
参见:WorldCat也关联数据了(2012年6月21日)
http://catwizard.net/posts/20120621214628.html
– 下载:WorldCat子集
– 关联数据发布中采用开放数据许可ODC-BY而非公共域许可CC0
参见:虚拟国际规范档数据集以ODC-By许可提供(2012年5月5日)
http://catwizard.net/posts/20120505223629.html
官网消息:OCLC recommends Open Data Commons Attribution License (ODC-BY) for WorldCat data (6 August 2012)
CC网站对ODC-BY和CC0的分析:Library catalog metadata: Open licensing or public domain? / Timothy Vollmer (August 14th, 2012) ,感谢Nalsi提供信息
ODC-BY: Open Data Commons – Attribution License
[update] 指南:OCLC linked data attribution guidelines

日本国会图书馆规范库的关联数据

7月的上图关联数据研讨班上,雨师列举各国国家图书馆的关联数据项目,有些是自己第一次听说。当时记下了日本国会图书馆规范库,打算去看,会后却忘了。今天远洋师在书社会推荐从Talis跳槽到OCLC继续当技术布道者的Richard Wallis的关联数据PPT,是刚过去的IFLA年会上的报告,在其中又看到日本的这个例子,马上去看,免得又忘了。

Web NDL Authorities 国立国会図書館典拠データ検索·提供サービス

它采用了rdf, rdfs, owl, skos及其xl, rda及其FRBR实体frbrent, foaf, dct(dcterm)及该馆定义的元数据术语ndl。
不知道是不是RDA注册元素集首次发布为关联数据[update 2012-8-19: 德国国家图书馆规范数据v.3.1曾同样使用RDA第2组实体],从检索结果看(如用“東京”查),包括(未见到frbrent):
个人:生年(rda:dateOfBirth)
个人:没年(rda:dateOfDeath)
个人:専攻 [估计]
个人:職業·経歴(rda:biographicalInformation)
家族:来歴(rda:familyHistory)
团体:設立年(rda:dateOfEstablishment)
团体:廃止年(rda:dateOfTermination)
团体:期間 [估计]
团体:来歴(rda:corporateHistory)

以上两个“估计”未找到例子,据帮助页面的“表2 詳細画面項目表”推测

———-Web NDL Authorities———-
国立国会図書館典拠データ検索·提供サービス

2011年7月7日开发版公开,预告12月正式服务。2012年1月6日发布正式服务公告。

开发版发布公告中,对该服务有较全面介绍:
日本国会图书馆规范数据包括名称规范(个人名称、家族名称、团体名称、地名及统一题名)与主题规范,合计超过一百万条。以RDF发布,以SPARQL作为API提供外部检索。
[名称规范URI如:http://id.ndl.go.jp/auth/ndlna/00270152(8位数字)
主题规范URI如:http://id.ndl.go.jp/auth/ndlsh/01132830(8位数字)]

– 检索功能
关键词检索:可使用标目、参照、各种读法(片假名、罗马字)[不能简繁字互检]
分类号检索:对地名、统一题名、主题的日本十进分类法(NDC)9版类号、日本国会图书馆分类法(NDLC)完全一致检索。
依规范类型出现不同检索结果,主题可以由“上位語·下位語·関連語”(属、分、参)扩检。

– 下载功能
提供单条下载,以RDF/XML、RDF/Turtle和JSON提供。
批下载仅限主题,为RDF/XML形式或以制表附分隔的文本形式。

– 外部关联功能
除SPARQL外,还提供:
URI:每条规范数据均附URI,可以URI引用
链接到外部数据库:部分数据链接到LCSH、MARC21代码、VIAF及维基百科[维基百科只是根据名称生成的一个链接,非准确关联]
日本国会图书馆服务:书目与规范之间互连 [部分链接有问题,如上引主题规范记录的“参考(rdfs:seeAlso)”,是规范库内链接,但使用的是名称而非ID的8位数字,因而出错]

Via: Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012, #oclcldrt(有墙)

—–附:图书馆关联书目数据项目──以国家图书馆为例—–
摘自:林海青. 关联书目数据:发布、查询、消费和混搭(p.8)(PDF)
美国:国家农业图书馆叙词表 NAL Thesaurus agclass.nal.usda.gov/agt.shtml
日本:国会图书馆规范档 Web NDL Authorities id.ndl.go.jp/auth/ndla
英国国家书目 BNB bnb.data.bl.uk
捷克:多主题结构化主题标目系统 psh.ntkcz.cz/skos/home/html/en
美国:国会图书馆标题表 LCSH id.loc.gov/authorities/
德国:巴伐利亚、柏林、勃兰登堡图书馆联合目录 B3Kat lod.b3kat.de
德国:德国国家书目 DNB www.dnb.de/EN/datendienste/linkedData
西班牙国家图书馆书目 datos.bne.eshttp://catwizard.net/posts/20120214212448.html
法国国家图书馆 data.bnf.fr
瑞典:Libris libris.kb.se
匈牙利国家图书馆目录 NSZL nektar.oszk.hu/wiki/Semantic_web
美国:国会图书馆名称规范档 id.loc.gov/download/
挪威个人名称规范 data.bibsys.no/data

———-相关博文———-
图书馆关联数据,哪些值得关注?(2010-4-20)http://catwizard.net/posts/20100420214134.html(提到LIBRIS、LCSH、匈牙利、德国和OCLC)

大英图书馆开放数据服务(2010-8-25)http://catwizard.net/posts/20100825225826.html

德国国家图书馆规范数据发布为关联数据(2010年10月9日)http://catwizard.net/posts/20101009163450.html
(提到LIBRIS、LCSH、NSZL和OCLC)

德国国家书目发布为关联开放数据(2012年2月1日)http://catwizard.net/posts/20120201203543.html

西班牙国家图书馆关联数据发布(2012年2月14日)http://catwizard.net/posts/20120214212448.html

上图关联数据技术与应用研讨班参加记(2012年7月22日)

2011年RDA与ISBD和ISSN协调会成果

2011年11月3日,JSC、ISBD评审组和ISSN界主办了协调会。事隔9个多月,JSC网站发布了讨论结果(大概是得到了刚结束的IFLA年会上ISBD评审组会议的通过),并说明相关建议与讨论稿将在2012年11月的JSC会议上讨论。

2011 JSC, ISBD, and ISSN Outcomes(12 August 2012)

结果文件名为:ISBD / ISSN Outcomes(3页PDF),较完整的摘译如下:

1、JSC和ISBD评审组同意共享各自规定的当前版本。ISSN规定已在ISSN网站上免费提供。
2、各方同意,协调目的(purpose of harmonization)是让RDA、ISSN和ISBD记录在功能上可互操作,即一个标准下有效的记录,应当能够映射到任一其他标准。大家认识到,某些问题要花更长时间解决,而一些问题可能是无法调和的,但可以采取步骤限制这些差异的影响。
3、并列题名:RDA定义比ISBD宽泛,且信息记录于不同元素[见6b],但能够映射。应经开发ISBD应用纲要(application profile)达到更好的协调。
4、音乐表现(Musical presentation)说明:Massimo Gentilli-Tedeschi将联系IAML(国际音乐图书馆协会)向JSC提交建议,增加音乐表现说明元素。
5、排印vs顺序:JSC同意澄清RDA中的“顺序、排版及排印”并非指优先顺序(2.3.2.4和2.3.2.5)。
6、RDA附录D.1的ISBD表示:ISBD评审组将向JSC提交更新建议,以符合ISBD统一版的当前版本。附录D还将发展成一个应用纲要,附加必备元素和交替与可选的选项:
b. 并列题名:RDA中的并列题名检索点,如出现在首选来源,ISBD应用纲要映射为其他题名信息,否则视为原题名或变异题名。
c. 缺少总题名资源:ISBD应用纲要规定,不应采用RDA的交替做法。
7、内容表达的责任说明:与6JSC/ALA/4提问问题相关……
8、电子资源首选信息源:ALA将考虑是否向JSC提交建议。
9、未编号单行丛编:ISBD评审组和ISSN将讨论未来如何处理……
10、作曲类型(?Type of composition):RDA与ISBD兼容
11、缺少总题名资源:……[见6c]
12、[编目员]提供的其他题名信息:ISBD评审线将向JSC提交建议,将其扩充到其他资源。目前仅限地图资源和移动图像。ISSN不记录其他题名信息,但在需要时创建变异题名。
13、法定呈缴日期:ALA将建议增加例子和解释文本,说明使用法定呈缴日期以替代出版日期。
14、新描述,题名变化(中日韩):ISSN将起草修改其相关规定……
15、新描述,媒介类型变化:ISSN将向JSC提供建议与使用案例,补充RDA连续出版物媒介类型改变的相关规定。
16、发行模式和频率:三方将要求FRBR评审组审核, 发行模式和频率属性属于内容表达(FRBR)还是载体表现(RDA)。Gordon Dunsire将向FRBR评审组询问FRBR中数字资料的连续性和动态性质的一般处理方式。
17、不列颠图书馆将向JSC成员提供实例,当现有集成资源的发行模式变为连续出版物时,如何记录更新。JSC将评估其对RDA的影响。
18、累积本:ISSN将联系FRBR评审组,讨论作品、内容表达和载体表现的“边界”,包括累积和非累积资源。……JSC将考虑重写RDA与边界有关部分,以支持与ISSN协调。
19、重新定位集成资源:ISSN将在其规定中增加一条规则,以与RDA和ISBD一致。
20、集成资源题名更改:RDA不要求创建新描述,这是与ISSN不可调和的差异。
21、部分题名:RDA要求部分题名跟在共同题名后转录,如果两部分在语法上没有关联,即使部分题名很重要且可独立存在。这是与ISBD不可调和的差异。
22、版本说明/版本的命名修订说明:不列颠图书馆代表将代表JSC准备建议,合并两个元素,以简化版本记录。
23、RDA/ONIX框架:JSC和ISBD评审组同意检查各自与框架的映射是否正确。
24、映射:JSC和ISBD同意成立工作组,审查附录D中RDA和ISBD的双向映射。
25、命名空间:JSC和ISBD评审组同意讨论,RDA和ISBD之间的映射应当以什么命名空间注册、声明和存放。
26、同步:JSC和ISBD评审组同意讨论创建同步协议,处理各自标准的变化……

参见:RDA与ISBD和ISSN的协调(2011年11月6日)