日本国会图书馆规范库的关联数据

7月的上图关联数据研讨班上,雨师列举各国国家图书馆的关联数据项目,有些是自己第一次听说。当时记下了日本国会图书馆规范库,打算去看,会后却忘了。今天远洋师在书社会推荐从Talis跳槽到OCLC继续当技术布道者的Richard Wallis的关联数据PPT,是刚过去的IFLA年会上的报告,在其中又看到日本的这个例子,马上去看,免得又忘了。

Web NDL Authorities 国立国会図書館典拠データ検索·提供サービス

它采用了rdf, rdfs, owl, skos及其xl, rda及其FRBR实体frbrent, foaf, dct(dcterm)及该馆定义的元数据术语ndl。
不知道是不是RDA注册元素集首次发布为关联数据[update 2012-8-19: 德国国家图书馆规范数据v.3.1曾同样使用RDA第2组实体],从检索结果看(如用“東京”查),包括(未见到frbrent):
个人:生年(rda:dateOfBirth)
个人:没年(rda:dateOfDeath)
个人:専攻 [估计]
个人:職業·経歴(rda:biographicalInformation)
家族:来歴(rda:familyHistory)
团体:設立年(rda:dateOfEstablishment)
团体:廃止年(rda:dateOfTermination)
团体:期間 [估计]
团体:来歴(rda:corporateHistory)

以上两个“估计”未找到例子,据帮助页面的“表2 詳細画面項目表”推测

———-Web NDL Authorities———-
国立国会図書館典拠データ検索·提供サービス

2011年7月7日开发版公开,预告12月正式服务。2012年1月6日发布正式服务公告。

开发版发布公告中,对该服务有较全面介绍:
日本国会图书馆规范数据包括名称规范(个人名称、家族名称、团体名称、地名及统一题名)与主题规范,合计超过一百万条。以RDF发布,以SPARQL作为API提供外部检索。
[名称规范URI如:http://id.ndl.go.jp/auth/ndlna/00270152(8位数字)
主题规范URI如:http://id.ndl.go.jp/auth/ndlsh/01132830(8位数字)]

– 检索功能
关键词检索:可使用标目、参照、各种读法(片假名、罗马字)[不能简繁字互检]
分类号检索:对地名、统一题名、主题的日本十进分类法(NDC)9版类号、日本国会图书馆分类法(NDLC)完全一致检索。
依规范类型出现不同检索结果,主题可以由“上位語·下位語·関連語”(属、分、参)扩检。

– 下载功能
提供单条下载,以RDF/XML、RDF/Turtle和JSON提供。
批下载仅限主题,为RDF/XML形式或以制表附分隔的文本形式。

– 外部关联功能
除SPARQL外,还提供:
URI:每条规范数据均附URI,可以URI引用
链接到外部数据库:部分数据链接到LCSH、MARC21代码、VIAF及维基百科[维基百科只是根据名称生成的一个链接,非准确关联]
日本国会图书馆服务:书目与规范之间互连 [部分链接有问题,如上引主题规范记录的“参考(rdfs:seeAlso)”,是规范库内链接,但使用的是名称而非ID的8位数字,因而出错]

Via: Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012, #oclcldrt(有墙)

—–附:图书馆关联书目数据项目──以国家图书馆为例—–
摘自:林海青. 关联书目数据:发布、查询、消费和混搭(p.8)(PDF)
美国:国家农业图书馆叙词表 NAL Thesaurus agclass.nal.usda.gov/agt.shtml
日本:国会图书馆规范档 Web NDL Authorities id.ndl.go.jp/auth/ndla
英国国家书目 BNB bnb.data.bl.uk
捷克:多主题结构化主题标目系统 psh.ntkcz.cz/skos/home/html/en
美国:国会图书馆标题表 LCSH id.loc.gov/authorities/
德国:巴伐利亚、柏林、勃兰登堡图书馆联合目录 B3Kat lod.b3kat.de
德国:德国国家书目 DNB www.dnb.de/EN/datendienste/linkedData
西班牙国家图书馆书目 datos.bne.es/posts/2012/0214/2050
法国国家图书馆 data.bnf.fr
瑞典:Libris libris.kb.se
匈牙利国家图书馆目录 NSZL nektar.oszk.hu/wiki/Semantic_web
美国:国会图书馆名称规范档 id.loc.gov/download/
挪威个人名称规范 data.bibsys.no/data

———-相关博文———-
图书馆关联数据,哪些值得关注?(2010-4-20)/posts/2010/0420/1043(提到LIBRIS、LCSH、匈牙利、德国和OCLC)

大英图书馆开放数据服务(2010-8-25)/posts/2010/0825/1274

德国国家图书馆规范数据发布为关联数据(2010年10月9日)/posts/2010/1009/1312
(提到LIBRIS、LCSH、NSZL和OCLC)

德国国家书目发布为关联开放数据(2012年2月1日)/posts/2012/0201/2029

西班牙国家图书馆关联数据发布(2012年2月14日)/posts/2012/0214/2050

上图关联数据技术与应用研讨班参加记(2012年7月22日)

MARC之后的三个方案及其优缺点

ALA技术源前些天也刚举办了一个关联数据研讨班,Karen Coyle主讲:
Libraries and Linked Data: Looking to the Future
图书馆与关联数据:展望未来

PPT共3个,已由ALA TechSource发到slideshare(可恶的是slideshare近日竟然也被墙):

1. One short intro to linked data
关联数据简介
2. After MARC: Options, New bibliographic framework
MARC之后的选项,新书目框架
3. Tools for LLD: vocabularies, linking, and application programming
图书馆关联数据工具:取值词表、链接及应用

———-MARC之后的选项———-
这部分是重点,总结MARC之后的三个方案,并分析各自的优缺点。
由RDA的三个实施方案(scenarios,p.4-7,扁平无链接、书目和规范链接、关系/面向对象),引入Karen的新书目框架三个方案(序列化、抽取、原生,p.8)。

方案3、序列化(Serialize, p.9-21):直接把MARC转为RDF格式
优点:机械的;不改变数据;无需改变系统
缺点:不改变数据;图书馆数据留在图书馆孤岛中;不链接到图书馆外部数据

方案2、抽取(Extract, p.22-37):从MARC记录库中抽取数据
举已发布为关联数据的三个例子:不列颠图书馆(BL,p.25-29),西班牙国家图书馆(BNE,p.30-35),OCLC(p.36)。
优点:无需改变图书馆系统;可在了解更多后重复抽取;编目员不可见
缺点:编目员不可见,因此没有人工质量控制(QC);关键标识不是基元数据的一部分;受当前记录内容限制
[不知道为什么我的Chrome浏览器在BNE网站看不到可视化展示]

方案1、原生(go native, p.38-39)
(1)things,元素和值都有URI
(2)存储things和关系的数据设计
(3)创建界面对创建者隐藏这些,但保持数据完整
优点:与Web资源互操作;与RDA的目的互通;图书馆目录有更丰富的可能,用户无需在图书馆和Web间选择信息源
缺点:需要替换图书馆系统;难于论证成本/效益
[目前LC的书目框架转换行动显然属于方案1──参见:LC正式启动以关联数据取代MARC (2012年5月26日)]

———-Links for Linked Data———-
PPT中涉及的链接,在Karen自己的网站上分门别类列出,很好的参考源。包括:
关联数据──概述
书目元数据元素(非图书馆)
其他元数据元素
图书馆关联数据
·图书馆标准数据集 Library Standard Data Elements
RDA Vocabularies and Elements
FRBR (FRBRer)
ISBD
FRAD
MADS in RDF
[很抱歉自己在上图关联数据会议上遗漏了最后那个──幸亏unconference时远洋师在回答国图MM关于发布规范档的关联数据问题时,做了推荐]
·取值词表
·图书馆和其他书目数据集
·开放元数据注册 Open Metadata Registry
软件和工具
关联数据组织与活动
关联数据实例
·数据库(开放图书馆、Freebase)
·样本数据(DCMI/RDA工作组的RDA使用案例:Cataloger Scenarios)[update 2015-8-26链接改为:http://wiki.dublincore.org/index.php/Cataloger_Scenarios,已没有龟标及RDF/XML格式的RDF表达]
提供10种场景,帮助编目员了解如何使用RDA取值词表、处理FRBR关系。链接到场景元数据的RDF表达,有龟标格式和RDF/XML格式。
·开放图书馆 Open Library
·开放研究在线 Open Research Online
·虚拟国际规范档 VIAF
·DBPedia
·Freebase
推荐阅读

[update 2012-7-24] Karen本人的博文
Coyle’s InFormation: Futures and Options(有墙)

上图关联数据技术与应用研讨班参加记

2012年7月20-22日,在上海图书馆举办了“从文献编目到知识编码:关联数据技术与应用”专题研讨班。
本次研讨班与会者120多人,不乏如来自中信所、国科图的关联数据高手,也有业内资深专家,还包括如北大、深大馆长(想起十多天前在北京的RDA培训,也曾遇到深大馆长)──当然这些馆长本身也是专家。NSTL的超级科技词表STKOS项目组来了19位(来自不同单位),深大、厦大、国图、深圳职业技术学院等也都有多人参加(非会议官方信息,仅就本人接触得知)。

从研讨班日程可以看到,会议内容涉及了关联数据从理论与基本知识,到发布与消费的方方面面──平台和工具(如查询语言、可视化软件),案例及可用资源,知识产权等。
我的题目是《RDA的实施与本地化》(Slideshare,目前被墙),感觉与会议主题不是很搭,得到K师、夏MM及远洋师的启发与帮助,也仔细看了与会者提问集锦,尽可能使内容有针对性,侧重RDA元素集及词汇表的注册,也涉及MARC、ISBD、FR系列元数据注册,在远洋师的提示下,在开讲前加上了WorldCat关联数据所用schema.org的图书馆扩展。这些在设计关联书目数据时,都是重要的备选项。

———-用关联数据做什么(一家之言)———-
自己对关联数据本身所知不多,一直觉得发布关联书目数据应该是国家图书馆、大型联合目录的事,一般图书馆没有什么必要。不过前些天为某刊审一篇稿,是用本体加关联数据解决单个图书馆中各种异构资源silo问题的,发现自己的想法或许并不正确。今天曾蕾老师的“联合仓储数据做成可关联元数据的方法及案例”中有一个近似的例子,不过LODE-BD项目联合的是性质相同的书目数据。对于有百万以上书目数据、加上其他复杂资源的图书馆,这件事过于宏大,只能待技术成熟,至少有最佳实践后再考虑。

于是兴趣点就在除发布书目数据外,一般图书馆还能用关联数据做些什么事情。首先自然是消费,将关联数据mashup到OPAC等(具体内容及方式待探索),会议的收获是了解了更多的消费内容与方式(包括可视化)。
另外在听会中,了解到关联数据在揭示关系方面的功能,忽然悟到,除了单纯的发布和消费外,或许更有意思的是“发布+消费”方式,即以关联数据形式发布特色数据,进而揭示出隐藏的关系,乃至以可视化方式展示。想到学位论文数据库就是个很好的数据源,可以由元数据中的导师信息,揭示出师承关系──硕导、博导、同门等等。

———-会议照片———-
会议办得相当用心。会议注册时设计了提问,了解与会者的需求;会议PPT及相关资料在报到时随U盘发送;最后阶段的unconference,不知道是不是首次引入国内图书馆界?

[update 2012-7-23] 上图搭建利用RelFinder可视化展现关系的平台:

http://lod.library.sh.cn/relfinder/(点击看毛泽东和林彪的关系图

还有:


第一次收到专为会议制作的杯子:关联数据的五星排行。拿着天天喝茶,让关联数据深深地印入头脑中。


雨师席地而坐,时刻准备着为夏MM做助教──会场两个显示屏,一个放PPT,另一个用来实时访问网站做演示。

另外为会上分发了为60周年馆庆制作的《上海市中心图书馆一卡通分布图册》,印有各馆基本信息的二维码,提供的链接是发布为关联数据的各中心图书馆页面(访问网址:http://data.libnet.sh.cn:8080/)。再次体会到上图那种遵循标准的素质,比如采用vcard格式,而不是自定义的。

(图片来自CHUX的新浪微博)

———-会议资料链接———-

研讨班日程安排(将链接最终版PPT)
FOAF制作指南
关联数据讨论组邮件列表:(lldchina@groups.163.com)刚建立,欢迎所有感兴趣者加入