图书馆关联数据,哪些值得关注?

早在2008年,瑞典国家图书馆率先把瑞典联合目录LIBRIS发布为关联数据,使用了FOAF, SKOS, Bibliontology的混合体,以RDF实现了部分FRBR算法,并计划链接到外部,包括DBPedia/Wikipedia,以及本地主题到LCSH。[1]
2009年上半年,LCSH(id.loc.gov)与DDC(dewey.info)相继以SKOS发布。
2009年9月,OCLC把虚拟国际规范档VIAF(viaf.org)发布为关联数据,对URI采用HTTP 303重定向,采用FOAF。[2]
进入2010年4月,7日匈牙利国家图书馆宣布,其全部图书馆目录、数字图书馆馆藏及名称/主题规范数据发布为关联数据,书目RDFDC、人名规范foaf、主题词与地理名称skos。
16日德国国家图书馆宣布了采用关联数据的规范数据原型系统,个人名称规范FOAF,主题SKOS及DC,且已链接到Wikipedia、DBPedia及VIAF。[4]

图书馆发布关联数据意义何在,我们需要关注什么?Ed Summers,这位率先把LCSH发布为关联数据lcsh.info的LC雇员,针对最近的进展,提出“现在已经有足够的图书馆关联数据,可以审视使用模式,看是否有可以努力的新兴最佳实践”。并指出如下几点,认为尤其值得关注:[5]

What vocabularies are being used, and is there emerging consensus about which to use? 什么词表在被使用,有没有共识?
What licenses (if any) are associated with the data? 这些数据用什么许可(如果有的话)?
How much linking and interlinking is going on? 有多少链接及互链?
What sorts of mechanisms does the publisher offer for getting the data: sitemap, feeds, SPARQL, bulk download? 发布者提供什么机制来获取这些数据:网站地图、(RSS)种子、SPARQL、批量下载?
What is the quality of the data: granularity, link integrity, vocabulary usage. 数据质量如何:粒度、关联完整性、词表使用?
What approaches to identifiers for “real world things” have publishers taken: hash, slash, 303, PURLs, reuse of traditional identifiers, etc. 发布者采用什么方法给“真实世界物品”指定标识符:哈希表、斜杠(?)、(HTTP) 303、PURL、传统标识符重用等。
What are the relative sizes of the pools of library linked data? 整个图书馆关联数据相对规模有多大?
How are updates being managed? 如何管理更新?

注:
[1] Martin Malmsten: Swedish union catalogue available as Linked Data. GMANE, 2008-08-21.
http://article.gmane.org/gmane.culture.libraries.ngc4lib/4617
[2] Thom Hickey: VIAF as linked data. Outgoing, September 25, 2009.
http://outgoing.typepad.com/outgoing/2009/09/viaf-as-linked-data.html
[3] Hungarian National Library published its entire OPAC and Digital Library as Linked Data
http://lists.w3.org/Archives/Public/public-lod/2010Apr/0155.html
[4] Adrian Pohl: Linked Open Data prototype at the German National Library. NGC4LIB, 16 Apr 2010.
https://listserv.nd.edu/cgi-bin/wa?A2=ind1004&L=NGC4LIB&T=0&F=&S=&P=31709
[5] Ed Summers: research ideas for library linked data. INKDROID, April 18, 2010.
http://inkdroid.org/journal/2010/04/18/research-ideas-for-library-linked-data/

ContentDM试用记

一直很关注OCLC,却很晚才知道它的数字馆藏管理软件ContentDM,也就是我们一般所谓的自建数据库软件,据介绍已有近2000个组织在使用。
Marcia的数字馆藏元数据课程(Metadata for Digital Collections)中有一节是使用ContentDM,她发来教学用的用户名与密码,让我有机会做了一次试用。顺便推荐此课程,详尽的大纲附PPT、参考资料、练习等丰富资料与链接。

回到ContentDM,教学指导Using ContentDM让人喜欢,因为只要简单地跟着做,一下就上手了。指导包括三个部分:
一、看一个用ContentDM的实例(明信片数据库),感受一下,并下载图片作为接下来自已练习建库时上传的数字对象(自然元数据也可以照抄)。

二、在已有库(Colletion)中加入2条数据(Item),发布后即时看效果。这部分没有对软件功能的逐个介绍,完全是实际操作,指导性强、很容易上手。只要三个步骤:
添加item(数字对象及元数据)──审核并索引──浏览结果(View Collection)

三、修改库(Colletion)的字段,也就是元数据方案或应用文档。系统缺省设置是DC元数据,可以直接使用,也可以修改。虽然建库首先是设计元数据方案,但因为之前的课程已经学习过,在学习软件使用时先看发布效果,而把元数据设计优化部分置后,能使学习者更有兴趣。

ContentDM当然不只这么简单的功能。在跟着指导做完后,把软件的其他功能浏览了一遍,有些还试做了一下。软件有三个层次:Server, Collections, Items。服务器层没有访问权限,馆藏层不能新增,其他功能基本都可用。用户界面的功能也试用一遍,有收藏及检索提示功能。整个过程做了截图(ContentDM, 2010-04-15)。

[截图更新2010-04-18]

Collection功能
配置(介绍文字,访问限制,图片分辨率、PDF转换等)
字段(字段名、DC对照、数据类型、完全显示否、索引否、显示否、必备否、控制词表)[update 2010-04-18 如果选控制词表,用非控词审核将无法通过]
图像显示
统计报告
导出(元数据,Tab分隔文本、XML或OCLC SiteSearch)
帮助

Items功能
审核(含编辑、删除[update 2010-04-18:可选审核、索引同做])
索引(添加、审核、编辑、删除后[update 2010-04-18:可设置在空闲的时间做])
添加(审核后发布)
编辑(及删除)[update 2010-04-18 编辑时可将多个记录组成复合对象]
替换(单字段或所有字段元数据,或更改字段)
锁定记录管理(解锁)
帮助

用户界面功能
浏览
高级检索(检索无结果时有提示)
显示设置(布局、排序、每页显示数及色彩)
我的收藏

要有更深入的体验,恐怕得仿真做一个库,才知道功能是否够用、用起来是否方便。目前控制词表有十个可选,也可从文件导入。

说明:
OCLC网站上CONTENTdm可以申请60天免费评估。

中国教会大学图像数据库

    程亮在书社会分享耶鲁大学图书馆中国教会大学图像数据库(China Christian Colleges and Universities Image Database),前去一看。分别是来自美国亚洲基督教高等教育联合董事会(United Board for Christian Higher Education in Asia,UBCHEA)和岭南基金会(Trustees of Lingnan University)的档案,主要为如下13所大学的老照片:
Fukien Christian University 福建协和大学(871)
Ginling College 金陵女子大学(1636)
Hangchow Christian College 之江大学(155)
Huachang University(0)
Hwa Nan College 华南女子文理学院(152)
Lingnan University 岭南大学(149)
Shanghai University 沪江大学(8)
Shantung Christian University (Cheeloo) 齐鲁大学(0)
Soochow University 东吴大学(136)
St. John’s University 圣约翰大学(45)
University of Nanking 汇文书院/金陵大学(1288)
West China Union University 华西协和大学(625)
Yenching University 燕京大学(1992)

    检索途径有简介、主题词、关键词和日期。
    从所用主题词
见,涉及数十个论题,是研究中国教会大学乃至当时中国社会的珍贵史料。比如,有涉及难民(学生)的103张照片。

附:不同格式图像统计
电影(31部,均未提供数字化图像)
照片(10580,大部分提供数字化图像)
幻灯(4个,均未提供数字化图像)
视频(1个,未提供数字化图像)
合计10616,但检索全部为10629;以上13校合计7057,另有一些图像不特定某一个学校。

 

P.S. 2009-1-5,博客大巴域名被停止解析,昨日访问量仅30,今天到此时为止仅6。幸得钱老板提供访问方法,试发此文,Google Reader应该可以看到吧。