图书馆关联数据,哪些值得关注?

早在2008年,瑞典国家图书馆率先把瑞典联合目录LIBRIS发布为关联数据,使用了FOAF, SKOS, Bibliontology的混合体,以RDF实现了部分FRBR算法,并计划链接到外部,包括DBPedia/Wikipedia,以及本地主题到LCSH。[1]
2009年上半年,LCSH(id.loc.gov)与DDC(dewey.info)相继以SKOS发布。
2009年9月,OCLC把虚拟国际规范档VIAF(viaf.org)发布为关联数据,对URI采用HTTP 303重定向,采用FOAF。[2]
进入2010年4月,7日匈牙利国家图书馆宣布,其全部图书馆目录、数字图书馆馆藏及名称/主题规范数据发布为关联数据,书目RDFDC、人名规范foaf、主题词与地理名称skos。
16日德国国家图书馆宣布了采用关联数据的规范数据原型系统,个人名称规范FOAF,主题SKOS及DC,且已链接到Wikipedia、DBPedia及VIAF。[4]

图书馆发布关联数据意义何在,我们需要关注什么?Ed Summers,这位率先把LCSH发布为关联数据lcsh.info的LC雇员,针对最近的进展,提出“现在已经有足够的图书馆关联数据,可以审视使用模式,看是否有可以努力的新兴最佳实践”。并指出如下几点,认为尤其值得关注:[5]

What vocabularies are being used, and is there emerging consensus about which to use? 什么词表在被使用,有没有共识?
What licenses (if any) are associated with the data? 这些数据用什么许可(如果有的话)?
How much linking and interlinking is going on? 有多少链接及互链?
What sorts of mechanisms does the publisher offer for getting the data: sitemap, feeds, SPARQL, bulk download? 发布者提供什么机制来获取这些数据:网站地图、(RSS)种子、SPARQL、批量下载?
What is the quality of the data: granularity, link integrity, vocabulary usage. 数据质量如何:粒度、关联完整性、词表使用?
What approaches to identifiers for “real world things” have publishers taken: hash, slash, 303, PURLs, reuse of traditional identifiers, etc. 发布者采用什么方法给“真实世界物品”指定标识符:哈希表、斜杠(?)、(HTTP) 303、PURL、传统标识符重用等。
What are the relative sizes of the pools of library linked data? 整个图书馆关联数据相对规模有多大?
How are updates being managed? 如何管理更新?

注:
[1] Martin Malmsten: Swedish union catalogue available as Linked Data. GMANE, 2008-08-21.
http://article.gmane.org/gmane.culture.libraries.ngc4lib/4617
[2] Thom Hickey: VIAF as linked data. Outgoing, September 25, 2009.
http://outgoing.typepad.com/outgoing/2009/09/viaf-as-linked-data.html
[3] Hungarian National Library published its entire OPAC and Digital Library as Linked Data
http://lists.w3.org/Archives/Public/public-lod/2010Apr/0155.html
[4] Adrian Pohl: Linked Open Data prototype at the German National Library. NGC4LIB, 16 Apr 2010.
https://listserv.nd.edu/cgi-bin/wa?A2=ind1004&L=NGC4LIB&T=0&F=&S=&P=31709
[5] Ed Summers: research ideas for library linked data. INKDROID, April 18, 2010.
http://inkdroid.org/journal/2010/04/18/research-ideas-for-library-linked-data/

OCLC关于MARC的最新报告

Implications of MARC Tag Usage on Library Metadata Practices / Karen Smith-Yoshimura … Dublin, Ohio : OCLC, March 2010. 72 p. ISBN: 1-55653-378-0 (978-1-55653-378-5)
PDF下载 (778KB):http://www.oclc.org/research/publications/library/2010/2010-06.pdf

OCLC近年大量发布研究报告,才3月中旬,关于MARC的这份报告编号已是2010-06。
本报告是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由RLG Partnership MARC Tag Usage Working Group在2008-2009年研究完成。2009年9月OCLC曾发布报告《联机目录:用户和馆员需要什么》,本报告是其延续。与其他OCLC报告不同的是,本报告由五个独立论题组成,每个论题由不同人撰写。[以下方括号中为本人观点]

1. Requirements for Enhanced Library Data Mining
OCLC首席科学家研究部Timothy J. Dickey撰写的报告引论,强调需要强化图书馆数据挖掘。[这也是OCLC近年来一直在做的事]

2. MARC Tag Usage in WorldCat
OCLC研究部的Karen Smith-Yoshimura分析2009年9月时,WorldCat数据库中1.45亿条书目记录中MARC 21字段的出现情况。[记得某大牛曾说过我很认同的话,不能根据现有记录中MARC使用情况,确定用户需要什么,决定未来用什么]

3. MARC Fields and Subfields Used in Machine Matching
剑桥大学的Hugh Taylor建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与合作编目计划(PCC)的BIBCO与CONSER标准、OCLC编目级别3(简编)记录规定的必备字段进行比较。[机器处理是未来的重点,不仅有大量载入或上传判重需要的联合目录需要关心]

4. Comparison of Search Interfaces and Data Elements
澳大利亚国家图书馆的Catherine Argus分析了五个集成数据库的MARC索引字段,包括AMICUS(加拿大全国联合目录)、COPAC、澳大利亚图书馆目录(Libraries Australia)、WorldCat.org及OCLC的FirstSearch。[传统的检索系统中不是所有MARC字段都做索引]

5. Encoding Level and Tag Occurrences in WorldCat
明尼苏达大学的Chew Chiat Naun按不同的编目等级,分析了WorldCat记录中的MARC字段。[简化编目?]

6. Relator Terms and Form/Genre Designations in MARC Tagging
OCLC研究部的Timothy J. Dickey与纽约公共图书馆(NYPL)的Peter Hirsch合作,比较了NYPL本地目录与WorldCat中形式/类别指示词(655$a)及责任关系词(1xx/7xx$e)的使用。[这两方面有助于目录实现FRBR化。责任关系词在MARC 21实践中曾被舍弃但现在又想重拾]

报告最前部分照例是Executive Summary,除介绍五个论题外,点出研究的主要发现[很多已经是老生常谈了]。列举部分如下:
WorldCat中只使用很小的MARC 21字段子集
即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段
在基于MARC数据元素对记录进行机器匹配时,大家各行其事
用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008,010,020,022),核心书目数据(1XX,245,246,250,260)。
尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性
不可低估使用MARC数据进行匹配算法的复杂性。[做过匹配的机构如CALIS对此肯定深有体会]
一般图书馆检索系统仅对字段的一个子集做索引
许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。[这是编目员的悲哀]
附注字段常用,但机器不一定擅长解释文本内容
大量使用通用附注500…其他附注字段5XX相对用得少。[机器无法识别是关于什么的附注。当要提高效率、简化编目时,不区分5XX、改入500是最常见的]
用编目等级作为依据选择“最完整”记录全然不可靠
[很多时候原始编目就用一个模板,编目员并不根据记录完整性更改头标]
目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息
许多系统不能提供用户的检索字段,以及结果是否满足其提问。[命中情况,命中后点击详细记录情况,最终借阅情况?]

Executive Summary的第二部分:对图书馆MARC元数据实践的意义。对目前的编目实践有指导意义,摘录部分如下:
√ 满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?[人人都明白,但…]
√ 未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。
√ 使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。[目前CNMARC在实践中做得比较好,MARC 21由于LC的示范作用未能践行]
√ MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。[参看前述机器匹配字段,未来机器利用数据是重点]

Executive Summary的第三部分:MARC’s Future? 2009年末与Nalsi合写了一篇MARC未来的文章(预计将于3月刊出),因而对此特别关注。本报告或者说工作组的观点已由标题中的那个问号显示,但未来仍不明朗:
√ MARC是特定领域的数据通讯格式,正接近其生命周期的终点。
[此句经典,值得原文抄录:MARC is a niche data communication format approaching the end of its life cycle.]
√ 未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。
√ 未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。
√ 自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?
√ 考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。
√ 与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

参见:
新闻报道:New Report, “Implications of MARC Tag Usage on Library Metadata Practices” (2010-3-12)
工作组活动主页:OCLC Research activity: Gather Evidence to Inform Changes Needed in MARC Metadata Practices

参见:OCLC报告——联机目录:用户和馆员需要什么 (2009-04-25)

update 2010-05-14
OCLC网络会议主页(Webinar)有3月17日关于此报告的网络会议音频及文字记录,报告的几位撰写者与会。

关联数据:官方版与山寨版(DDC和LCSH)

    关联数据(Linked Data)现在很火,似乎超出了其上位类语义网(Semantic Web)。在图书馆界,即将召开的DC-2009年会以”关联数据的语义互操作”为主题(数图研究笔记:DC-2009征文通知),而结束不久的ALA2009年会的“草根分会场”有一个“关联数据”主题场(数图研究笔记:ALA2009 Linked Data Session)。
    书目数据(含FRBR)、规范数据(词表、人名)等纷纷搭上关联数据。如:“瑞典联合目录”采用语义Web的最新技术——关联数据Linked Data的架构,开放其200多个成员馆超过650万条书目记录,以及20万条规范档(数图研究笔记:2008图林十大技术进展(上));OCLC的首席科学家Thom Hickey四月在博客上宣布,虚拟国际规范档(VIAF)不久也将提供关联数据(Changes to VIAF,参见:虚拟国际规范档XML格式

    尽管远洋过客、Keven、雨僧、Debra等做了很多普及和提高的工作,自己至今对关联数据还是没有什么感觉,连一知半解都谈不上。不过呢,还是要关注──最新消息是《杜威十进分类法》(DDC)也开始变身关联数据──dewey.info(Catalogablog: Dewey Classification as Linked Data)。现在有9种语言,包括中文。
    只是OCLC一如继往地小气,对DDC尤其如此,目前只开放了三级类号。官方介绍措辞也比较谨慎,只说是”Dewey Summaries as Linked Data“。
    早在四月,Bibliographic Wilderness就介绍过一个来历不明的DDC关联数据(DDC linked data?),并打赌这东西过多久会被OCLC叫停。刚又去看了一下这个山寨数据,网站后缀是是西班牙的(http://ontologi.es/decimalised/),数据很巧合地在8月20日做过更新,而OCLC的官方介绍页最后更新日期是8月19日。

    图书馆界最早大规模应用关联数据的实例,不知道是不是已成过去完成式的lcsh.infolcsh.info域名由美国国会图书馆(LC)的Ed Summers在2008年3月注册,采用SKOS把全部《美国国会图书馆标题表》(LCSH)变身为语义网应用(详见DC2008论文”LCSH, SKOS and Linked Data“),但在2008年底该服务被LC要求关闭,因为LC要做官方版的。
    官方版迟迟不见上线,英国TALIS公司把原lcsh.info的全部内容搬到了http://lcsubjects.org/,又做了个山寨版的。今年五月初,LC的正版LCSH关联数据终于上线(http://id.loc.gov/),并建立了官方讨论组:Authorities and Vocabularies Service Discussion List

[update 2009-9-20: 早在2007年,德国布劳恩斯魏克大学图书馆的B. Eversberg就根据书目数据库做了“浏览LCSH”系统(LCSH Browser)id.loc.gov上线后仍继续更新,因为后者只能搜索、没有浏览功能。参见:Web化DDC·浏览LCSH (2007-11-10)]

关于Linked Data,参见:
维基百科词条:Linked Data
译言:怒放的关联数据:你为什么应该关注?
(ReadWriteWeb原文:Linked Data is Blooming: Why You Should Care
数图研究笔记的Linked Data标签或关联数据标签(如:关联数据FAQ


关联的数据 (Linked Data)–1. Linked Open Data (LOD) 关联的数据 (Linked Data)–2. 关联的图书馆数据Linked Library Data

LCSH的SKOS应用,参见:
雨僧Library 2 Review:山寨了一次LCSH(用了国会图书馆的Authorities
and
Vocabularies服务来向学生们介绍概念之间的关系,检索一个词,然后以图形动画的方式显示出来,非常直观──此文不知何故被删除)
雨僧Library 2 Review:玩死她!(解析美国国会主题词表RDF文件的测试)
秋聲 Blog:LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)


语义网及关联数据的图书馆应用,参见:
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(上)
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(下)
秋聲 Blog:編目朝向語意網邁進(一)
秋聲 Blog:編目朝向語意網邁進(二)