OCLC关于MARC的最新报告

Implications of MARC Tag Usage on Library Metadata Practices / Karen Smith-Yoshimura … Dublin, Ohio : OCLC, March 2010. 72 p. ISBN: 1-55653-378-0 (978-1-55653-378-5)
PDF下载 (778KB):http://www.oclc.org/research/publications/library/2010/2010-06.pdf

OCLC近年大量发布研究报告,才3月中旬,关于MARC的这份报告编号已是2010-06。
本报告是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由RLG Partnership MARC Tag Usage Working Group在2008-2009年研究完成。2009年9月OCLC曾发布报告《联机目录:用户和馆员需要什么》,本报告是其延续。与其他OCLC报告不同的是,本报告由五个独立论题组成,每个论题由不同人撰写。[以下方括号中为本人观点]

1. Requirements for Enhanced Library Data Mining
OCLC首席科学家研究部Timothy J. Dickey撰写的报告引论,强调需要强化图书馆数据挖掘。[这也是OCLC近年来一直在做的事]

2. MARC Tag Usage in WorldCat
OCLC研究部的Karen Smith-Yoshimura分析2009年9月时,WorldCat数据库中1.45亿条书目记录中MARC 21字段的出现情况。[记得某大牛曾说过我很认同的话,不能根据现有记录中MARC使用情况,确定用户需要什么,决定未来用什么]

3. MARC Fields and Subfields Used in Machine Matching
剑桥大学的Hugh Taylor建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与合作编目计划(PCC)的BIBCO与CONSER标准、OCLC编目级别3(简编)记录规定的必备字段进行比较。[机器处理是未来的重点,不仅有大量载入或上传判重需要的联合目录需要关心]

4. Comparison of Search Interfaces and Data Elements
澳大利亚国家图书馆的Catherine Argus分析了五个集成数据库的MARC索引字段,包括AMICUS(加拿大全国联合目录)、COPAC、澳大利亚图书馆目录(Libraries Australia)、WorldCat.org及OCLC的FirstSearch。[传统的检索系统中不是所有MARC字段都做索引]

5. Encoding Level and Tag Occurrences in WorldCat
明尼苏达大学的Chew Chiat Naun按不同的编目等级,分析了WorldCat记录中的MARC字段。[简化编目?]

6. Relator Terms and Form/Genre Designations in MARC Tagging
OCLC研究部的Timothy J. Dickey与纽约公共图书馆(NYPL)的Peter Hirsch合作,比较了NYPL本地目录与WorldCat中形式/类别指示词(655$a)及责任关系词(1xx/7xx$e)的使用。[这两方面有助于目录实现FRBR化。责任关系词在MARC 21实践中曾被舍弃但现在又想重拾]

报告最前部分照例是Executive Summary,除介绍五个论题外,点出研究的主要发现[很多已经是老生常谈了]。列举部分如下:
WorldCat中只使用很小的MARC 21字段子集
即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段
在基于MARC数据元素对记录进行机器匹配时,大家各行其事
用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008,010,020,022),核心书目数据(1XX,245,246,250,260)。
尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性
不可低估使用MARC数据进行匹配算法的复杂性。[做过匹配的机构如CALIS对此肯定深有体会]
一般图书馆检索系统仅对字段的一个子集做索引
许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。[这是编目员的悲哀]
附注字段常用,但机器不一定擅长解释文本内容
大量使用通用附注500…其他附注字段5XX相对用得少。[机器无法识别是关于什么的附注。当要提高效率、简化编目时,不区分5XX、改入500是最常见的]
用编目等级作为依据选择“最完整”记录全然不可靠
[很多时候原始编目就用一个模板,编目员并不根据记录完整性更改头标]
目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息
许多系统不能提供用户的检索字段,以及结果是否满足其提问。[命中情况,命中后点击详细记录情况,最终借阅情况?]

Executive Summary的第二部分:对图书馆MARC元数据实践的意义。对目前的编目实践有指导意义,摘录部分如下:
√ 满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?[人人都明白,但…]
√ 未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。
√ 使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。[目前CNMARC在实践中做得比较好,MARC 21由于LC的示范作用未能践行]
√ MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。[参看前述机器匹配字段,未来机器利用数据是重点]

Executive Summary的第三部分:MARC’s Future? 2009年末与Nalsi合写了一篇MARC未来的文章(预计将于3月刊出),因而对此特别关注。本报告或者说工作组的观点已由标题中的那个问号显示,但未来仍不明朗:
√ MARC是特定领域的数据通讯格式,正接近其生命周期的终点。
[此句经典,值得原文抄录:MARC is a niche data communication format approaching the end of its life cycle.]
√ 未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。
√ 未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。
√ 自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?
√ 考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。
√ 与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

参见:
新闻报道:New Report, “Implications of MARC Tag Usage on Library Metadata Practices” (2010-3-12)
工作组活动主页:OCLC Research activity: Gather Evidence to Inform Changes Needed in MARC Metadata Practices

参见:OCLC报告——联机目录:用户和馆员需要什么 (2009-04-25)

update 2010-05-14
OCLC网络会议主页(Webinar)有3月17日关于此报告的网络会议音频及文字记录,报告的几位撰写者与会。

Koha中文展示网站及开机光盘下载

Koha是一个开源图书馆管理系统,在图书馆采用的开源ILS中占有很大比例。自2005年以来,台湾辅仁大学毛庆祯老师一直致力于推动Koha中文(繁体)的发展,Koha Taiwan较早的网站是Google Code上的“Koha中文化计划”,上面有Koha 2.2.9下载(2008年3月),现在主要的讨论与信息发布在Google网上论坛的“Koha台湾”。[update: Koha的最新资料参见:Koha 圖書館自動化系統]
“Koha台湾”为公共论坛,目前可通过https访问,或者用RSS阅读器订阅RSS Feed。加入论坛后,可及时收到邮件,并参与讨论。
最近论坛上发布了几个好消息:
1、中文展示網站(2010-2-26)
龙山架设的中文展示网站:http://ls.koha-tw.org/
这个展示网站不只供浏览,还可以导入书目、馆藏、读者记录(虚拟的),实际试验Koha的各种功能。发邮件申请帐号。
目前还没有什么数据,只能从“标签云”和“主题云”看几条试验数据。我申请的帐号也未能成功登录,尚未体验。可继续关注。[update: 已成功登录,体验中……部分截屏附下]
综合一下,目前有3种光盘,用此开启电脑(Ubuntu系统)即可进入Koha系统,有意探索着可下载后烧制光盘使用:
(1)mizstik 做的 Koha Live CD 第四版:
Release 4: Koha 3.0.5 Ubuntu 9.10 (x86)
使用 Zebra! 免设定。下载:
http://sourceforge.net/projects/kohalivecd/files/
(2)Ubuntu LiveCD with minimal Gnome-Desktop, pre-configured
1) DSpace,
2) PKP OAI Harvester,
3) Koha Library Management Software and
4) dbwiz (A federated search engine for online journals/databases, OPACs and DSpace repositories)
含DSpace、PKP OAI收割、Koha及dbwiz联邦搜索引擎。下载:
http://sourceforge.net/projects/liblivecd/
(3)台湾国家高速网路中心Thomas制作的中文介面光盘 LiveKoha。下载:
http://trac.koha-tw.org/wiki/LiveKoha
注:Koha功能可参见:Koha 2.2 简介(Paul POULAIN;繁体中文版,毛庆祯译)

葡萄牙语Z39.50服务器信息

去年12月在上外参加“全国外语院校图书馆联盟非通用语种图书编目研讨会”(我国非通用语种图书编目现状(及小语种Z39.50服务器信息),发言时鼓吹了一下Z39.50检索方式。会后一上外同仁问我要以前博文中提及的Z39.50服务器表,寒假中她把加班时测试的6个葡萄牙语Z39.50服务器信息发还给我。不过她似乎并非通过Z39.50方式,而是直接通过网页检索的,据说汇文有从网页转为MARC功能。
周末在家,把Z39.50服务器表又粗粗过了一遍,增加了6个葡萄牙语服务器(网址为IP或非.pt的)。不过我用ZTrans测试,只有3个有结果并能正确显示,感觉很不满意,看来数据太旧了。
于是上网找葡萄牙的Z39.50服务器,还真找到了,测试结果也不错。

ZZZ Servico de Pesquisa em Servidores Z39.50 Distribuidos

这是葡萄牙国家书目数据库(PORBASE: Base Nacional de Dados Bibliograficos)提供的葡萄牙Z39.50网关。如果从网页检索,也是个不错的入口,可以选择一次检索全部16个书目库。同时,它提供了这16个Z39.50服务器的信息,可配置到Z39.50客户端,直接套录MARC记录。
美中不足的是,大部分服务器是UNIMARC格式,包括信息量最为丰富的国家书目数据库PORBASE。如果要做西文套录,直接可用的只有2个与MARC21近似的UKMARC格式,测试时可访问的只有里斯本理工大学经济与管理学院的弗朗西斯·佩雷拉·德·莫拉图书馆。

附:葡萄牙语Z39.50服务器信息(推荐*)

说明:以下各Z39.50服务器信息显示顺序为:
名称 Nome
地址 Endereço
端口 Porto
数据库 Base de Dados
语法 Sintaxe(MARC格式)
(服务器不可用 Servidor Indisponível:2010-2-28网页检索出错,Z39.50自然也同样出错)
(Z39.50检索出错,2010-2-28用Ztrans检索出错)

* Biblioteca Francisco Pereira de Moura – Instituto Superior de Economia e Gestão da Universidade Técnica de Lisboa
弗朗西斯·佩雷拉·德·莫拉图书馆 – 里斯本理工大学经济与管理学院
193.136.163.70
210
INNOPAC
ukmarc

Biblioteca Municipal de Ponte de Lima
62.48.182.12
210
INNOPAC
unimarc

Biblioteca Municipal António Botto – Abrantes
213.13.161.67
210
INNOPAC
unimarc
(服务器不可用)

Biblioteca Municipal Manuel Teixeira Gomes – Portimão
212.55.138.210
210
INNOPAC
unimarc

Biblioteca Nacional de Portugal – Biblioteca Nacional Digital
葡萄牙国家图书馆 – 全国数字图书馆
z3950.porbase.org
21000
bnd
unimarc
(Z39.50检索出错)

Biblioteca Nacional de Portugal – Reservados
malvine.bn.pt
2100
Default
unimarc

Centro Científico e Cultural de Macau
澳门科学及文化中心
193.137.236.146
210
Macau
unimarc
(服务器不可用)

Fundação Calouste Gulbenkian – Biblioteca de Arte
Calouste Gulbenkian基金会 – 艺术图书馆
62.48.146.39
210
IBA
unimarc

Fundação Calouste Gulbenkian – Paris
Calouste Gulbenkian基金会 – 巴黎
217.167.201.202
210
ICCP
unimarc

* PORBASE – Base Nacional de Dados Bibliográficos
PORBASE – 国家书目数据库
porbase.bnportugal.pt
210
porbase
unimarc
(检索结果数量巨大)

Universidade Católica – Biblioteca João Paulo II
天主教大学 – 约翰保罗二世图书馆
hip.lisboa.ucp.pt
210
BUJP
unimarc
(Z39.50检索出错)

Universidade Católica – Centro Regional das Beiras
天主教大学 – Beiras地区中心
z3950.crb.ucp.pt
210
Default
unimarc

Universidade Católica – Centro Regional de Braga
天主教大学 – Braga地区中心
158.162.125.198
210
Default
unimarc
(服务器不可用)

Universidade de Aveiro – Biblioteca Central
阿威罗大学 – 中央图书馆
193.137.80.248
9909
BUA01
unimarc
(有命中记录,无法获取记录)

Universidade de Coimbra – Biblioteca Geral
科英布拉大学图书馆
scoweb.bg.uc.pt
210
libertas
ukmarc
(服务器不可用)

Universidade do Porto – Faculdade de Engenharia
波尔图大学 – 工学部
athena.fe.up.pt
9909
EUP01
unimarc
(服务器不可用)