中国分类主题词表Web版试用记

[update 2010-04-04: 标题原误作“中国汉语主题词表……”,现改]

月初时看书蠹精博文“国家图书馆召开2010年全馆员工大会”(2010-03-02),提到中文采编部的“《中国分类主题词表》Web版”项目获得了创新奖,发现自己对这个Web版一无所知,就去中图法编委会网站(http://clc.nlc.gov.cn/)找,链过去发现已经错过了试用期。[update 2010-04-04: 今天无意中发现,实际上在2009-06-03曾注册试用,不知为何既未在头脑中留下记忆,也未在本博留下记录?]

昨日未看到书蠹精新博文“《中国分类主题词表》Web版正式发布的通知”(2010-03-23)。今天由CALIS得知《中国分类主题词表》Web版(http://cct.nlc.gov.cn)再度试用,访问首页发现系统测试期已延长至2010年6月15日。先行试过的同事说网上注册用户只能看到若干级[update 2010-3-28: 据书蠹精博文“《中国分类主题词表》Web版正式发布后的反响”(2010-03-25),需等待批准后可有全功能],而注明国家图书馆网络用户的登录名nlcuser则是全功能的。用nlcuser登录后,在个人管理中看到该帐号有效期至2013-02-01,不知道6月15日后此登录名是否只限国图局域网访问。[update 2010-3-25: 现已提示“帐号仅限内部使用”]

使用的感觉与几年前用的光盘版几乎相同。左上部(设为A区)为分类主题对应表的树状浏览;右上部(设为B区)为主题分类对应表,可点击首字母浏览。点击某类号或某主题词,左下部(设为C区)为分类法类目详细信息,右下部(设为D区)为主题词等级显示,ABCD四区同步更新。
除浏览外,可选择分类或主题的各个部分,进行任意一致、完全一致、前方一致、后方一致的检索。
发现分类号与主题词均有“记录控制号”,似乎以前未在光盘版中见过。

在“个人管理”中有“OPAC管理”与“评注管理”。记得光盘版安装后是可以加评注的,但与OPAC关联却是首见,也可以说是Web版的亮点。
试着增加本馆OPAC,然后测试在分类号与主题词上按右键,直接检索,效果不错。但设置过程比较痛苦,因为帮助中没有详细说明,是反复试后悟出来的,可能有错:
一、系统根据“OPAC名称”中的“分类”或“主题”字样,在分类号或主题词上按右键时会弹出相应的目录。即在“OPAC名称”中必须有“分类”或“主题”,否则设置无效。
二、只有列入“首选OPAC”,才能在右键链接中出现。尽管可以把所有OPAC都加入“首选OPAC”,但右键可弹出的OPAC链接数量有限(试下来有时2个分类、3个主题,有时相反)。需要修改“排序号”,保证自己需要的OPAC能出现。新加入“首选OPAC”的均为0,自己最希望用的OPAC设为1比较保险(分类、主题可分别设1),3以下的基本不可能出现了(除非1、2没有)。
三、IE only,用Firefox及Chrome不支持右键菜单。
在增加本馆OPAC前后,看到北师大OPAC正好先于自己加入。所幸这位同仁没有像我这样折腾,要不然两人用同一个帐户改设置,恐怕永远试不出结果了。

在“个人管理”中可填写“下载数据库申请表”,经审查同意、签署协议后可获取数据。数据包括《中图法》与主题词表,数据格式有MARC、XML及“其他”可选,用途有“用于应用系统”、“用于再编表”、“用于研究试验”及“其他”可选。

最后指出一点瑕疵,“个人管理”页面下部显示:Copyright (c) 2008 Corporation,哪个公司做的?

OCLC关于MARC的最新报告

Implications of MARC Tag Usage on Library Metadata Practices / Karen Smith-Yoshimura … Dublin, Ohio : OCLC, March 2010. 72 p. ISBN: 1-55653-378-0 (978-1-55653-378-5)
PDF下载 (778KB):http://www.oclc.org/research/publications/library/2010/2010-06.pdf

OCLC近年大量发布研究报告,才3月中旬,关于MARC的这份报告编号已是2010-06。
本报告是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由RLG Partnership MARC Tag Usage Working Group在2008-2009年研究完成。2009年9月OCLC曾发布报告《联机目录:用户和馆员需要什么》,本报告是其延续。与其他OCLC报告不同的是,本报告由五个独立论题组成,每个论题由不同人撰写。[以下方括号中为本人观点]

1. Requirements for Enhanced Library Data Mining
OCLC首席科学家研究部Timothy J. Dickey撰写的报告引论,强调需要强化图书馆数据挖掘。[这也是OCLC近年来一直在做的事]

2. MARC Tag Usage in WorldCat
OCLC研究部的Karen Smith-Yoshimura分析2009年9月时,WorldCat数据库中1.45亿条书目记录中MARC 21字段的出现情况。[记得某大牛曾说过我很认同的话,不能根据现有记录中MARC使用情况,确定用户需要什么,决定未来用什么]

3. MARC Fields and Subfields Used in Machine Matching
剑桥大学的Hugh Taylor建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与合作编目计划(PCC)的BIBCO与CONSER标准、OCLC编目级别3(简编)记录规定的必备字段进行比较。[机器处理是未来的重点,不仅有大量载入或上传判重需要的联合目录需要关心]

4. Comparison of Search Interfaces and Data Elements
澳大利亚国家图书馆的Catherine Argus分析了五个集成数据库的MARC索引字段,包括AMICUS(加拿大全国联合目录)、COPAC、澳大利亚图书馆目录(Libraries Australia)、WorldCat.org及OCLC的FirstSearch。[传统的检索系统中不是所有MARC字段都做索引]

5. Encoding Level and Tag Occurrences in WorldCat
明尼苏达大学的Chew Chiat Naun按不同的编目等级,分析了WorldCat记录中的MARC字段。[简化编目?]

6. Relator Terms and Form/Genre Designations in MARC Tagging
OCLC研究部的Timothy J. Dickey与纽约公共图书馆(NYPL)的Peter Hirsch合作,比较了NYPL本地目录与WorldCat中形式/类别指示词(655$a)及责任关系词(1xx/7xx$e)的使用。[这两方面有助于目录实现FRBR化。责任关系词在MARC 21实践中曾被舍弃但现在又想重拾]

报告最前部分照例是Executive Summary,除介绍五个论题外,点出研究的主要发现[很多已经是老生常谈了]。列举部分如下:
WorldCat中只使用很小的MARC 21字段子集
即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段
在基于MARC数据元素对记录进行机器匹配时,大家各行其事
用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008,010,020,022),核心书目数据(1XX,245,246,250,260)。
尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性
不可低估使用MARC数据进行匹配算法的复杂性。[做过匹配的机构如CALIS对此肯定深有体会]
一般图书馆检索系统仅对字段的一个子集做索引
许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。[这是编目员的悲哀]
附注字段常用,但机器不一定擅长解释文本内容
大量使用通用附注500…其他附注字段5XX相对用得少。[机器无法识别是关于什么的附注。当要提高效率、简化编目时,不区分5XX、改入500是最常见的]
用编目等级作为依据选择“最完整”记录全然不可靠
[很多时候原始编目就用一个模板,编目员并不根据记录完整性更改头标]
目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息
许多系统不能提供用户的检索字段,以及结果是否满足其提问。[命中情况,命中后点击详细记录情况,最终借阅情况?]

Executive Summary的第二部分:对图书馆MARC元数据实践的意义。对目前的编目实践有指导意义,摘录部分如下:
√ 满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?[人人都明白,但…]
√ 未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。
√ 使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。[目前CNMARC在实践中做得比较好,MARC 21由于LC的示范作用未能践行]
√ MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。[参看前述机器匹配字段,未来机器利用数据是重点]

Executive Summary的第三部分:MARC’s Future? 2009年末与Nalsi合写了一篇MARC未来的文章(预计将于3月刊出),因而对此特别关注。本报告或者说工作组的观点已由标题中的那个问号显示,但未来仍不明朗:
√ MARC是特定领域的数据通讯格式,正接近其生命周期的终点。
[此句经典,值得原文抄录:MARC is a niche data communication format approaching the end of its life cycle.]
√ 未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。
√ 未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。
√ 自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?
√ 考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。
√ 与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

参见:
新闻报道:New Report, “Implications of MARC Tag Usage on Library Metadata Practices” (2010-3-12)
工作组活动主页:OCLC Research activity: Gather Evidence to Inform Changes Needed in MARC Metadata Practices

参见:OCLC报告——联机目录:用户和馆员需要什么 (2009-04-25)

update 2010-05-14
OCLC网络会议主页(Webinar)有3月17日关于此报告的网络会议音频及文字记录,报告的几位撰写者与会。

Koha中文展示网站及开机光盘下载

Koha是一个开源图书馆管理系统,在图书馆采用的开源ILS中占有很大比例。自2005年以来,台湾辅仁大学毛庆祯老师一直致力于推动Koha中文(繁体)的发展,Koha Taiwan较早的网站是Google Code上的“Koha中文化计划”,上面有Koha 2.2.9下载(2008年3月),现在主要的讨论与信息发布在Google网上论坛的“Koha台湾”。[update: Koha的最新资料参见:Koha 圖書館自動化系統]
“Koha台湾”为公共论坛,目前可通过https访问,或者用RSS阅读器订阅RSS Feed。加入论坛后,可及时收到邮件,并参与讨论。
最近论坛上发布了几个好消息:
1、中文展示網站(2010-2-26)
龙山架设的中文展示网站:http://ls.koha-tw.org/
这个展示网站不只供浏览,还可以导入书目、馆藏、读者记录(虚拟的),实际试验Koha的各种功能。发邮件申请帐号。
目前还没有什么数据,只能从“标签云”和“主题云”看几条试验数据。我申请的帐号也未能成功登录,尚未体验。可继续关注。[update: 已成功登录,体验中……部分截屏附下]
综合一下,目前有3种光盘,用此开启电脑(Ubuntu系统)即可进入Koha系统,有意探索着可下载后烧制光盘使用:
(1)mizstik 做的 Koha Live CD 第四版:
Release 4: Koha 3.0.5 Ubuntu 9.10 (x86)
使用 Zebra! 免设定。下载:
http://sourceforge.net/projects/kohalivecd/files/
(2)Ubuntu LiveCD with minimal Gnome-Desktop, pre-configured
1) DSpace,
2) PKP OAI Harvester,
3) Koha Library Management Software and
4) dbwiz (A federated search engine for online journals/databases, OPACs and DSpace repositories)
含DSpace、PKP OAI收割、Koha及dbwiz联邦搜索引擎。下载:
http://sourceforge.net/projects/liblivecd/
(3)台湾国家高速网路中心Thomas制作的中文介面光盘 LiveKoha。下载:
http://trac.koha-tw.org/wiki/LiveKoha
注:Koha功能可参见:Koha 2.2 简介(Paul POULAIN;繁体中文版,毛庆祯译)