英国汉语图书联合目录

新发现一个国外的汉语文献联合目录,可以提供各字段的汉字(GB码)与汉语拼音输入检索。
1999开始的”英国汉语研究资料数据库”项目,于2000年建成提供服务,更名为”英国汉语图书联合目录”(UK UNION CATALOGUE OF CHINESE BOOKS)。参与机构为英国收藏汉语文献的主要图书馆,包括大英图书馆及6所大学图书馆:牛津大学、剑桥大学、伦敦大学亚非学院,利兹大学Brotherton图书馆,爱丁堡大学和达拉谟大学。
据2004年8月统计,联合目录现有277,122条记录,去重后为227,545条,除剑桥有部分数据尚未转换成汉字外,其他均以汉字著录。
该目录以文革后各领域的汉语学术文献为主,对英国或欧洲的汉学研究当不无益处。

又:由于汉字分词难题的存在,一般检索系统不处理分词问题,因而关键词检索总不免出现”噪音”。有意思的是,该目录在”帮助”中提供了二个常见检索例子,以提高检准率:
避免查”华人”时出现”中华人民”,用”华人”-“中华”
避免查”国文”时出现”中国文学”,用”国文”-“中国”

 

 

都柏林核心走向死亡?

      上月中旬,DC-2004在上海图书馆召开,会议主题是”跨语言与文化的元数据”,会议发表的报告内容已经不限于都柏林核心元数据,而是广义的元数据了。今天又在Library Hi Tech News最新一期的目次上,见到一文题为:Dublin Core: An Obituary(都柏林核心讣告),真有点语不惊人势不休的意味。文章批评DC元数据缺乏专指性、没有标准的数据元素、互操作性差,进而断言DC将很快被”元数据对象描述框架”(MODS)所取代。

      实际上,从1995年的DC-1开始,DC发展至今已有近10年,从崇尚简洁一路走来,在语法上先是增加修饰词、后又允许自定义修饰词、进而允许自定义新元素,在语义上引入各种规范、还推荐自建词表,与简洁的初衷渐行渐远,其复杂程度已不下于MARC。与MARC相比,DC有不依赖特制程序阅读的优点,只是本来网络上采用DC的网页就不多,当搜索引擎不利用元数据建立其索引之后,其优点就不再突出了――毕竟元数据主要不是让”人”来阅读的,实际上还是要编制特定程序加以处理,与MARC的可读性相去并不太远。

 

    反观MARC,经过多年发展,已形成不同载体文献一体化格式,并有著录规则(如AARC2、ISBD等)、名称规范库、主题词表等相配套。MARC对普通人的障碍一是其定义的字段、子字段代号不直观,非专业人士无从理解其意;二是其2709格式无法阅读。这二点通过应用程序的转换,在图书馆联机公共目录显示格式中其实已经得到解决。 对图书馆界来说,与其开发、维护一个新的元数据,还不如改造已经成熟的MARC。

    美国国会图书馆的“元数据对象描述框架”MODS就是直接利用MARC的一个范例。MODS包含MARC 21的一个子集,以英语单词或短语代替MARC的字段和子字段,提供HTML/XML格式。从2002年6月公告试用1.2版以来,到2003年底已经发展到了3.0版。在2年多的发展中,已被一些数字图书馆项目建设所采用。或许真是元数据的明日之星?

    国内最关注DC的机构当属上海图书馆,在他们的主页上即有DC元数据中文网,收录了有关DC的各种有价值的内容。同时,他们也关注其他元数据的发展。MODS公开不久,他们的”数字图书馆研究资源门户”中就加入了其资源描述。同时,他们制定的多个元数据方案,都参考了MODS的标准。

 

Z39.50服务器信息

      现在有Z39.50检索功能的图书馆自动化系统越来越多了,大都预设了部分Z39.50服务器,编目套录轻松不少。只是使用中常会发现预设的服务器太少,仍有相当部分MARC记录无法套录到。常有同仁问及有关Z39.50服务器的信息,故在此与大家共享。

      在客户端或本地编目系统中设置Z39.50服务器时,需要提供服务器网址、端口号及数据库名称3项基本信息。一般选择可匿名访问或有公共访问口令的服务器;如服务器要求提供认证而又无合法口令和密码,则无法使用(有的服务器还兼有IP地址限定)。

      中编方面比较无奈,除了参加某些联合目录,可以通过其Z39.50服务器套录到详编记录外,基本上通过Z39.50服务器只能看到简编记录,还需自己加上分类、主题等。丹诚公司曾提供过一阵子免费的详编记录,现在似乎也停止了。不过,如果想少打些汉字,还是可以套录一些简编数据的。无需认证的二大联合目录信息如下(网址/端口/数据库):
国家图书馆联合目录:202.96.31.29 / 2100 / uacn_bib
上海图书馆联合目录:218.1.116.77 / 2100 / uacn_bib
(顺便提一下,如果是用CNMARC著录西文文献的话,上图目录还是很好的西文记录来源)

 

      西编方面就比较幸运,因为国外免费的Z39.50服务器很多,当然使用的前提是网络连接有国际出口。正因为数据来源多,所以需要作一番筛选,数据质量、覆盖率、连接速度等都是考虑因素。各国出版物一般都由国家图书馆收藏,且国家图书馆书目数据质量较高,所以各国的国家图书馆是检索该国文献的首选地。对于一些非正式出版物,或者教材之类,则以大型联合目录或收藏丰富的高校图书馆为佳。本人常用的英语数据来源是:
√美国:
国会图书馆:z3950.loc.gov / 7090 / Voyager
OhioLINK:olc1.ohiolink.edu / 210 / INNOPAC (注意网址的olc1末位是数字1)
国家医学图书馆:tegument.nlm.nih.gov / 7090 / Voyager
√英国:
牛津大学图书馆:library.ox.ac.uk / 210 / ADVANCE
(不列颠图书馆的Z39.50服务器不提供MARC格式)
√澳大利亚:
澳大利亚国家图书馆:catalogue.nla.gov.au / 7090 / Voyager
澳大利亚国立大学图书馆:library.anu.edu.au / 210 / INNOPAC

      关于小语种。德国国家图书馆与不列颠图书馆一样,其Z39.50服务器不提供MARC格式。法国国家图书馆情况不详,其计划似乎是采用UNIMARC。下面提供一个”数据源之源”,需要小语种文献记录的同仁可自力更生,花些功夫试验那些数据源的优劣――很辛苦的,如有收获,别忘了广而告之:
      丹麦Index Data公司搜集的“Z39.50服务器名录”该名录包含世界各地的Z39.50服务器,其”Z39.50服务器统计表”,有数据库名称、地址、端口等信息。特别注意”记录语法”,如果不是MARC格式,则一般无法通过编目用的Z39.50客户端查看、下载。需要认证(有钥匙标记)时,可到相应图书馆网站,看是否提供免费的访问口令。
      目前该网也提供所列数据库的检索,对于非MARC格式,可以通过检索,参考有关书目著录信息(如主题等)。

      注:如果本地系统没有Z39.50检索功能,也可以使用丹诚公司的zTrans通用Z39.50前端软件,套录记录后然后转入本地系统。现在丹诚公司的网站上已经无法下载该软件,但广东省文献编目中心还有。如有需要,趁早点击本链接下载,说不定哪天这个链接也无效了。

说明:2004/11/16增加了美国的国家医学图书馆,医学类图书最为丰富。