错误的LC规范记录

    昨天在看书目记录,发现一个丛编名有点问题。便去查了LCOhioLINK,二者的做法很有些不同,不免有些奇怪。再一查LC的规范库,却发现原来一个丛编在LC做了两条相互之间没有关联的规范记录。
    LC虽说是权威,但其记录质量早已大不如前。这回涉及规范记录问题,那是必须更正的!于是搜集好相关信息,找到网上报告错误的表单,将情况加以说明后提交了出去。
    发送成功后的信息显示,由于收到邮件量大,平均回应时间为5个工作日。当时还想着不知本周能否回复,没想到今天就收到了回应,错误的规范记录已被删除。再去规范库与书目库看,相应的地方都已得到处理。
    处理问题的工作效率真是很高。但回复的随意却也让人感慨,开头没有称呼,全部正文仅3或4个词:I’ve deleted …(省略处为规范记录号)。连一句客套话、一个客套用语都没有,真是令人诧异!难道没有一个格式化的回复?
    不知道假如我去咨询一个问题(同一页面有咨询表单链接),会以何种形式答复?

 

英国汉语图书联合目录

新发现一个国外的汉语文献联合目录,可以提供各字段的汉字(GB码)与汉语拼音输入检索。
1999开始的”英国汉语研究资料数据库”项目,于2000年建成提供服务,更名为”英国汉语图书联合目录”(UK UNION CATALOGUE OF CHINESE BOOKS)。参与机构为英国收藏汉语文献的主要图书馆,包括大英图书馆及6所大学图书馆:牛津大学、剑桥大学、伦敦大学亚非学院,利兹大学Brotherton图书馆,爱丁堡大学和达拉谟大学。
据2004年8月统计,联合目录现有277,122条记录,去重后为227,545条,除剑桥有部分数据尚未转换成汉字外,其他均以汉字著录。
该目录以文革后各领域的汉语学术文献为主,对英国或欧洲的汉学研究当不无益处。

又:由于汉字分词难题的存在,一般检索系统不处理分词问题,因而关键词检索总不免出现”噪音”。有意思的是,该目录在”帮助”中提供了二个常见检索例子,以提高检准率:
避免查”华人”时出现”中华人民”,用”华人”-“中华”
避免查”国文”时出现”中国文学”,用”国文”-“中国”

 

 

都柏林核心走向死亡?

      上月中旬,DC-2004在上海图书馆召开,会议主题是”跨语言与文化的元数据”,会议发表的报告内容已经不限于都柏林核心元数据,而是广义的元数据了。今天又在Library Hi Tech News最新一期的目次上,见到一文题为:Dublin Core: An Obituary(都柏林核心讣告),真有点语不惊人势不休的意味。文章批评DC元数据缺乏专指性、没有标准的数据元素、互操作性差,进而断言DC将很快被”元数据对象描述框架”(MODS)所取代。

      实际上,从1995年的DC-1开始,DC发展至今已有近10年,从崇尚简洁一路走来,在语法上先是增加修饰词、后又允许自定义修饰词、进而允许自定义新元素,在语义上引入各种规范、还推荐自建词表,与简洁的初衷渐行渐远,其复杂程度已不下于MARC。与MARC相比,DC有不依赖特制程序阅读的优点,只是本来网络上采用DC的网页就不多,当搜索引擎不利用元数据建立其索引之后,其优点就不再突出了――毕竟元数据主要不是让”人”来阅读的,实际上还是要编制特定程序加以处理,与MARC的可读性相去并不太远。

 

    反观MARC,经过多年发展,已形成不同载体文献一体化格式,并有著录规则(如AARC2、ISBD等)、名称规范库、主题词表等相配套。MARC对普通人的障碍一是其定义的字段、子字段代号不直观,非专业人士无从理解其意;二是其2709格式无法阅读。这二点通过应用程序的转换,在图书馆联机公共目录显示格式中其实已经得到解决。 对图书馆界来说,与其开发、维护一个新的元数据,还不如改造已经成熟的MARC。

    美国国会图书馆的“元数据对象描述框架”MODS就是直接利用MARC的一个范例。MODS包含MARC 21的一个子集,以英语单词或短语代替MARC的字段和子字段,提供HTML/XML格式。从2002年6月公告试用1.2版以来,到2003年底已经发展到了3.0版。在2年多的发展中,已被一些数字图书馆项目建设所采用。或许真是元数据的明日之星?

    国内最关注DC的机构当属上海图书馆,在他们的主页上即有DC元数据中文网,收录了有关DC的各种有价值的内容。同时,他们也关注其他元数据的发展。MODS公开不久,他们的”数字图书馆研究资源门户”中就加入了其资源描述。同时,他们制定的多个元数据方案,都参考了MODS的标准。