台湾的X-MARC格式:关于广域书目系统

今日循书蠹精介绍,下载今年IFLA年会编目会场上的报告,看到了来自台湾的“融合處理多元媒體的書目系統”,即所谓的“廣域書目管理系統”。文中较为详细介绍了台湾的国家图书馆使用MARC21的情况,此消息最早于去年底在秋声博客上看到,当时没有具体信息。

记得大概十多年前,曾听陈昭珍教授讲起台湾中央图书馆,各部门为了突现自己在计算机时代的重要性,分别建立自己的专题目录系统。现在所面临的,正是这些系统的整合。比较有意思的是,最终以MARC21为基础而非其他格式进行整合。这也从某种程度上说明足够细粒度的元数据标准之缺失,以及LC开发新标准的迫切性。

该馆共有五种类型的系统,即馆藏目录、联合目录、文献资讯、专题目录和人物资讯。
整合检索方面,该馆曾经的工作:
2004年,,建置分散式整合查詢介面的「華文知識入口網」(跨库检索)
2007年,建置集中式整合查詢介面的「ISSR 系統」,透過OAI 機制收集各個系統資料建立了集中式資料庫,未涵蓋所有系統及訂購的電子資源
2010年,广域书目管理系统,计划列入该馆的58个数据库,已完成一期
上述过程,很像从联邦检索到发现平台,与采用什么格式无关,把各类元数据放到一个平台中,“比對、去重、整併、升級”──从文中介绍,真是一项很宏大的工程。

所采用的是扩充的MARC21格式,被称为X-MARC:
1) 以MARC21为基础,扩充没有的CMARC字段,以及其他元数据无法对应的字段,以求完整保留原始记录中的所有内容──能够实现双向转换,而不是导入了之。
3) 字段名采用4位数字以扩充字段:
1000 ~ 1999:系统控制相关资料使用段
2000 ~ 2999:各数据库独立使用,及保存未決定如何处理字段
3000 ~ 3999:扩增共同使用段(MARC21原有9xx字段)
4000 ~ 4999:兼容CMARC特有资料使用段
4) 对在比对重复、融合过程中不显示于查询结果的字段,给“负值”。即相同内容无需重复显示给用户,但保留给馆员维护──意在双向转换吧。

对于做如此精细化处理的理由,文中先引用了Yee的文章:「結構化及精細化程度較低的資料編製較簡易且成本低,而且這樣的模式較容易成為跨社群採用的標準,但卻可能因此限制其在索引及顯示的發展程度」。随后指出:“從多年處理及應用聯合目錄資料的經驗中,體認到資料在建置之初若欠缺精細且結構化著錄,對資料後續的篩選、分析、加值或再利用將有諸多限制。基於「由簡入繁難,由繁入簡易」的認知,再加上融合多樣資料的前提下,大書目庫的紀錄以力求精細及結構化為原則,而且在有限的資源下,僅將這種原則套用於建立關聯資訊基礎的元素上。”

一直觉得图书馆目录的问题不是描述太精细,而是很多花力气做出来的精细内容并未得到很好利用。如果放弃原来的精细数据,换以粗放的格式,必然影响未来对数据的挖掘。在还没有很好的挖掘应用的情况下,保留原来的元数据标记,是稳妥的做法。

文章最后称此“广域书目管理系统”由前任馆长顾敏启动,想起他的那本新书《广域书目系统学》。用“广域书目系统”,可以Google到更多相关信息。

虽然用的都是中文,但两岸在术语与表述上都有较大差别,自己也不在状态,看起来相当吃力。以上对部分内容进行了转写。

———-相关链接———-
IFLA第77届年会第80分会场报告:Cataloguing: breaking barriers
融合處理多元媒體的書目系統:突破當前圖書館編目與服務困境所採行的創新作法 / 嚴鼎忠, 許靜芬(PDF下载

书蠹精:2011年波多黎各国际图联大会编目相关论文中文翻译版介绍 (2011-11-06)

秋聲Blog: 國圖將改用MARC21(有墙)
见书蠹精全文转载:很震惊的消息:“國圖將改用MARC21” (2010-12-06)