无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

图书馆索引LibDex

图书馆索引(LibDex: The Library Index),收录18万世界各国各类图书馆信息,包括图书馆主页、国家/城市、图书馆类别、OPAC网址和图书馆系统名称等。通过国家浏览途径,看看我国的情况,仅收录20余所图书馆,就知道数据远谈不上丰富。如果想把自己图书馆的信息加进此索引,可以在线填一个表Add Your Library。因为数据不全,所以如果想了解某图书馆信息,或许直接用Google查更方便些。

LibDex的特色在于提供按图书馆计算机系统/公司(OPAC Vendor)浏览图书馆。由此途径,一可以了解目前世界上通用的图书馆管理系统都有哪些,这里列出有一百多种;二可以了解这些图书馆系统的市场占有情况、在非拉丁字母地区使用情况、适用的图书馆类型,试用一下OPAC的功能,作为引进系统时参考。虽然数据同样不会太全,但基本情况不会差得太远。比如可以分别看看国内引进较多的ALEPH (Ex Libris)、HorizonInnovative InterfacesSIRSI几个系统的情况。

参见:

图书馆员的因特网图书馆INTERNET LIBRARY FOR LIBRARIANS之图书馆自动化系统Library Automated Systems

[update 2016-4-12] libdex.com无法访问(域名自1999-11-16注册至今有效)

图书馆公司的“编目员参考架”

    曾经介绍过图书馆公司的ITS.MARC数据库,这家公司还有免费使用的”编目员参考架”Cataloger&aposs Reference Shelf,有不少具有参考价值的内容:

常用MARC 21格式
常用MARC 21代码表
其他参考手册
    存档动画资料编目手册(Archival Moving Image Materials: A Cataloging Manual)
    活页出版物描述性编目规则(Cataloging Rules for the Description of Looseleaf Publications)
    CONSER编目手册(CONSER Cataloging Manual)
    CONSER编辑指南(CONSER Editing Guide)
    珍本书描述性编目(Descriptive Cataloging of Rare Books)
    绘图资料著录规则(Graphic Materials – Rules for Describing Original Items and Historical Collections)
    LC分类法大纲(LC Classification Outline)
    LC克特表(LC Cutter Tables)
    LC条例解释(Library of Congress Rule Interpretations)
    LCSH结构原理与应用政策(LCSH: Principles of Structure and Policies for Application)
    地图编目手册(Map Cataloging Manual)
    NACO成员手册(NACO Participants&apos Manual)
主题编目手册(Subject Cataloging Manual)
    分类
    排架
    主题标引

说明:

1、”常用MARC 21格式”与”常用MARC 21代码表”另可参考LC权威的MARC标准网站。这里的”MARC 21格式”与之比较,少了实例,多了对各字段、子字段历史沿革的描述
2、”其他参考手册”部分的内容确实称得上丰富,多种载体文献的著录、分类、主题、规范等等,应有尽有。有些内容或许其它网站也有,如LC克特表LC分类法大纲,但综合在此参考起来比较方便。
    个人目前比较感兴趣的是别处难以见到的”LC条例解释”,是LC在使用实践中对AACR 2的解释,就是版本较旧。加拿大国家图书馆与档案馆有类似的AACR–Rule Interpretations,未做比对,不知美加两个国家图书馆具体应用AACR 2时有多大差异。
3、很期待、却仍在”建设中”的,是”主题编目手册:主题标引”。如果有网上版,用起来会方便不少。