无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

编目的简化与强化

    在不同时代,编目工作时而强调简化,时而强调强化,但从来没象现在这样,简化与强化两种趋势交织在一起。一方面,MARC格式的核心级之类的简化记录广泛应用,很多著录内容都可以省略,比如一些代码字段、附注字段。与此同时,有助读者使用的著录内容却在增加,比如目次、内容提要。有那么一点回归中国古典目录学”指点学术门径”的意思。
    例子之一是近几年,美国国会图书馆LC的不少书目记录提供一至三条856字段,分别链接图书的目次、出版者对图书的描述和作者信息等。这就是LC的书目强化咨询组LC Bibliographic Enrichment Advisory Team (BEAT)所从事的强化书目计划。LC凭借其国家图书馆的地位,与出版者等合作,由出版者向其提供相关信息,存于LC的网站。近年来已有6万多条书目记录提供了上述信息的链接,而目次链接的累积点击率也高达360万次。
    有目次信息链接自然好,然而,如果在看到书目信息的同时就看到目次,而无需点击链接岂不更好?2月1日起,BEAT计划开始机器生成目次工作,将原由856链接的目次信息转到505字段,进一步强化书目记录。机器生成的505字段格式如下:

505 8# $aMachine-generated contents note: PREFACE 1. Probability — 1.1 Introduction 1 — 1.2 Algebra of Sets 2 — 1.3 Properties of Functions 5 …

 

    505字段不显示附注导语,而显示统一的”Machine-generated contents note:”。由于目次由计算机将经扫描的页面自动转换而成(不作人工处理),故而还会显示章节的相应页码,与看实际的目次页基本差不多了。
    转换完成后,原链接到数字目次的856仍保留在记录中。这就是说,原来的链接还会继续有效。谢天谢地,我们原来套录下来的记录不用找出来逐条删除856――LC还是很为大家着想的。

 

书目记录深度揭示实例·得奖信息

    书目记录要详细到什么程度?现在有水准的编目员的兴趣大概已经不在对著录文献实体本身的描述上了,更希望提供与作品本身有关的其他信息。比如?
    手头有一个例子,CatalogABlog描述了作者在书目记录中用586字段著录作品得奖信息。为获取作品得奖信息,作者还找到了一个”获奖儿童文学作品数据库”Database of Award-Winning Children&aposs Literature (DAWCL)。
    不知道还有没有其他方面作品的获奖数据库?或书评库?

Update(2005/4/20): 感谢豆儿网友指出原文误将586写作856。

CatalogABlog主人David Bigwood 原文如下:I try to include awards information (Field 586) in the bibliographic records. A good place to track down awards is the Database of Award-Winning Children&aposs Literature (DAWCL).