无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

《无处不在的元数据》上有5条评论

  1. findbook说得在理。不管是2709格式还是XML格式,不过是一种交换格式而已。<br> <br>

  2. marc是完全可以用xml表达地,而且现在大家软件地交换格式多数以通用格式为主。至于代替不待替没关系,2种数据可以相互转换,我们只要采取一种通用格式展现给别人就ok,再说marc数据做出来又不是为了自己欣赏,还是为了方便读者大众检索浏览,你们说不是吗?<br> <br>

  3. 只在美国国会图书馆网站上看到过MARC格式的XML版,其中也有些实例,有点象平时编目时的格式。可见文中链接。还未听说图书馆集成系统使用此格式的。<br>由于2709格式太专门化,需要专门的软件才能识读,而XML格式在网络中相对流行,才猜测会被代替。<br>或许采用XML格式后,更有利于MARC的推广利用。<br> <br>

  4. 能不能描述一下xml到底是怎么替换2709格式的?<br>现在那些图书馆系统支持xml?多谢<br> <br>

  5. MARC不过是广大元数据家族中的“老字号”一员,各行各业都有自己的元数据标准和格式,MARC就是体现和适合图书馆的特色元数据集,不是那些不懂MARC,没玩过编目的图书馆自己人说淘汰就能淘汰了的。说DC简单,其实它不过是个最简洁公共框架,根本不能和MARC相比,不能直接用来做复杂事物的精确描述。当别的行业在创造自己的元数据时,我们图书馆一些人却在叫嚣消灭MARC,觉得人家的就好,拼命的研究,这实在是件可悲的事情。
    博主 对 自由风 的回复: 2008-09-16 07:46:46
    MARC需要改进,而不是被取代。

评论已关闭。