无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

美国国会图书馆的“全球网关”与“世界门户”

    美国国会图书馆LC的网站,似乎是个挖不完的宝藏。经常用LC和编目有关的一些参考资源,如联机目录规范库MARC标准,还有更多的则参考其编目部主页(现正式名称为Bibliographic Access Divisions)。
    前些日子偶而发现LC有个”全球网关Global Gateway: World Culture & Resources,全面介绍LC与国际研究有关的服务并提供其馆藏,包括印刷资源、数字资源、影像资源以及网上资源。研究各国问题时,可作为重要的参考源。

    其中的”世界门户Portals to the World,是LC主题专家选择的关于世界200多个国家/地区的网上资源链接,可以作为全面了解一个国家/地区状况的入口。先依国家/地区名称顺序排列,其下再作二级分类。通用分类如中国有:经济、文化、教育、大使馆、地理与环境、政府/政治与法律、健康、历史、语言文学、图书馆/档案馆、媒体与传播、国家安全、组织机构、休闲与旅游、科技、搜索引擎。也有针对某些国家/地区的独特分类,如朝鲜虽然类别较少,但设置了”统一”类目。

 

    由于目标用户主要是美国人,故而收录网站的语言以英文为主。看中国下面收录的网站,主要了解外国人视野中的中国。”搜索引擎”中居然没有百度,不知道是不是应该向他们推荐

    数字资源部分包括LC与荷兰、俄罗斯、西班牙和巴西合作的项目,也包括著名的”美国记忆”中的几个专题。值得一提的是有中国的”纳西手稿馆藏”Selections from the Naxi Manuscript Collection,外行只能看个热闹――色彩鲜艳。

 

纽约公共图书馆数字画廊

    纽约公共图书馆最近开通了数字画廊NYPL Digital Gallery。这个图像数据库现有27万5千幅图像,提供免费、开放的联机访问。图像源自其四个研究图书馆的原生珍本馆藏,有绘画、手稿、地图、照片、海报、珍本插图书等,包括应用科学、社会科学、历史、美术和表演艺术。
    画廊的入选准则如下,不知对我们在数字化工作中选择资源有否启示:

  •  
    • 公众有较高需求
    • 独特或非常珍贵,日常使用易受损
    • 笨重或易碎的古器物
    • 本馆认定的重要馆藏
    • 有价值然而不为人所知的重要收藏

    图片查看方式有搜索与浏览。浏览有四个途径:

  • 专题画廊gallery collections:艺术与文学、城市与建筑、文化与社会、历史与地理、工业与技术、自然与科学、印刷与图像,共7个画廊
  • 名称字顺names:艺术家、作者、出版者、收藏者等,共5千多个名称
  • 主题字顺subjects:取自LCSH和LC图像资料叙词表LC Thesaurus for Graphic Materials的人名、机构名、地名和论题,共2万3千多个主题。
  • 图书馆libraries:人文与社会科学馆、表演艺术馆、黑人文化研究中心及科学、产业和商业馆,NYPL的4所研究图书馆


    浏览途径多多,但如果列表中能标明所收图片数量就更有参考价值。显示的每幅图有小、中、大三个尽寸,可直接保存。还有详细的书目信息,包括图像标题、出处、资料类别、主题、馆藏地等,能用于参考与引用。

    随意搜索浏览一下,研究古代名人资料丰富,如与教皇Sixtus五世有关的资料。研究近现代中国资料也不少,有古老的中国地图,还有“中国美人”香烟牌(各类香烟牌共有2万余幅,最能反映时代风情?)。图书馆方面,有各类图书馆图书馆建筑,还有80多年前图书馆编目部的场景。

    2002年NYPL发布联机图片馆藏The NYPL Picture Collection Online(简称PCO),收录的是中曼哈顿图书馆的收藏,包括图书、报刊中的图像及照片、印刷品和明信片,共3万张,曾被评为2004年最佳免费参考网站。以新的NYPL研究图书馆的数字画廊的规模与质量,应当是2005年最佳免费参考网站的热门竞争者。

友情提示:最好选择美国人睡觉的时候访问,不然速度奇慢。