OCLC软件竞赛结果

    时间过得很快,今天见到OCLC软件竞赛结果公布,找我以前的报道,发现时间竟然已经过去四个多月了。
    得奖者是美国的Dazhi (David) Jiao,看姓名是个来自大陆的华人。 获奖作品是一个OPAC,在显示详细书目记录时,包含收割的相关文献一览表(an OPAC that includes a ranked list of harvested citations when a detailed bibliographic record is displayed.)。评委认为其作品创新集成了OPAC与收割的元数据,并充分利用了OCLC的开放软件(an innovative way of integrating OPACS with harvested metadata and made good use of open source software from OCLC)。

    OCLC还提供了相关信息链接。获奖作品的链接如下:
Dazhi Jiao&aposs CAT OAI; an OPAC System with OAI Integration
http://129.79.32.196:8080/catoai/index.jsp

    这个试验系统目前只包括物理学相关内容。检索结果一览表如同普通OPAC,但具体书目的详细信息包含按相关度排序的数字资料,这些资料由OAI数据库中收割而来。
    “The Handbook of plastic optics”一书的详细书目信息,首条数字资源的详细信息,包括名称、URL、作者、内容提要、主题等信息。直接链接到相关数字资源,是一篇全文文献,感觉很不错。

    OCLC打算今后每年举办一次这样的竞赛。

 

国际儿童数字图书馆

    儿童节到了,带孩子去“国际儿童数字图书馆”看看?
    International Children’ Digital Library是一个收藏多语种儿童图书的网上数字公共图书馆。目前以绘本为主,主要面向3-13岁的儿童。网页由儿童参与设计,很是活泼醒目。首页为英语,但搜索界面已有包括中文在内的9种语言;收录的图书除西方语言外,亚洲语言也有不少,如阿拉伯语、希伯来语、波斯语、菲律宾语、日语、越南语。虽然图书数量不多,对比尚未收录一本的汉语,已经不错了。
    没有汉语图书是个遗憾。但与大人们看不懂语言就一筹莫展不同,小孩子们不识字是自然状态,所以对图画有一种与生俱来的敏感,可以从图画中看到大人们看不到、看不懂的东西。《新概念英语》中那个能够看出现代画挂倒了的7岁小女孩,并不是特别的一个。所以儿童节,不妨让你的孩子去这个网站看看有没有感兴趣的。
    图书查找途径有简单检索、高级检索、地点检索、关键词检索,以及直接浏览所有图书或获奖图书。简单检索是一部适合儿童读物的分面分类法,以色彩艳丽的图标显示类别(点击右上角的“更多选项(More Choices)”可以看到更多分类),充满童趣。地点检索是个可以旋转的地球,由此选择世界各大洲。高级检索则对大人们更合适。
    阅读方式有标准Standard、增强plus、连环画Comic、螺旋式Spiral和PDF格式(不是每种书都有这五种)。后几种需要安装不同的插件或阅读软件。在我看来,连环画形式不错,与平时翻书感觉类似;而螺旋式过于花梢,或许适合那个年龄段儿童的喜好?

    国际儿童数字图书馆是马里兰大学人机交互实验室受美国国家科学基金(NSF)和博物馆与图书馆服务研究所(IMLS)资助的五年项目,目前已进入第三年。目标用户:

第一、3-13岁儿童,以及与这些年龄段儿童相应的图书馆员、教师、父母和看护人;
第二、儿童文学领域的国际学者与研究者。

    最终将收录100种以上语言的1万种以上图书,不过到今天为止仅有28种语言的611种图书(少得可怜)。虽然目前馆藏数量仍不够多,但有经济保障,其前景应当还是乐观的。三年后项目完成,再来看看。

相关链接:
少儿信息港“连环画库
    上海少年儿童图书馆建立的网站――少儿信息港,其馆藏精品之“连环画库”,目前收入一千多种连环画,目标为一万余种。
    功能介绍见《新民晚报》2005-2-7报道“电子词典助阅读音响效果添声色 绝版“小人书”搬上网

 

无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。