无处不在的元数据

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

Google电影

    Google不断有新功能问世,今年就推出了Google电视Google地图。可惜这些实验室的产品,适用范围只限于美国。昨天Google又宣布了新的电影检索命令movie:,也只适应英文。

    如果只记得电影大概讲什么内容、什么人主演或导演之类,却不记得名字,只要用movie:,就可以查出名字。比如查”船撞冰山”的电影movie: ship hits iceberg,可查到:
      泰坦尼克号Titanic (1999)
      冰海沉船A Night to Remember(1958)
      哈佛人Harvard Man (2001)
      指环王:王者归来The Lord of the Rings: The Return of the King (2003)
      彗星撞地球Deep Impact (1998)
结果依相关度5星到1星排列,并提供影评链接。
    如果人在美国,想看电影,用movie:加上城市,还可以找到附近的影院,看看正在放哪些电影,片子类别(喜剧、战争、音乐等等),片长多少,以及影评链接;影院地址之外,还提供很酷的Google地图链接。用Google去年发布的短信服务,也可以获取相关信息。美国影迷真是好福气!

    去年12月各位博客大谈图书馆员电影,于是我试了一下这个新命令,想看看有哪些电影谈到图书馆员。输入movies:librarian共得到10个电影,居然没有钱涂介绍的The Librarian
    从搜索页面看,movie:命令的奥秘是从评论中抽关键词。再用movie: Titanic查,结果有更多关于泰坦尼克号的电影(当然也有不是的)。只是不明白,再怎么样抽关键词,也不能遗漏了电影名称本身呀!
    此外,如果查librarians,结果与查librarian不同。看来此命令未采用Google通常使用的词干搜索。  

 

看《网络数据分析》随想

    记得读书时,情报检索课讲到”逆波兰式”之类,就有点头痛。后来有位同学研究自动分类,他说得头头是道,我听得云里雾里。而现在,看不懂的专业书更是越来越多。手头一直在读邱均平等著《网络数据分析》北京大学出版社,2004;国家自然科学基金项目),本是自己有兴趣的内容,只是已经看了很久了,老拖着不想看完。因为概念超多、软件聚集,逐个理解下来,远远超出自己的承受能力。信息时代,虽然需要不断接受新的信息,但也需要适当放弃一些信息,否则怕自己会精神分裂了。

    写下上面这些后就心安理得了,匆匆翻阅《网络数据分析》最后四分之一,算是读完了。其实书中也不全是枯燥乏味的内容,案例分析”从CN域名注册量看我国的域名注册政策”(p.251-252)就比较简单,让我费不了什么脑子就看得津津有味。
   我国高校的网站域名一般是.cn,但平时经常访问的那些国内网站大多是.com。书中提供的数据是,国内Web站采用国际域名的占52%,国内域名的占48%。原因是国际域名注册费80元/年,比国内注册域名280元/年要便宜很多。”国内域名注册费居高不下,致使国内很多网站舍弃.cn域名,转向注册费便宜得多的.com等国际顶级域名。由于各网站都用.com域名,中国用户访问国内网站,也要跑到美国的域名服务器解析一次,所以形成了巨大的中国到美国的网络流量,致使中国不得不向互联网线路提供商另外多交一笔流量差额费用。…CNNIC对或名注册的垄断,致使中国互联网整体利益蒙受了不必要的损失”(摘录到这里,才由参考文献发现分析观点出自刘韧”解决CNNIC“)

    说的是事实,但分析就是另外一回事了。对中国互联网利益影响如此之大的事情,国家不管或许有种种放得上或放不上桌面的理由。但为什么选国际域名,不说个人或小机构,那些年营业额大大的企业,会在乎这几个小钱?恐怕.com(或.org、.net)比.cn更显得国际化才是说得过去的原因。我不知道解析域名会造成多大的流量,但我知道,很多时候跑到美国的服务器,不是去解析域名,而是去看他们比我们丰富得多的网络世界。
    无论如何,看了前面那段分析,我对使用.cn的机构表示敬意,因为他们宁愿多花些钱,以维护国家的整体利益。也有不明白的。我看到Google在很多国家或地区都有本地域名,包括台湾,这也是有些网友大骂Google的理由――居然有青天白日旗而没有五星红旗。但为什么Google在国内的访问量这么大,却没有www.google.com.cnwww.google.cn
    输入上面那两个网址,都是”Google创可贴”。依稀记起前一阵有关于Google域名抢注的新闻,查一下,原来那个网址的注册日期为1999-12-03,当时恐怕国内大多数网民(包括本人)还不知道Google为何物呢。所以,尽管域名拥有者北京国网信息公司有抢注著名商标域名的恶名,仍被裁决拥有此域名,详见2003年3月”中国国际经济贸易仲裁委员会域名争议解决中心裁决书“。从裁决书还知道原来Google公司的中文译名是”科高公司“。
    Google公司唯一注册的中国域名是google.net.cn,已经一年多了。Google公司注册的几个国际顶级域名都被重定向到www.google.com,而.cn的这个域名却没有使用,不知为何?