第二届OCLC软件竞赛结果

    9月28日,OCLC宣布第二届软件竞赛结果,来自佐治亚州理工学院的Ross Singer获奖,他的项目是一个名为Umlaut的OpenURL链接解析器。竞赛结果公告称,Umlaut将读者引向全文的能力令评委印象深刻,并且比赛所要求的使用OCLC服务也做得相当好。

    Umlaut的工作方式是:

    当用户开始一个查询,Umlaut取其IP地址,查询OCLC解析器登录处(OCLC Resolver Registry)。如果该IP还有其它链接解析器,就把那些服务一并加入用户collection。
    然后基于文档集中该用户的collection,包括增加相关的图书馆目录与链接解析器,目标是使所有可获取的信息能让用户触手可及,包括可访问的的公共图书馆、其它学校或其他图书馆。

分析书目信息(citation)
    如果查找项有标准的标识符(identifier)(目前基于用户群的需求用dois和pmids,但也偶用OCLC号、bibcodes和handles),就从来源中查找该标识(id authority)(crossref, pubmed等),并抓取书目中所有元数据。
    然后把元数据递交请求给SFX(也支持其它链接解析器)、本馆目录(输出至Zebra数据库)及本州联合目录(均由SRU检索)。
    如果有ISBN,使用xISBN获取所有版本并检索。
    在会议录的场合,Umlaut会做一系列的检索(因为取得的书目元数据常常质量不一,不总是明确表示是会议录,因此用一个关键词表[papers, transactions, spie, ieee 等]以确定是否会议录),然后用大致的书目OpenURL上下文集,在本馆OPAC中查找会议及卷册。

检索相关数据库
    如果查找项有ISSN或ISBN,会检索WorldCat.org,如果命中,会显示一个查看链接。
    然后检索亚马逊(如果有ISBN)、Google和雅虎(使用其API)。
    从亚马逊获取所有元数据(介绍、类似图书等)。
    对Google和雅虎,它会在结果中检查“相关网站”白名单(ROAR, arXiv, Citeseer等)或者黑名单(Amazon.*及其它联机书商),然后检查每个链接,看是否出现在我们的代理服务器(EZProxy)。
    一些URL有特别的handlers (arXiv, Citeseer, Citebase, CiteUlike等),Umlaut作不同处理。arXiv, Citeseer和Citebase进入“全文库”(Fulltext holdings bin),CiteUlike作为介绍、标签与目次。其它入“最接近的Web结果”(Closest Web Results)。

显示
    呈现页面时,一个AJAX call返回服务器,服务器处理一系列背后需求。
    如果在Google/雅虎结果中识别出OAI provider,Umlaut会让记录的OAI需求可见(当前仅对Citebase和Citeseer起作用,并根据元数据的质量合并结果)。
    它也获取全文链接(如果有的话),查询Connotea、雅虎的MyWeb及Unalog,看是否有人收藏这些链接。如果有链接,获取标签及共享这些标签的所有记录。它也对CiteULike作同样处理,但把它当作OAI提供者。
    它存储从各处收集来的主题(来自Pubmed的MeSH、SFX主题、来自OPAC的LCSH、标签、亚马逊),作为指示物帮助告知即将开通的推荐服务(当在今秋)。
    Umlaut也能用COinS,有unAPI界面(给出ContextObject及它在JSON或XML中发现的任何数据)。

看演示:
文章:http://umlaut.library.gatech.edu/go/523
图书:http://umlaut.library.gatech.edu/go/522
会议录:http://umlaut.library.gatech.edu/go/524
使用搜索引擎寻找预印本:http://umlaut.library.gatech.edu/go/521
   http://umlaut.library.gatech.edu/go/525

    结果显示页面多数情况有四部分,左上部是书目信息,左中部是全文链接(含电子版、印刷版)、左下部是“最接近的Web结果”,一般也是全文;右栏则是介绍、Web检索结果等相关结果。

    看完获奖作品介绍,感觉Umlaut用了太多的新潮技术与Web服务。很多都是只知其名,不知其义的,居然都集成在一个项目中了!(还有一些术语不知如何翻译)

    从介绍看,佐治亚州理工学院应该购买了SFX,但Ross还是做了大量的工作。这也说明现在买来链接解析器后,确实还要做很多后期开发。要不然,不管有没有合适的检索结果,一骨脑的列出链接。如果链接点击后没有合意的结果,几次一用,用户就没了兴趣,最终链接解析器就只能是摆设了。

相关链接:
第二届OCLC软件竞赛 /posts/2006/0707/855

竞赛结果公告:Ross Singer of Georgia Tech wins Second OCLC Research Software Contest
http://www.oclc.org/research/announcements/2006-09-28.htm

获奖作品介绍:About Ross Singer’s Umlaut
http://www.oclc.org/research/announcements/features/umlaut-about.htm

佐治亚州理工学院图书馆网站的Umlaut主页:
http://umlaut.library.gatech.edu/umlaut/

Umlaut的博客,追踪其进展:
http://umlaut.library.gatech.edu/blog/

同期举行的Talis软件竞赛:TALIS软件竞赛结果 & 竞赛在继续
/posts/2006/0913/860

《第二届OCLC软件竞赛结果》上有2条评论

  1. 你的博客非常专业,既然已经搬过一次家,再搬一次也没有关系,或者学学图谋也不错。更重要的劝劝老槐把树移栽一下。

  2. 斋主号召力走召弓虽。偶近日忙于家事,没怎么上网,才发现不几天,斋主已为新浪招到了不少兵马。
    斋主既为新浪名人,就该为招去的兵、买进的马也介绍介绍如何弄个名头。要不然圈中尽是1412276081、1258418197什么的,有点像匪兵甲、匪兵乙的样子。

    斋主看了老槐列举的“作茧自缚的‘搬家’条件”,我刚才又去看了一下,估计如果他搬家的话,恐怕百度会排在新浪前面。百度还有他未列出的、在我看来比新浪好的方面。
    新浪博客么,虽说开张不多日子就从beta 2.0升级到了beta 3.0,但从一开始的设计就不是一般意义上的2.0方式,所以很难令某些人认同啦。Keven所说的版权声明就是很重要的一个方面,那意思是说,我想别人随便用我的东西,可新浪说他也有一份,必须先得到他的许可,否则甭想让别人用。呜呜……

评论已关闭。