Link_resolver – 编目精灵III

开源的链接解析器前端Umlaut

Umlaut是一个开源软件，被称为“链接解析器前端”(link-resolver front end)或“中间层链接解析器”(middle-tier link resolver)，而其本身其实就是一个链接解析器，接收OpenURL请求（通常代表学术作品的引用）、回答与引用相关的可用服务信息（最重要的是电子可用性）。与典型的链接解析器产品（如SFX）不同的是，它不管理自己的“知识库”(knowledge base)──有关一个机构拥有的某供应商所提供题名的信息及其链接。它通过SFX API获取这些信息。

Jonathan Rochkind花8个月时间为约翰·霍普金斯大学(JH)的SFX配置了Umlaut作为前端，于1月初上线。选用Umlaut的最初原因是为了方便处理用户界面，更重要的是有了一个增加功能与服务的平台。
目前的功能有：
1、直接链接：在有电子全文的情况下，点击"Find It"后直接链接到文章，而不需要经过菜单层。
2、物理馆藏：在没有电子全文的情况下，直接显示物理馆藏的位置与可得信息（通过ISSN或ISBN匹配，如无则显示OPAC关键词检索链接）；同时处理MARC 856字段的链接。
3、相关链接：在侧栏显示相关链接，期刊是Ulrich、WorldCat，图书是Amazon、WorldCat、isbndb（在线购书最优价），只显示有命中结果的链接。[这点对链接服务而言是最重要的，否则足以令用户对其丧失信息]
4、检索开放存取库：以作者/题名关键词检索IndexData的OAISter及开放内容联盟(OCA)的免费访问文本。目前还不完善，因为没有受控的元数据匹配点。
5、集成到OPAC：除全文链接外，侧栏还有“参见”，显示Ulrich、WorldCat、Amazon、isbndb等。

希望增加的功能包括：
· 如Rochester的直接跳到全文
· 增加Google图书搜索
· 连接到OCLC身份(OCLC Identities)
· 使用xISBN/thingISBN
· 用Bowker的ISSN服务强化元数据
· 无全文时集成本地文献传递服务到可选菜单[SFX无此功能？]

Umlaut目前还是一个完善中的平台，Jonathan Rochkind希望有感兴趣者加入作为开发伙伴。对于相关产品的期许是：有人为其它链接解析器提供API，这样也可用Umlaut；未来可以有商品化的链接解析器知识库可以购买。有关技术细节见：http://findit.library.jhu.edu/resolve

Umlaut原是Ross Singer在佐治亚州理工大学(GT)时开发的。Ross Singer觉得JHUmlaut需要改进的是解析速度过慢。但他很高兴JH用上Umlant，也希望由此有更多的SFX及其它链接解析器用户加入此行列。因为GT刚在近四周前撤下此应用，其原因除了他本人的离去外，主要是EBSCO的bug──其OpenURL加了<<SomeIdentifier（具体原因：Since this is injected into the location header via JavaScript (EBSCO sends their OpenURLs via a JavaScript popup), Internet Explorer and Safari don’t escape the URL which causes Mongrel to explode (these are illegal characters in HTTP, after all），而GT有差不多一半的电子资源来自EBSCO。
如果对技术细节感兴趣，Ross Singer此文绝对值得一看（12/17/07 – Resurgens – 1/11/08）。

参见：
Bibliographic Wilderness：(Re-)Introducing the Umlaut (1/14/08)
用(Re-)？对JH来说是引入Umlaut，但对于Umlaut来说，是再一次被引入。

Dilettante’s Ball：12/17/07 – Resurgens – 1/11/08

你们馆参加Google学术搜索“图书馆链接计划”吗？

今天看到Google馆员中心博客报道，始于2005年5月的Google学术搜索的“图书馆链接计划”，至今参加馆已经超过1200家(Google Scholar Library Links Hits 1,200 Participating Libraries)。
加入图书馆链接计划后，图书馆读者在使用Google学术搜索时，如果查到的文献在本馆有馆藏，就会出现访问馆藏的链接（根据IP限定，或者通过“使用偏好”设定）。如果链接的是订购的电子资源，直接点击就可以看原文；如果是印刷文献，点击后就可以进入馆藏目录系统（看馆藏状态等）。

大陆最早参加的应当是清华大学图书馆，2006年初查得的还有国家图书馆、北京师范大学和北京理工大学。国家科学图书馆于2006年4、5月间加入。香港已由2006年初的2家增至目前的4家。台湾现有5家，包括台湾地区联合目录NBINet。由于没有参加馆一览表，具体有哪些图书馆加入，难以全面了解。

“图书馆链接计划”是免费的。根据使用说明，参与馆有两个条件，一是有链接服务器，二是须将电子馆藏告知Google。
去年评论国家科学图书馆加入Google图书馆链接计划一事，有“国图人”留言，说是国家图书馆与国家科学图书馆都只是向Google开放链接，而并未提供馆藏，因为这“是一件需要非常慎重处理的事，一般图书馆恐怕都会三思”。或许说明二家图书馆提供的都是“脱机馆藏资料”，即图书馆目录，而非电子资源的具体订购信息。Google需要电子馆藏的目的是定向到具体的原文，把“脱机馆藏”给Google是没有意义的。

就Google学术搜索而言，用户使用主要是检索学术论文，而不是图书。查图书一般会选择Google图书搜索。所以图书馆以订购电子资源（也包括电子图书）加入图书馆链接计划，比馆藏纸本书目更有意义。订购电子资源并非本馆独特资源，提供给Google大约相对而言也无需“三思”。更重要的是，读者点击后看到的是原文，而不是一个OPAC检索结果，用户体验会比较好，更有实际意义。而“脱机馆藏”或馆藏纸本书目，应当只是个副产品，因为一般链接服务器总会将本馆OPAC配置在内的。

    不知道已经参加的图书馆馆有没有统计数据，反映通过Google学术搜索链接到原文的情况，在原文浏览或下载中占多少比例。
    如果没有这些信息，而图书馆有参与意向，或许也可以先做个读者调查，看有多少读者通过Google学术搜索寻找资料，是否希望经此途径直接链接到电子全文，等等。
    虽然参与计划是免费的，但图书馆的相关部门还是有很多工作要做的，诸如配置链接解析器，提供校园网IP地址范围，校园网外访问处理，提供完整准确的电子馆藏等等。从这个角度，是否要加入这个计划，也是要慎重对待的。

附：
在Google学术搜索的“使用偏好”中“查找图书馆”，可以在命中的结果中选择需要显示访问链接的图书馆。现在缺省的选择是“图书馆搜索”──那是国家科学图书馆联合目录的链接标识（参见下文）。
发现一些查找结果是不可选的，如查“Shanghai”，结果处“灰色”状态，有7个不同的图书馆，但链接显示文字都是“Full Text@IngentaConnect”，显然并非这七所图书馆加入了该计划，而是IngentaConnect加入了该计划。
Google不会把这些图书馆都算入1200家中吧？那水份就太大了。

参见：
通过Google学术搜索下载图书馆订购电子资源 (2006-02-04)
国家科学图书馆的网络营销 (2006-05-03)
趋势：通过搜索引擎查找收费电子资源 (2005-06-18)

第二届OCLC软件竞赛结果

9月28日，OCLC宣布第二届软件竞赛结果，来自佐治亚州理工学院的Ross Singer获奖，他的项目是一个名为Umlaut的OpenURL链接解析器。竞赛结果公告称，Umlaut将读者引向全文的能力令评委印象深刻，并且比赛所要求的使用OCLC服务也做得相当好。

Umlaut的工作方式是：

当用户开始一个查询，Umlaut取其IP地址，查询OCLC解析器登录处(OCLC Resolver Registry)。如果该IP还有其它链接解析器，就把那些服务一并加入用户collection。
然后基于文档集中该用户的collection，包括增加相关的图书馆目录与链接解析器，目标是使所有可获取的信息能让用户触手可及，包括可访问的的公共图书馆、其它学校或其他图书馆。

分析书目信息(citation)
    如果查找项有标准的标识符(identifier)（目前基于用户群的需求用dois和pmids，但也偶用OCLC号、bibcodes和handles），就从来源中查找该标识(id authority)（crossref, pubmed等），并抓取书目中所有元数据。
    然后把元数据递交请求给SFX（也支持其它链接解析器）、本馆目录（输出至Zebra数据库）及本州联合目录（均由SRU检索）。
    如果有ISBN，使用xISBN获取所有版本并检索。
    在会议录的场合，Umlaut会做一系列的检索（因为取得的书目元数据常常质量不一，不总是明确表示是会议录，因此用一个关键词表[papers, transactions, spie, ieee 等]以确定是否会议录），然后用大致的书目OpenURL上下文集，在本馆OPAC中查找会议及卷册。

检索相关数据库
    如果查找项有ISSN或ISBN，会检索WorldCat.org，如果命中，会显示一个查看链接。
    然后检索亚马逊（如果有ISBN）、Google和雅虎（使用其API）。
    从亚马逊获取所有元数据（介绍、类似图书等）。
    对Google和雅虎，它会在结果中检查“相关网站”白名单（ROAR, arXiv, Citeseer等）或者黑名单（Amazon.*及其它联机书商），然后检查每个链接，看是否出现在我们的代理服务器（EZProxy）。
    一些URL有特别的handlers (arXiv, Citeseer, Citebase, CiteUlike等)，Umlaut作不同处理。arXiv, Citeseer和Citebase进入“全文库”(Fulltext holdings bin)，CiteUlike作为介绍、标签与目次。其它入“最接近的Web结果”(Closest Web Results)。

显示
    呈现页面时，一个AJAX call返回服务器，服务器处理一系列背后需求。
    如果在Google/雅虎结果中识别出OAI provider，Umlaut会让记录的OAI需求可见（当前仅对Citebase和Citeseer起作用，并根据元数据的质量合并结果）。
    它也获取全文链接（如果有的话），查询Connotea、雅虎的MyWeb及Unalog，看是否有人收藏这些链接。如果有链接，获取标签及共享这些标签的所有记录。它也对CiteULike作同样处理，但把它当作OAI提供者。
    它存储从各处收集来的主题（来自Pubmed的MeSH、SFX主题、来自OPAC的LCSH、标签、亚马逊），作为指示物帮助告知即将开通的推荐服务（当在今秋）。
    Umlaut也能用COinS，有unAPI界面（给出ContextObject及它在JSON或XML中发现的任何数据）。

看演示：
文章：http://umlaut.library.gatech.edu/go/523
图书：http://umlaut.library.gatech.edu/go/522
会议录：http://umlaut.library.gatech.edu/go/524
使用搜索引擎寻找预印本：http://umlaut.library.gatech.edu/go/521
http://umlaut.library.gatech.edu/go/525

结果显示页面多数情况有四部分，左上部是书目信息，左中部是全文链接（含电子版、印刷版）、左下部是“最接近的Web结果”，一般也是全文；右栏则是介绍、Web检索结果等相关结果。

看完获奖作品介绍，感觉Umlaut用了太多的新潮技术与Web服务。很多都是只知其名，不知其义的，居然都集成在一个项目中了！（还有一些术语不知如何翻译）

从介绍看，佐治亚州理工学院应该购买了SFX，但Ross还是做了大量的工作。这也说明现在买来链接解析器后，确实还要做很多后期开发。要不然，不管有没有合适的检索结果，一骨脑的列出链接。如果链接点击后没有合意的结果，几次一用，用户就没了兴趣，最终链接解析器就只能是摆设了。

相关链接：
第二届OCLC软件竞赛 /posts/2006/0707/855

竞赛结果公告：Ross Singer of Georgia Tech wins Second OCLC Research Software Contest
http://www.oclc.org/research/announcements/2006-09-28.htm

获奖作品介绍：About Ross Singer’s Umlaut
http://www.oclc.org/research/announcements/features/umlaut-about.htm

佐治亚州理工学院图书馆网站的Umlaut主页：
http://umlaut.library.gatech.edu/umlaut/

Umlaut的博客，追踪其进展：
http://umlaut.library.gatech.edu/blog/

同期举行的Talis软件竞赛：TALIS软件竞赛结果 & 竞赛在继续
/posts/2006/0913/860