虚拟上海:上海城市空间

    印半斋留言,说国图网站上有个中国学网络,问“是否可以从里面得知海外上海研究的情况”。
    国图网站丰富,我的盲点更多。既然听说了,就去一看。从主页的“中国学导航”进去,有“汉学家”和“中国学网络”。在中国学网络,检索到一个关于上海的网站。基本介绍

网址:http://virtualshanghai.ish-lyon.cnrs.fr/Image.php
网站名称:Virtual Shanghai——Shanghai Urban Space in Time
网站中文名称:虚拟上海:上海城市空间
创办人/机构:Christian Henriot
网站内容简介:该项目是始于2000年的合作项目,主要基于上海历史照片展现其发展脉络。由法国东亚研究所(Institut d’Asie Orientale)和美国加州伯克利大学中国研究中心(the Center for Chinese Studies of the University of California, Berkeley)合作,数字化了上海历史照片以及地图,试图追溯上海建成到现在的历史,但其重点侧重在19-20世纪的历史。
栏目设置:文件 图片 地图 参考文献 图片目录 总览 检索
特色资源:上海历史照片、相关研究文章等。包括与上海历史相关的上百张的照片和上千篇的文章。

    访问该网站,编者Christian Henriot(IAO东亚研究所/ Lyon 2 University里昂第二大学?)。2005年由法国国家研究局(Agence Nationale de la Recherche)选定为社科与人文研究项目,资助三年。与国图网站的说明不太一致。
    该项目着重十九世纪中叶至今的上海历史。目前主页显示现有记录14780条,大约是即时数据,统计表最新资料是10月25日的(今天才26日),为14659条。网站仍在建设中,但内容已经很丰富了:
   
    图片11148张,最为丰富;
    标有GIS信息的图片1483张;
    地图270张,最早标明年份的是这张1855年彩色的外国人定居点图(Ground plan of the Foreign Settement at Shanghai – North of the Yang Kang Pang Canal)
Ground plan of the Foreign Settement at Shanghai - North of the Yang Kang Pang Canal,对一下家里的地图,此图所示正是外滩这块地方。
    书目1617条,看到的语种有法、英、日、汉;
    ……

    想上网查“Yang Kang Pang”是否为洋泾浜,发现上图“馆藏精选”中也有此图,名《上海租界图》,说明是“上海开埠后第一份英租界地图”,但版本略有不同。看看吧:上海租界图
    
    查Yang Kang Pang时发现“虚拟上海”还有一个网址:http://www.virtualshanghai.net/

P.S.    今天很有感慨,发现老外好象把什么资料都开放了,而我们总喜欢把什么东西都藏着掖着。既然是自己辛辛苦苦做出来的东西,能够让更多的人用,不好吗?

“澳大利亚国家图书馆2.0”之Picture Australia

    澳大利亚国家图书馆(NLA)的Judith Pearce在前不久举行的一次会议上发表了题为“网站的用户协作”(User collaboration in websites)的文章,介绍NLA在Web 2.0方面的努力。Lorcan Dempsey经同事介绍看了此文,写博文称之为“澳大利亚国家图书馆2.0”(National Library of Australia 2.0)。
    年初看到NLA用Flickr做“Picture Australia”时,一则遗憾没能赶上作为那篇图书馆2.0文章的强有力实例,二则特别佩服NLA的举措。堂堂国家图书馆,像个小公共图书馆那样,让网友帮着自己建数字图书馆,怎么着也觉得有点儿屈尊。

    从Judith此文可以看到,除了“Picture Australia”,NLA还有“Australia Dancing”,也是一个用户协作的项目。目前NLA正计划第三个这样的项目——“People Australia”。

    Picture Australia始于1998,原名ImageSearch,是一个联邦图片搜索服务,目前有44个参与单位提供的百万以上图片。数据库中以历史资料为主,但2004年的一项调查却发现,43%用户来此寻找当代图像。为增加当代图像的数量,并吸引新的用户,NLA开始了与Flickr合作的试验项目(The flickr Pilot Project)。正式发布日期被刻意安排到1月26日“澳大利亚日”(Australia Day) [在Flickr上该组建立日期更早些,最早的评论日期是1月4日]

    选择Flickr的理由是:
有大批澳大利亚追随者 [用户]
鼓励使用元数据帮助发现 [内容]
有编程界面,便于映射到都柏林核心,向Picture Australia贡献记录 [元数据]

    实现方法:用户上载自己的图像到Flickr,将其加入任何一个Picture Australia组中。图书馆每周收割一次元数据与小图标(thumbnail),加入Picture Australia数据库。看大图像一般链接到Flickr,NLA也选择一些有意义的图片,联系创作者获取高精度图像加入数字档案。
    共有两个组 [括号中是2006/10/10的相关数据],分别是:
PictureAustralia: People, places and events [成员451人,图像10111张]
PictureAustralia: Australia Day [成员113人,图像213张]

    原本Flickr项目是为了当代图像,却意外也带来了值得进一步挖掘的丰富的传统图像领域。由于受费用限制,以往Picture Australia 的政策是限制收录家族史资料,现在有Flickr作跳板,NLA就可以广邀大家上载这类作品。

    同样由于Flickr,Picture Australia 也为更多人所知。近期对贡献者调查数据:39%以前未听说过Picture Australia,64%经由Flickr其及成员听说,69%前去看自己的图像。
    另一项针对非贡献者的调查,看他们是否在Picture Australia中查到了更多当代图像。元数据质量是个大问题,因为贡献者自然不会用标准叙词表,而且常常没有为图像提供有充分描述性的题名,或者提供足够多的标签。管理员会监测图像,与贡献者e-mail联系建议适当的标签,以改善元数据质量。由此还形成了贡献者的社区,在讨论组中自我教育与管理。NLA将引导这些社区的发展,对提供内容、标签给予指导。[Web2.0的味道越来越浓了!]

    随着 Picture Australia 越来越庞大,找到需要的图像也越来越困难。它正寻找Web2.0的服务模式以简化访问,答案是所谓的“killer data”[独特的数据,杀手锏?]——它的传统图像,将传统图像与当代资料并置,坚持由成员单位出于保存目的选择图像,对永久保存部分由编目员继续做某种程度的加标签、加地理代码的方法。[编目员在Web2.0时代饭碗还是有啊!]
    NLA已在寻找通过评级(ranking)、聚类(cluster)、地理编码(geocoding)强化访问的途径。在图像服务中,要达到这一目的,依赖于元数据的质量与一致性。NLA开始考虑叙词表映射改善查全,并支持结果集的聚类,只是在图像没有充分、适当描述的情况下还是无法找到。这时用户增加的标签与评论或许就能揭示出先前未知的信息,比如位置、主题。[互补?]
    Picture Australia 的部分参与单位也在自己网站上提供自己的图像服务。如发电站博物馆(Powerhouse Museum)近来开始实验标签,而NLA则建立了工作组考虑加标注(annotation)的需求,包括标签tags、评论comments、附注notes、评级ratings与评论reviews,以支持评级ranking与聚类clustering,或者有趣、相关图像游览。

[原只想摘译,到后面差不多全译了。关于 Australia Dancing 与 People Australia 部分,看兴趣再写吧]

参见:
User collaboration in websites / Paper presented by Judith Pearce at Framing the Future, ARLIS/ANZ Conference, 21-23 September 2006.
http://www.nla.gov.au/nla/staffpaper/2006/jpearce1.html

Lorcan Dempsey’s weblog: National Library of Australia 2.0 (October 08, 2006)
http://orweblog.oclc.org/archives/001169.html

第二届OCLC软件竞赛结果

    9月28日,OCLC宣布第二届软件竞赛结果,来自佐治亚州理工学院的Ross Singer获奖,他的项目是一个名为Umlaut的OpenURL链接解析器。竞赛结果公告称,Umlaut将读者引向全文的能力令评委印象深刻,并且比赛所要求的使用OCLC服务也做得相当好。

    Umlaut的工作方式是:

    当用户开始一个查询,Umlaut取其IP地址,查询OCLC解析器登录处(OCLC Resolver Registry)。如果该IP还有其它链接解析器,就把那些服务一并加入用户collection。
    然后基于文档集中该用户的collection,包括增加相关的图书馆目录与链接解析器,目标是使所有可获取的信息能让用户触手可及,包括可访问的的公共图书馆、其它学校或其他图书馆。

分析书目信息(citation)
    如果查找项有标准的标识符(identifier)(目前基于用户群的需求用dois和pmids,但也偶用OCLC号、bibcodes和handles),就从来源中查找该标识(id authority)(crossref, pubmed等),并抓取书目中所有元数据。
    然后把元数据递交请求给SFX(也支持其它链接解析器)、本馆目录(输出至Zebra数据库)及本州联合目录(均由SRU检索)。
    如果有ISBN,使用xISBN获取所有版本并检索。
    在会议录的场合,Umlaut会做一系列的检索(因为取得的书目元数据常常质量不一,不总是明确表示是会议录,因此用一个关键词表[papers, transactions, spie, ieee 等]以确定是否会议录),然后用大致的书目OpenURL上下文集,在本馆OPAC中查找会议及卷册。

检索相关数据库
    如果查找项有ISSN或ISBN,会检索WorldCat.org,如果命中,会显示一个查看链接。
    然后检索亚马逊(如果有ISBN)、Google和雅虎(使用其API)。
    从亚马逊获取所有元数据(介绍、类似图书等)。
    对Google和雅虎,它会在结果中检查“相关网站”白名单(ROAR, arXiv, Citeseer等)或者黑名单(Amazon.*及其它联机书商),然后检查每个链接,看是否出现在我们的代理服务器(EZProxy)。
    一些URL有特别的handlers (arXiv, Citeseer, Citebase, CiteUlike等),Umlaut作不同处理。arXiv, Citeseer和Citebase进入“全文库”(Fulltext holdings bin),CiteUlike作为介绍、标签与目次。其它入“最接近的Web结果”(Closest Web Results)。

显示
    呈现页面时,一个AJAX call返回服务器,服务器处理一系列背后需求。
    如果在Google/雅虎结果中识别出OAI provider,Umlaut会让记录的OAI需求可见(当前仅对Citebase和Citeseer起作用,并根据元数据的质量合并结果)。
    它也获取全文链接(如果有的话),查询Connotea、雅虎的MyWeb及Unalog,看是否有人收藏这些链接。如果有链接,获取标签及共享这些标签的所有记录。它也对CiteULike作同样处理,但把它当作OAI提供者。
    它存储从各处收集来的主题(来自Pubmed的MeSH、SFX主题、来自OPAC的LCSH、标签、亚马逊),作为指示物帮助告知即将开通的推荐服务(当在今秋)。
    Umlaut也能用COinS,有unAPI界面(给出ContextObject及它在JSON或XML中发现的任何数据)。

看演示:
文章:http://umlaut.library.gatech.edu/go/523
图书:http://umlaut.library.gatech.edu/go/522
会议录:http://umlaut.library.gatech.edu/go/524
使用搜索引擎寻找预印本:http://umlaut.library.gatech.edu/go/521
   http://umlaut.library.gatech.edu/go/525

    结果显示页面多数情况有四部分,左上部是书目信息,左中部是全文链接(含电子版、印刷版)、左下部是“最接近的Web结果”,一般也是全文;右栏则是介绍、Web检索结果等相关结果。

    看完获奖作品介绍,感觉Umlaut用了太多的新潮技术与Web服务。很多都是只知其名,不知其义的,居然都集成在一个项目中了!(还有一些术语不知如何翻译)

    从介绍看,佐治亚州理工学院应该购买了SFX,但Ross还是做了大量的工作。这也说明现在买来链接解析器后,确实还要做很多后期开发。要不然,不管有没有合适的检索结果,一骨脑的列出链接。如果链接点击后没有合意的结果,几次一用,用户就没了兴趣,最终链接解析器就只能是摆设了。

相关链接:
第二届OCLC软件竞赛 /posts/20060707210241.html

竞赛结果公告:Ross Singer of Georgia Tech wins Second OCLC Research Software Contest
http://www.oclc.org/research/announcements/2006-09-28.htm

获奖作品介绍:About Ross Singer’s Umlaut
http://www.oclc.org/research/announcements/features/umlaut-about.htm

佐治亚州理工学院图书馆网站的Umlaut主页:
http://umlaut.library.gatech.edu/umlaut/

Umlaut的博客,追踪其进展:
http://umlaut.library.gatech.edu/blog/

同期举行的Talis软件竞赛:TALIS软件竞赛结果 & 竞赛在继续
/posts/20060913201756.html