日志标签 ‘可视化’

Google实验室新品Books Ngram Viewer:数据的可靠性

2010年12月18日

    Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
    《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
    基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

    随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

   可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
    点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
    除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。
 
其二、字符识别问题

    Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
    查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?

OCLC成员报告:2010图书馆现状

2010年6月20日

今年的OCLC成员报告出炉:How Libraries Stack Up: 2010。与往年的长篇大论不同,本报告只有10张统计图,通过不同来源的数字,以可视化的图形,与其他公共与私营机构的数据做对比,彰显图书馆在经济、社会及文化诸方面的作用。
可以说每张图都很吸引眼球,无论是内容还是表现形式。不好意思全贴在这里,就最后三张了:
OCLC Membership Report 2010

提供2页的PDF版(有彩色版634K与黑白打印版295K)和11页的PPT版(有与PDF一致的完整版3.96M及模板版2.54M──供各图书馆填进自己的数字)。
我们的图书馆拿得出这样漂亮的数据吗?

via Tennant: Digital Libraries: The Power of Excellent Visualization (June 19th, 2010)
趁机再加上Roy Tennant引用的第3张

[update 2010-06-22] 最近遗漏东西比较多,感谢tsingove提醒,图林中文译站已有中文版:成就突出的美国公共图书馆 (12 六月 2010)

专题报告:图书馆信息组织未来

2007年11月13日

    《图书馆技术报告》(Library Technology Reports)是一份很特别的杂志,每期都好似一本专著,是由专家撰写的长篇专题报告,读后可对相应领域有相当了解。
    本期(v.43, no.6)专题“图书馆信息组织未来”(Information Organization Future for Libraries),ALA技术源博客介绍该报告,很是悲观,不译也罢。
    开篇引用作者Brad Eden在导言中的话:“作为一个老资格的编目员,我真正地感受到技术服务[注:采编]馆员早就了解到的痛苦:图书馆OPAC的时代已经过去。”

    Eden似乎像国会图书馆的Marcum一样,当了副馆长,开始管预算,就觉得“很明显,图书馆做事的方式行不通。”
    那么图书馆该怎么办呢?Eden给开的药方是:走出OPAC,将资源集中于新的领域,如3D信息可视化、大规模数字化、图书馆2.0以及与数字资源相关的元数据。不知道是否管用。

    据介绍,专题中有三章介绍资源,分别是基本资源(邮件表、博客和维基等)、“重新发明OPAC”(论文、报告、演讲的提要,网站,音频等)和图书馆2.0资源。应当很有参考价值。
    按以往的经验,要在EBSCO中看到报告正文,还需等些时日。

Via: ALA TechSource: Information Organization Future for Libraries

桂林数图研讨班·知识可视化与OPAC

2007年8月22日

    对可视化特别有兴趣。去年听林夏讲“信息可视化与可视分析”(),还参加了分组讨论,今年继续听“知识可视化与知识发掘”,看到了更多的实例。
    林老师谈到信息世界的三个基本元素是数据、信息、知识,而可视化也已经从数据可视化(科学可视化)——信息可视化——知识可视化。由“知识可视化”的解释,有顿悟:
·是通俗易懂的可视化
·是能将隐性知识转为显性知识的可视化
·是能够创造新知识的可视化
·也是能帮助人们学习,认知与合作的可视化

    原来自己对OPAC的分面浏览看法比较单一,只认为是一种限定检索的有效方法。看到上述知识可视化的四点分析,我以为分面浏览实际上也是一种对书目数据的可视化处理,并且也达到了效果。在我讲“OPAC2.0案例分析”时,已经将此观点融入其中,当时未向林老师致谢,只能在此补救。
    一直以为,MARC格式尽管有很多不足,但以往的ILS并未充分利用其中大量有用信息。在Web2.0时代,数据成为核心。就OPAC而言,对数据的深入挖掘,使OPAC脱胎换骨,使书目信息变成了有用的知识。尤其对初入某一领域者而言,通过在简单的检索框中输入一个词串,OPAC返回的提示信息足以使之对该领域有一个初步的领略——核心作者与研究机构、研究/文献年代、研究主题等等,大有古典目录学“辨章学术、考镜源流”、指点学术门径之意韵。
    试用一下澳大利亚国家图书馆的LibraryLabs,更容易体会到这一点。

数图研讨班之四:可视化(Visualization)

2006年8月19日

     五月份在上图举办的“Web2.0与信息服务”会议中讲“新型OPAC系统:功能与样例”时,曾举过AquaBrowser的例子,归类在“分面浏览与导航”。这次数字图书馆前沿问题高级研讨班上,林夏讲“信息可视化与可视分析”,其中也有这个例子。因为想了解一些可视化的产生方法及工具,所以最后的分组讨论选择了参加“可视化及医学图书馆”小组。
     因为林夏得到了由MeSH词表分析的医学文献数据,希望国内医学图书馆能够参与可视化应用(本人对此完全不了解,所以可能理解有误)。在场有一些医学图书馆同仁,但没有表示出足够的兴趣。如果看到此处有感兴趣的,可以直接与林夏联系,相信他会很高兴的。

     撇开医学图书馆的论题,讨论中提到以下一些“可视化”相关议题:

  • 是不是可以做图书馆书目、流通方面信息的可视化?
    答:自然是可以的,目的呢?
  • 图书馆购买数据库间收录期刊重复是很严重的现象,而数据库价格长涨更是看不到尽头。是不是可以用可视化方法,分析图书馆购买的数据库,包括数据库之间的重复度,以及同一数据库收录期刊各年的差异?
  • 不管原始数据以何种形式保存,只要转出成XML格式,就可以分析,所以可视化相关的分析软件通用性很强。

     林夏在他的PPT中举了很多实例,在去年研讨班的PPT中还有另外一些例子。他认为可视化及可视化分析发展很快,过几年就会很流行的。
     “读图时代”,枯燥的数据也变成图示,自然会很令人愉快。所以我相信林夏所说的发展趋势,再举几个自己所知的可视化例子:

     林夏说,《图书馆高技术》(Library Hi Tech) 将出版“可视化在图书馆应用”的专辑(九月截稿,估计要到明年出版)。等待看到更多图书馆应用的实例,对于搞技术的,应该更想看到实例的实现方法。

链接:
Library Views 图书馆观点:数位图书馆发展国际研讨会
Ted介绍了本次研讨班的几位专家在台湾大学“数位图书馆发展”国际研讨会上的报告,特别介绍了林夏的“资讯视觉化”(IV, Information Visualization)。
两岸在专业术语上的差距还真是不小。