学术报告“另一个视界”与上图数字人文项目

出于对可视化的兴趣,周五(2017.8.11)去上海图书馆听学术报告。感谢上图开放学术资源让大家共享。

另一个视界:清华大学美术学院向帆副教授和朱舜山工程师学术讲座

会议通知中推荐的报告人微信公众号文章:
《数据追问-全国美展油画作品视觉化解读》
《我是不是有点皇亲国戚?》

报告安排在下午。可惜我在开讲没多久,就因收到私事信息急需处理,差不多一半时间在边听边开小差上网中。所幸前一晚先做了点功课,看过两位报告人的网站Z Lab,特别是其中的 Projects 板块,还能勉强跟上所讲内容。Z Lab网站共有11个项目(没有上述利用CBDB数据的家谱图),看过感觉一是可视化效果很酷炫(如微博地点钟的24小时);二是可视化设计也被作为一种实用的研究辅助工具(如热带森林数据可视化)。
本次报告涉及了Z Lab网站半数以上项目,听现场讲述比看介绍生动很多,尤其对“为什么会这么做”的解释,光看介绍是获取不到的。向帆老师把她的项目定位为现代艺术作品,而不是数字人文(或其他),至于被其他人用作分析工具,也被她视为作品的一部分,全国美展获奖作品分析就是一个典型例子。我的感觉,比如在CBDB家族谱系图、热带森林数据等,可视化应该更多是作为工具。当然由于向老师的美术背景,或许在设计时是作为艺术创作看待的。
问答阶段,向老师提到她也做了不少文本挖掘项目,比如张爱玲、海明威……,数字人文无疑。
听完比较“失望”的是,那些酷炫的效果,大多是朱舜山老师用代码写出来的,没有利用太多工具。视觉设计不易,实现也不具有可复制性。因此,只能是艺术品?两位老师珠联璧合,看得出在性格上也属互补型的。

——— 上海图书馆数字人文项目介绍 ———
当天上午是内部的上海图书馆数字人文项目介绍,希望请两位老师帮助改善可视化界面设计。
刘炜副馆长开场,夏翠娟做总体介绍,上图目前共有7个相关项目:1中国家谱总目(华人家谱总目——上海图书馆家谱知识服务平台),2盛宣怀档案,3名人手稿(上海图书馆名人手稿),4中文古籍联合目录及循证平台,5规范库(含人名、中国历史纪年、地理名词表、收藏机构名录等),6书目库,7上海历史文化时空再造——武康路。其中1、3、4、7后续由各自项目主管(抱歉没听清姓名)做详细演示,尤其是可视化部分。
向老师在看到名人手稿部分时指出:一般的可视化(饼图柱图之类),掩盖了最最让人感动的部分。——话说得没错,只不过图书馆是整理资料的,就像朱老师在整理全国美展获奖作品基础资料时所说的somebody:Somebody has to do the dirty work. 面对海量文献中充满个性化的内容,要当作艺术作品来创作,真的会使项目没有截止期的。
向老师问得最多的问题是:应用场景,用户需求。——或者说用例、故事,确实是需要首先考虑,也是当前图书馆做项目需要强调的,比如最近LD4社群“调和与实体解析工作组”正在征求用例(关联数据的“调和”与“解析”) 。
与邻座tsingove交换意见,作为基础设施的话,有时可能并不针对特定场景(当然那也是场景),提供数据就好,至于怎么用,留给第三方来开发。上图接连两年举办的关联数据竞赛,就是这种设想的体现。夏MM也解释,如古籍系统的某些预设应用,也是咨询过馆内领域专家的,是作为示范,让研究者了解数据可能怎么用,进而提出更多应用场景。
上午会议结束时,Keven总结数字人文项目中三方的角色:图书馆员作为领域专家与计算机开发者之间的桥梁。朱老师补充:要加上第四方设计师,了解用户体验。

PatentsView:专利数据可视化平台

建立于2012年的 PatentsView 专利数据可视化和分析平台,由美国专利商标局联合多家机构开发,是美国政府信息公开的组成部分,目的在于增加美国专利数据的价值、可用性和透明度。虽然只是美国专利,但专利申请者来自世界各国,因此可以概览世界各国、各技术领域的专利情况。
PatentsView 利用专利元数据,从技术分类、受让人/权利所有人、引用模式、位置(国家、美国州)、合作发明者网络等不同途径,呈现百多年来的美国专利。 除了可视化展示,数据还提供API、直接查询和批量下载3种利用方式,以CC-By共享。这是从数字化(专利数据库)到数据化的一个很好例子。

网站提供的4种数据呈现方式
关系
可视化呈现2001年以来,前100项引用最多的专利,其受让人、专利数和发明人之间的关系。可限定地点(美国各州及国家,其中没有中国)和技术领域。
位置
以地图方式呈现2012年以来,各国各城市专利数量。
地图可以放大缩小。中国大陆完全被日本、韩国、台湾压倒,唯一亮点在深圳。上海可怜地在淹没在杭州苏州之下,要把地图放到很大才看得到那个小点。
比较
可视化呈现1976-2016年间,各国、美国各州或技术领域,专利数量变化与对比。
除了专利总量,还可以通过下拉选择,直观了解各国不同年份在不同技术领域的专利数量排名。比如来自中国的专利逐年增加,2016年位总量位列第4,其中化学、仪器也位列第4,而设计位列第3,机械工程和其他位列第6,植物位列第18(仅4件,各国数量都很少)。
查询
包括1976-2016年间专利,可以从专利、发明人、受让人及专利分类查询,以清单方式显示查询结果。可点击结果了解专利详情,并进一步到Google Patents看专利全文。
同时,还可以点击查询结果中的受让人等,获取类似前述“关系”的可视化呈现,如华为技术公司专利关系图;该公司专利最多的发明人(Wei Min Li,361件)的专利及与其他公司专利的关系。

网站提供的3种数据源,可供自主探索
API
提供7个端点,可从专利、发明人、受让人、国家及专利分类等获取数据,用于进一步分析。
网站列出可以探索的3个例子是:
1、【技术】哪些公司拥有3D打印专利?他们位于哪里?在他们得到3D打印专利前后,这些公司在哪些技术中创新?
2、【排名】在最近5年的美国专利中,什么技术最通用?专利排名靠前的美国城市和非美国城市?
3、【发明人】最近30年中,谁是最多产的美国发明人?他们的专利活动(专利数、专利类型和合作发明人)如何随时间变化?
– 查询(见前)
数据下载
数十个不同类型的原始数据文档,从数KB到数十GB不等,可下载后用于数据分析挖掘

比如微信“大数据文摘”上的“苹果VS谷歌,可视化两厂所有专利后看创新模式差异”,就是利用PatentsView制作的。本博文即看此文而撰写。

MARC字段使用统计及可视化展示

MARC Usage in WorldCat(WorldCat中MARC使用)是OCLC研究部的一个项目(活动),由Roy Tennant主持,统计WorldCat中约3亿条书目记录所用MARC字段及子字段的出现频次,研究向WorldCat质量控制提供报告,结果也向美国国会图书馆的书目控制框架计划(Library of Congress Bibliographic Framework Transition Initiative)提供。
目前数据已公布在OCLC的实验网页(MARC Usage in WorldCat),可以从该项目页右侧的Try the online demo链接进入。
该网页主要是按字段列出WorldCat数据库中各字段(及部分子字段、指示符)的出现次数,有2013年1月1日、4月1日、7月1日和10月1日四个时间段。001字段应该是所有记录都有的,可以由此推知1月1日时书目记录为289,294,984条、馆藏为1,933,291,143条,10月1日时书目记录为305,793,670条,馆藏为2,063,992,259条——今年年中WorldCat实现了书目超3亿、馆藏超20亿。
可下载各字段的数据,也可在线请求未公布子字段的数据,但未见提供全部字段数据的下载。让人逐个字段下载实在比较无聊,各字段同时提供的数据图(Chart this Data)也没多大意思,但全部字段的可视化图做得很好,有按格式按字段两个图,前者从不同类型文献角度看各字段的出现次数及在其中所占比例,后者从字段角度看不同类型文献的出现次数及在其中所占比例(鼠标移到相应位置显示数值)。

All Formats: Zoomable Starburst - By Formats

All Formats: Zoomable Starburst – By Formats

 

 

 

All Formats: Zoomable Starburst - By Tags
All Formats: Zoomable Starburst – By Tags

 

 

 

 

 

 

 

 

 

via hangingtogether.org: Visualizations of MARC Usage (2013-12-2)

参见:OCLC Research to Study MARC Tag Usage in WorldCat to Determine Best Use of Data Encoded Using MARC Standard (2013-2-8)