PatentsView:专利数据可视化平台

建立于2012年的 PatentsView 专利数据可视化和分析平台,由美国专利商标局联合多家机构开发,是美国政府信息公开的组成部分,目的在于增加美国专利数据的价值、可用性和透明度。虽然只是美国专利,但专利申请者来自世界各国,因此可以概览世界各国、各技术领域的专利情况。
PatentsView 利用专利元数据,从技术分类、受让人/权利所有人、引用模式、位置(国家、美国州)、合作发明者网络等不同途径,呈现百多年来的美国专利。 除了可视化展示,数据还提供API、直接查询和批量下载3种利用方式,以CC-By共享。这是从数字化(专利数据库)到数据化的一个很好例子。

网站提供的4种数据呈现方式
关系
可视化呈现2001年以来,前100项引用最多的专利,其受让人、专利数和发明人之间的关系。可限定地点(美国各州及国家,其中没有中国)和技术领域。
位置
以地图方式呈现2012年以来,各国各城市专利数量。
地图可以放大缩小。中国大陆完全被日本、韩国、台湾压倒,唯一亮点在深圳。上海可怜地在淹没在杭州苏州之下,要把地图放到很大才看得到那个小点。
比较
可视化呈现1976-2016年间,各国、美国各州或技术领域,专利数量变化与对比。
除了专利总量,还可以通过下拉选择,直观了解各国不同年份在不同技术领域的专利数量排名。比如来自中国的专利逐年增加,2016年位总量位列第4,其中化学、仪器也位列第4,而设计位列第3,机械工程和其他位列第6,植物位列第18(仅4件,各国数量都很少)。
查询
包括1976-2016年间专利,可以从专利、发明人、受让人及专利分类查询,以清单方式显示查询结果。可点击结果了解专利详情,并进一步到Google Patents看专利全文。
同时,还可以点击查询结果中的受让人等,获取类似前述“关系”的可视化呈现,如华为技术公司专利关系图;该公司专利最多的发明人(Wei Min Li,361件)的专利及与其他公司专利的关系。

网站提供的3种数据源,可供自主探索
API
提供7个端点,可从专利、发明人、受让人、国家及专利分类等获取数据,用于进一步分析。
网站列出可以探索的3个例子是:
1、【技术】哪些公司拥有3D打印专利?他们位于哪里?在他们得到3D打印专利前后,这些公司在哪些技术中创新?
2、【排名】在最近5年的美国专利中,什么技术最通用?专利排名靠前的美国城市和非美国城市?
3、【发明人】最近30年中,谁是最多产的美国发明人?他们的专利活动(专利数、专利类型和合作发明人)如何随时间变化?
– 查询(见前)
数据下载
数十个不同类型的原始数据文档,从数KB到数十GB不等,可下载后用于数据分析挖掘

比如微信“大数据文摘”上的“苹果VS谷歌,可视化两厂所有专利后看创新模式差异”,就是利用PatentsView制作的。本博文即看此文而撰写。

MARC字段使用统计及可视化展示

MARC Usage in WorldCat(WorldCat中MARC使用)是OCLC研究部的一个项目(活动),由Roy Tennant主持,统计WorldCat中约3亿条书目记录所用MARC字段及子字段的出现频次,研究向WorldCat质量控制提供报告,结果也向美国国会图书馆的书目控制框架计划(Library of Congress Bibliographic Framework Transition Initiative)提供。
目前数据已公布在OCLC的实验网页(MARC Usage in WorldCat),可以从该项目页右侧的Try the online demo链接进入。
该网页主要是按字段列出WorldCat数据库中各字段(及部分子字段、指示符)的出现次数,有2013年1月1日、4月1日、7月1日和10月1日四个时间段。001字段应该是所有记录都有的,可以由此推知1月1日时书目记录为289,294,984条、馆藏为1,933,291,143条,10月1日时书目记录为305,793,670条,馆藏为2,063,992,259条——今年年中WorldCat实现了书目超3亿、馆藏超20亿。
可下载各字段的数据,也可在线请求未公布子字段的数据,但未见提供全部字段数据的下载。让人逐个字段下载实在比较无聊,各字段同时提供的数据图(Chart this Data)也没多大意思,但全部字段的可视化图做得很好,有按格式按字段两个图,前者从不同类型文献角度看各字段的出现次数及在其中所占比例,后者从字段角度看不同类型文献的出现次数及在其中所占比例(鼠标移到相应位置显示数值)。

All Formats: Zoomable Starburst - By Formats

All Formats: Zoomable Starburst – By Formats

 

 

 

All Formats: Zoomable Starburst - By Tags
All Formats: Zoomable Starburst – By Tags

 

 

 

 

 

 

 

 

 

via hangingtogether.org: Visualizations of MARC Usage (2013-12-2)

参见:OCLC Research to Study MARC Tag Usage in WorldCat to Determine Best Use of Data Encoded Using MARC Standard (2013-2-8)

Google实验室新品Books Ngram Viewer:数据的可靠性

Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?