密歇根大学图书馆数字馆藏

密歇根大学图书馆拥有近300个数字馆藏,很好奇如此多的馆藏是如何建立的。
University of Michigan Library – Digital Collections

仔细看该馆数字内容和馆藏部(Digital Content & Collections, DCC)网站,该部下设有数字转换组(Digital Conversion Unit, DCU),专门从事数字化工作,由用户提出需求、图书馆操作(具体实施时数字化工作可能外包):
其一,请求数字化本馆图书。此按需数字化服务免费,之前是作为馆际互借文献传递工作的一部分,现在相当于由读者代替馆员选择需要数字化的图书,完成后放在HathiTrust中提供服务(HathiTrust源自谷歌图书项目)。
其二,要求建立一个在线馆藏。读者提出项目建议、提供资料(已数字化或有待数字化),图书馆审核后实施并上线。
想来数百个数字馆藏,会有一定比例来自教学科研人员吧。

在《TEI图书馆最佳实践》第4版中,5级编码中第1-3级样例都是密歇根大学图书馆的数字馆藏(第3版第1-2级),当然都是2011年以前的。

1级项目:Making of America Books (MoA)
含约1万种19世纪出版物,由安德鲁 W 梅隆基金资助(密歇根大学和康奈尔大学)。2007年在某校友资助下数字转换了百余种有关纽约的文献【看清单不少是20世纪的】。
样例:Baby world: stories, rhymes, and pictures for little folks
常见问题中提到TEI:简单的SGML形式(40个符合TEI指南的元素)。部分是经验证的HTML文本,部分仍是原始图像,因为这部分OCR尚未验证,由该馆人文文本创始计划(Humanities Text Initiative)承担校对和改进标记。

2级项目:SPO Scholarly Monograph Series
SPO学术专着系列是由密歇根大学图书馆的前学术出版办公室(现为密歇根出版社的一部分)于2001年至2006年出版的跨学科的原创开放获取学术专着和论文集。在此期间,密歇根大学教师和图书馆成员共同探索新的出版模式和方法。 这些电子书是这种合作的一些成就。【从目次看,电子书格式同印刷版,应该是以TEI对目次及文前、文后进行了描述】
样例:Sports Culture Among Undergraduates: A Study of Student Athletes and Students at the University of Michigan

3级项目:Travels in Southeastern Europe2004年
从4种早年的波黑旅行出版物开始,根据扫描和审核四4个原始文本时收集的信息,另外扫描了本馆100多个其他品种,完成本项目。有目次(区分文前、章节、文后);但OCR未更正、不可替代图像(根据View entire text说明)。
样例:Bosnie et Herzégovine : souvenirs de voyage pendant l’insurrection

参见:《TEI图书馆最佳实践》第4版发布(附5级编码详解)(2018-10-6)

中文开放知识图谱相关网站

去年底在微信上看到哈工大姜天文的《知识图谱的发展概述》(2017-10-16),访问了其中提到的中文知识图谱网站。最近又看了专访王昊奋和漆桂林:AI-108将|偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸(邢书博. AI时间, 2018-8-6)。今日再访相关网站,汇总笔记如下。

一、平台:OpenKG.CN 中文开放知识图谱
中文知识图谱门户网站,汇集由成员机构上传的知识图谱数据集(或其信息)与相关工具。目前有成员57家(其中30多家上传了资源或资源信息),内容包括:
数据集81个(如上海图书馆有2个:名人手稿和华人家谱,似乎只是链接)
工具集47个(标注采用的编程语言等;也包括应用如“唐诗别苑”可视化平台的介绍)
漆桂林:“openKG已经汇集了百科类的知识图谱以及很多行业图谱,而且也在建立这些图谱之间的链接,这将有助于解决知识图谱的数据缺失问题”。

二、知识图谱数据集
见OpenKG.CN的数据集部分。大型综合知识图谱如下,内容大多从网络百科抽取,也多提供API方式利用:
1、zhishi.me(东南大学Knowledge Science and Engineering Lab)
数量统计:百度百科5,198,298、互动百科4,579,805、中文维基百科559,402(数据更新时间2015-11-24)
2、Xlore (清华大学知识工程研究室 KEG)
数量统计:14,951,135 实体,1,371,272 概念,512,883 关系,5000万+ 访问(2017.11.25/2018.8.19访问)
3、CN-DBpedia(复旦大学知识工场 KW Lab)
数量统计:API调用次数 638,237,313;实体数 17,064,759,关系数 222,987,218
4、大词林(哈尔滨工业大学社会计算与信息检索研究中心)
数量统计:(2018.8.19网站数据)约250万命名实体;类别共约15万个;平均每个命名实体有1.32个不同粒度的类别;上下位关系超过330万;(2017.10.16姜天文《知识图谱的发展概述》数据)约900万实体、约17万类别;平均每个命名实体有1.77个不同粒度的优质类别;上下位关系超过1千万对。
大词林与前3种数据集的不同点在于提供的是实体对应的各种属性及其层次关系(感觉可用于区分同名、提供推理)。“《大词林》以《同义词词林(扩展版)》为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。”

三、知识图谱用词表:cnSchema
从名称就可以看到schema.org的影子。“cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,我们复用、连接并扩展了Schema.org,Wikidata, Wikipedia等已有的知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema, 开发者也可以快速对接上百万基于Schema.org定义的网站,以及Bot的知识图谱数据API。”

四、知识图谱工具
自己不懂技术,感兴趣者可到OpenKG.CN的工具集部分找,可能也不乐观。漆桂林说:“缺工具的问题比较明显,这里的工具不是单指某一个算法实现后的工具,而是工具群以及把这些工具群整合在一起的平台”。“举个例子,关系抽取有不少算法,也有一些开源的工具,但是商用的时候不是一个算法可以解决问题的,往往需要把一套关系抽取工具集成起来才有效,这种可以解决用户问题的工具是缺失的,需要通过公司化运作来实现。大公司大部分都是这么做的,但是他们的工具只是给自己用,不会开放出来。可喜的是,目前有一些小公司正在做知识图谱的实用工具和平台,今年或者明年应该会有一些很不错的产品出现,这也将是知识图谱快速发展的契机。”

——— 大型知识图谱数据集中的“绍兴”和“毛泽东”———
想了解各个数据集情况。想到用“绍兴”查,是因为同名既可能是时间、也可能是地点。查百度百科后发现不止这么简单,共有6个同名词条:1浙江省下辖地级市、2绍兴市下辖县,3西辽仁宗年号、4宋高宗年号,5汉语词汇,6郑燮的诗。
查找结果:CN-DBpedia具有实用性。如何保证知识图谱数据的真实性、准确性、时效性,恐怕仍然是待解决的问题。

1、zhishi.me:绍兴
2个结果,都是地点:(1)中文维基:绍兴市;(2)百度百科:绍兴(浙江省下辖地级市)。
感觉每种百科只取1个结果。再查“毛泽东”验证:3个结果,维基、百度、互动3种百科各1个。

2、Xlore:绍兴
3个结果,不同性质:(1)绍兴(instance):西辽年号;(2)绍兴(concept):地名;(3)绍兴(绍兴府)(instance):历史地名。
绍兴(西辽年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列。
不知道为什么会缺南宋年号。同名检索结果分instance和concept。再查“毛泽东”:2个结果,同样1个实例、1个概念。

3、CN-DBpedia:绍兴
5个结果(多义词):(1)绍兴(浙江省下辖地级市),(2)绍兴(宋高宗年号),(3)绍兴(西辽仁宗年号),(4)绍兴(郑燮的诗),(5)绍兴(汉语词汇)。
绍兴(西辽仁宗年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列;国家:契丹族【最后1条Xlore无,来源不同还是识别实体差异?】
绍兴(宋高宗年号)详细信息:开始:1131;结束:1162;属于:宋高宗年号【与上条相比,显然没有固定格式,由来源数据生成】
绍兴(浙江省下辖地级市)详细信息中有市长、市委书记,没有关联时间。
结果数量非常接近百度百科:少了词条名现为“柯桥区”的“绍兴县”。应该是百科词条全收。
再查“毛泽东”得到验证,15个结果除了人名(无产阶级革命家)外,还有图书名、影视片名。选择人名有可视化(RDF图)、时间线(历史长河)、好奇心(自己探索关系)——一个比一个好玩

4、大词林:绍兴
14个结果(不同属性):中国地名、中国城市、中国市县、人、企业、县、地点、城市、市、时空、浙江县区、浙江城市、行政区划、都市【“人”不知是谁】。并提供这些结果间层次关系图。
姜天文:“《大词林》的构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。”
从去年和今年两次查“毛泽东” 的结果看,确实在不断丰富。但质量是不是更好就不好说了,特别看“别名”:
2017.11.25:石三伢子、二十八画生 等、毛润之
2018.8.19:* Shaoshan* 毛泽东纪念馆* 毛主席纪念堂* Chairman Mao Zedong Memorial Hall* 德州扒鸡* Comrade Mao Zedong Memorial
去年还是真正的别名。现在变成了韶山和2个纪念机构(及其英文名称),竟然还有“德州扒鸡”!——于是百度一下“毛泽东 德州扒鸡”,第一页结果中都有这样的信息:“五十年代,国家副主席宋庆龄从上海返京途中,曾多次在德州停车选购德州扒鸡送给毛泽东主席以示敬意”。那为什么没有“红烧肉”?

高校图书馆作为学术出版社:书目及概述

一索即得的数字时代,Charles W. Bailey仍在孜孜不倦地做书目,在“数字学术”网站。值得专门做书目的,可以认为是热门话题,或者体现某种潮流。该网站始于1989年,现设置3个版块:数字学术概述数字监护/数字保存作品开放获取作品,每个包含数量不等的不同专题书目。如果要做相关研究,不妨浏览下。
本博中介绍过的有:
数据监护书目(Data Curation:数据监护?数据保管?2011-5-22)
替代计量学书目(替代计量学(Altmetrics)备记,2014-6-1)
研究数据管理书目(研究数据管理书目(2009-2017),2018-4-19;数据监护书目第9版)

最新发布的是《高校图书馆作为学术出版社书目》(2018),归在“开放获取”版块:
Academic Library as Scholarly Publisher Bibliography / Charles W. Bailey, Jr. (7/25/2018)
书目导言是对此主题的概述。看完才知道,“数字学术”网站就出自图书馆出版的最初践行机构——休斯顿大学图书馆。
via [DIGLIB] Academic Library as Scholarly Publisher Bibliography / Digital Scholarship (2017-7-25)

下月在马来西亚首都吉隆坡召开的IFLA 2018年会上,将有一个图书馆出版分会场,正是此书目对应的主题。通知称会议将讨论开发一个提交给IFLA的行动计划(Action Plan),探讨成立一个特殊兴趣小组(Library Publishing SIG)——足以说明这是一个“快速成长的实践领域”。
via [IFLA-L] Please Join Us! 2018 WLIC – Formation of IFA’s Library Publishing SIG / Ann Okerson (2018-7-26)

翻译《高校图书馆作为学术出版社书目》导言附后,了解一下英语国家现状——最后关于大学出版社的,离我们实在太过遥远。当然,北京大学期刊网是个很好的样版。
[说明:university libraries=大学图书馆;academic libraries=高校图书馆]

—–《高校图书馆作为学术出版社书目》导言—–
《高校图书馆作为学术出版社书目》包括超过125种精选英文文章、书籍和技术报告,这些文章有助于理解自1980年代后期以来高校图书馆的数字学术出版活动,特别是他们的开放获取图书和期刊出版活动。参考书目涵盖以下子主题:1980年代和1990年代开创性的高校图书馆出版项目,图书馆员(不同于图书馆)出版的早期数字期刊和连续出版物,自布达佩斯开放获取倡议以来基于图书馆的学术出版,技术出版基础设施,以及图书馆和大学出版社合并/合作伙伴关系和其他相关工作。

这是图书馆出版联盟(Library Publishing Coalition, LPC)对图书馆出版的定义
LPC将图书馆出版定义为由大学和大学图书馆领导的一系列活动,以支持学术、创意和/或教育作品的创作、传播和保管。
通常,图书馆出版需要一个制作过程,提供以前没有提供的原创作品,并对发布的内容应用一定程度的认证,无论是通过同行评审还是通过机构品牌的扩展。
基于核心图书馆的价值观,并以图书馆员的传统技能为基础,它与其他出版领域的区别在于偏好开放获取传播,以及愿意接受非正式和实验形式的学术交流并挑战现状。

从1980年代末开始,大学图书馆是互联网上数字学术期刊的首批出版社之一。在休斯顿大学图书馆馆长Robin N. Downes的批准和支持下,开放获取期刊《公共访问计算机系统评论》(The Public-Access Computer Systems Review)于1989年8月启动,第一期于1990年1月出版。1991年,弗吉尼亚理工大学图书馆出版了第一期《国际酒店研究学院期刊》(Journal of the International Academy of Hospitality Research)。在《2018年图书馆出版目录》中,弗吉尼亚理工大学图书馆列名出版五个“基于校园的学生驱动的期刊”和六个“根据外部团体合同/谅解备忘录生产期刊”。斯坦福大学图书馆于1995年建立了HighWire出版社,出版了《生物化学杂志》(Journal of Biological Chemistry)作为其第一份期刊。截至2015年3月,HighWire Press总共发表760万篇文章,其中240多万篇为开放获取文章。经过Downes的批准,休斯顿大学图书馆于1996年10月开始出版《学术电子出版书目》,这是一本开放存取的书籍。这本数字图书在1996年至2006年期间更新了64次。
1990年代由大学图书馆参与的数字期刊出版项目包括:欧几里德项目(Project Euclid,康奈尔大学图书馆和杜克大学出版社),BioOne项目(堪萨斯大学,Big 12 Plus图书馆联盟和其他合作伙伴),缪斯项目(Project Muse,约翰霍普金斯大学出版社和米尔顿艾森豪威尔图书馆)。
图书馆员出版的早期数字期刊和连续出版物包括:……【略】
在1990年代,大学图书馆也是主要学术出版社风险投资的重要数字期刊出版测验场,如CORE项目、红色Sage项目、SuperJournal项目和TULIP项目。……【略】
过去的16年中,学术和其他图书馆一直在不断出版图书、期刊和其他作品。这种复苏活动是由开放获取运动推动的,通常被视为从2002年布达佩斯开放获取倡议开始。高校图书馆建立了组织和技术基础设施来支持这一运动,通常使用为了推进它而创建的开源软件。对OA运动的越来越多的承诺引发了图书馆的重要文化变革,导致了由他们支持的机构知识库、学术交流部门和研究数据支持部门的激增。
“公共知识项目”(Public Knowledge Project)中的开源软件,如开源期刊系统(Open Journal Systems),经常用于基于图书馆的出版项目,不过也使用各种软件工具。有希望的新开源出版项目正在兴起,如Fulcrum、Hypothesis、Janeway、Manifold、PubPub、PubSweet、Scalar和Vega,但在本书目所涵盖的作品类型中没有很好地表现出来。
大学出版社正处于变革和重组的时期。他们越来越多地受到大学图书馆的行政控制。此外,正在建立全新的全数字开放获取大学出版社,通常是在大学图书馆的指导下或与之合作。