学术报告“另一个视界”与上图数字人文项目

出于对可视化的兴趣,周五(2017.8.11)去上海图书馆听学术报告。感谢上图开放学术资源让大家共享。

另一个视界:清华大学美术学院向帆副教授和朱舜山工程师学术讲座

会议通知中推荐的报告人微信公众号文章:
《数据追问-全国美展油画作品视觉化解读》
《我是不是有点皇亲国戚?》

报告安排在下午。可惜我在开讲没多久,就因收到私事信息急需处理,差不多一半时间在边听边开小差上网中。所幸前一晚先做了点功课,看过两位报告人的网站Z Lab,特别是其中的 Projects 板块,还能勉强跟上所讲内容。Z Lab网站共有11个项目(没有上述利用CBDB数据的家谱图),看过感觉一是可视化效果很酷炫(如微博地点钟的24小时);二是可视化设计也被作为一种实用的研究辅助工具(如热带森林数据可视化)。
本次报告涉及了Z Lab网站半数以上项目,听现场讲述比看介绍生动很多,尤其对“为什么会这么做”的解释,光看介绍是获取不到的。向帆老师把她的项目定位为现代艺术作品,而不是数字人文(或其他),至于被其他人用作分析工具,也被她视为作品的一部分,全国美展获奖作品分析就是一个典型例子。我的感觉,比如在CBDB家族谱系图、热带森林数据等,可视化应该更多是作为工具。当然由于向老师的美术背景,或许在设计时是作为艺术创作看待的。
问答阶段,向老师提到她也做了不少文本挖掘项目,比如张爱玲、海明威……,数字人文无疑。
听完比较“失望”的是,那些酷炫的效果,大多是朱舜山老师用代码写出来的,没有利用太多工具。视觉设计不易,实现也不具有可复制性。因此,只能是艺术品?两位老师珠联璧合,看得出在性格上也属互补型的。

——— 上海图书馆数字人文项目介绍 ———
当天上午是内部的上海图书馆数字人文项目介绍,希望请两位老师帮助改善可视化界面设计。
刘炜副馆长开场,夏翠娟做总体介绍,上图目前共有7个相关项目:1中国家谱总目(华人家谱总目——上海图书馆家谱知识服务平台),2盛宣怀档案,3名人手稿(上海图书馆名人手稿),4中文古籍联合目录及循证平台,5规范库(含人名、中国历史纪年、地理名词表、收藏机构名录等),6书目库,7上海历史文化时空再造——武康路。其中1、3、4、7后续由各自项目主管(抱歉没听清姓名)做详细演示,尤其是可视化部分。
向老师在看到名人手稿部分时指出:一般的可视化(饼图柱图之类),掩盖了最最让人感动的部分。——话说得没错,只不过图书馆是整理资料的,就像朱老师在整理全国美展获奖作品基础资料时所说的somebody:Somebody has to do the dirty work. 面对海量文献中充满个性化的内容,要当作艺术作品来创作,真的会使项目没有截止期的。
向老师问得最多的问题是:应用场景,用户需求。——或者说用例、故事,确实是需要首先考虑,也是当前图书馆做项目需要强调的,比如最近LD4社群“调和与实体解析工作组”正在征求用例(关联数据的“调和”与“解析”) 。
与邻座tsingove交换意见,作为基础设施的话,有时可能并不针对特定场景(当然那也是场景),提供数据就好,至于怎么用,留给第三方来开发。上图接连两年举办的关联数据竞赛,就是这种设想的体现。夏MM也解释,如古籍系统的某些预设应用,也是咨询过馆内领域专家的,是作为示范,让研究者了解数据可能怎么用,进而提出更多应用场景。
上午会议结束时,Keven总结数字人文项目中三方的角色:图书馆员作为领域专家与计算机开发者之间的桥梁。朱老师补充:要加上第四方设计师,了解用户体验。

关联数据的“调和”与“解析”

关联数据应用中,相同实体判定是重要工作,决定最终的应用效果。对于从原有数据转换而来的关联数据,这项工作尤其重要。比如从MARC转换到BIBFRAME、schema.org或其他格式,完成格式上的映射后,做一个转换程序不会太难,麻烦的是给转换后的实体配上相应的URI。当然可以简单地设置自家URI/IRI,但后续也需要与其他/通用URI匹配,才能发挥作用。比如把书目记录中的某个作者,关联到维基百科中的某个人物词条。调和与解析(Reconciliation & Resolution),就是对实体进行匹配。

LD4 Community Working Group on Reconciliation
基于安德鲁梅隆基金系列课题(LD4L、LD4L-Labs、LD4P)的LD4社群,在2017年5月成立了一个开放参与的“调和与解析工作组”,致力于解决这个问题。目前志愿参与的成员来自Europeana、芬兰赫尔辛基大学、美国国会图书馆、史密森学会、斯坦福大学、华盛顿大学、印第安那大学、加州大学圣迭戈分校、加州大学圣芭芭拉分校、加州大学校长办公室、艾利贝斯集团、Apache软件基金。
工作组目标是为文化遗产/GLAM(美术馆、图书馆、档案馆、博物馆)的资源元数据的调和与解析,总结匹配算法、工作流程、工具和功能需求
对于相关概念,小组认定的术语含义如下(目前工作内容仅涉及前二者):
调和(Reconciliation):实体/URI到实体/URI
实体解析(Entity resolution):字符串到实体/URI(常误称“调和”)
词汇化(Lexicalization):实体/URI到字符串(即得到相应的标签label)

调和与解析相关工作,在实际应用中可能不只是匹配一种情况。目前小组正在公开征集用例、功能需求、当前服务、工作流程等。有一个提交用例的简单模板,包括主要行动者(参与人员)、涉及范围、描述(story)三项内容。
GitHub上到今天(2017-8-10)已经提交了38个用例(编号21-76,有跳号),比如:#76跨语言匹配,#70运行优化,#68使用本体,#39断言两个实体不同。

via BIBFRAME listserv: Call for Reconciliation & Entity Resolution Use Cases / Needs / Stories. Brian Tingle. 8 Aug 2017
参见小组工作计划:LD4 Community Working Group on Reconciliation, 2017-2018 Work Plan

另参见:重量级图书馆关联数据项目LD4P获得资助(2016-5-10)

3R项目与RDA“四路径”

假期看RSC官网上2017年PPT,最新的是6月底ALA年会上的报告,好几个都是对先前会议上报告的更新,基本上看年会的就可以了。
报告重点自然是3R项目,2017.4-2018.4 RDA内容冻结,进行RDA内容重构和工具包网站重新设计。
RDA内容重构,主要是与IFLA-LRM一致,由此新增元素,也将导致章节发生较大变化,并推倒原有编号体系——变化会相当大。不过,应该类似RDA发布后的“重写”(re-write),条款内容/规则本身还是相对稳定的,因此ALA的RSC代表Kathy Glennan在年初ALA仲冬会议的RDA论坛称,这不是RDA2.0,只是一个新的“内容表达”Outcomes of the November 2016 RDA Steering Committee Meeting)。

3R项目参见:
RDA是个全球标准吗?以使用、翻译和治理作为指标(2016-10-20)
RDA将在2017年依照IFLA-LRM更新(2016-11-21)
RDA为3R项目所做修改(附:多个首选名称)(2017-2-19)

——— 四路径(4-fold path)———
多个报告涉及“四路径”(4-fold path)。按设想,更新后的RDA将在开始的总章中设置“四路径”节,每个元素章节中也会有相应的“四路径”部分。这是个值得注意的变化。
RDA编制过程中,时任RDA编辑的Tom Delsey曾向JSC提出过《RDA数据库实施场景》(RDA Database Implementation Scenarios, 5JSC/Editor/2/Rev, 1 July 2009),有3种场景:场景1关系/面向对象数据库结构,场景2关联书目和规范记录,场景3扁平数据库结构(无链接)。
针对不同场景,RDA提供3种基于文本/字符串(string)的表达方式(并非与以上场景一对一):
1非结构化描述(没有可供机器分拆的内部结构,只能抽取关键词。如转录、自由文本的附注)
2结构化描述(有某种形式的内部或外部结构,如由子元素值组成的规定顺序的字符串,来自取值词表或规范档的术语)
3标识符(“由代码、数字或其他字符串组成的nomen,通常独立于自然语言或社会命名惯例”,区别于基于语言的描述/著录,“本地的”、在全域范围内不唯一。如ISBN,ISNI)
另外在RDA注册/关联数据应用中,还有第4种方式:
4 IRI/URI(基于事物 thing,全域范围内唯一)
所谓“四路径”,即指这4种表示方式。

目前RDA中的结构化描述、非结构化描述,主要针对揭示FRBR实体间关系。但根据以上说明,广义而言也有其他元素提供上述3种方式(尤其是各种转录、各种附注),重构后将扩展到所有元素(不适用者除外),并且会提供相应的样例。ALA年会的《3R项目更新》报告(Update on 3R Project)举了元素”个人所用语言”的例子:
Element: language of person
* 非结构化描述:“The author writes in English”
* 结构化描述:“English”
* 标识符:“eng”
^ IRI: http://id.loc.gov/vocabulary/languages/eng
(其中*指字符串/string,^指事物/thing)

第4条路径的加入,是RDA进一步融入关联数据应用的反映。前面对四路径的说明性文字主要取自RSC现任主席Gordon Dunsire的ALA年会报告: Appellations, Authorities, and Access Plus。他还解释了四路径与LRM用户任务之间的关系:对于“识别”,如果有本地标识符或全域IRI,则不需要“首选”名称字符串;对于“查找”与“探索”,还是需要人读的名称;强调的重点由“规范形式”转向名称的多种形式,可参考虚拟国际规范档VIAF。
最后一句蕴含的意思是:既然名称的作用在于“查找”与“探索”而非“识别”(区分),自然各种名称形式多多益善,哪个“首选”已经不重要了。