SWIB19:语义网在图书馆会议(报告概要)

第11届语义网在图书馆会议(SWIB19)将于2019年11月25-27日在德国汉堡举行。第1天下午是培训讲习班;第2-3天会议,主旨发言分别是Saskia Scheltjens和曾蕾教授。会议议程有报告摘要,可以先了解大致情况。

首次SWIB会议2009年举办,会名缩写来自德文(SEMANTIC WEB IN BIBLIOTHEKEN),历届会议报告也大都来自欧州。本次会议可见欧洲对语义网/关联数据在图书馆应用探索深入,尤其是多国的国家图书馆。

培训班(半天)

教授相关软件的实际操作,可了解语义网/关联数据在图书馆领域的在用工具。今年有5个培训:

  • 1、Jupyter Notebooks入门(交互式笔记本)
  • 2、用Cocoda映射受控词表
  • 3、OpenRefine入门【参见:OpenRefine数据处理工具(2016-7-9)】
  • 4、用Annif自动化主题标引
  • 5、动手IIIF:如何安装、配置和准备简单的IIIF服务(国际图像互操作框架International Image Interoperability Framework)

第1天会议

1、(主旨报告)永远在两者之间:图档博关联开放数据(LODLAM)的异同、机遇与责任 / Saskia Scheltjens(荷兰国立博物馆)

2、在Data.Bibliotheken.nl上发布关联数据 / René Voorburg(荷兰国家图书馆)荷兰国家图书馆的data.bibliotheken.nl,目前以schema.org序列化,正在进行基于LRM和PREMIS的模型。

3、2千万个URI和芬兰图书馆界主题索引的全面改革 / Matias Frosterus等(芬兰国家图书馆)从叙词表YSA转换到本体YSO;不仅全国联合目录Melinda转换,还有开源转换程序提供其他图书馆本地使用。

4、进出:西班牙国家图书馆的图书馆数据和关联数据之间的工作流程 / Ricardo Santos(西班牙国家图书馆)由VIAF标识符数据包文件抽取Wikidata标识符,加载到规范记录;再从Wikidata提取8万多人的属性信息,丰富规范数据。

5、从原始数据到更丰富的数据:汇总元数据时的经验教训 / Julia Beck(德国法兰克福大学图书馆)汇总德语文化遗产机构的演艺元数据(异构数据)于VuFind搜索门户

6、NAISC:图书馆领域的权威关联数据互连方法 / Lucy McKenna等(爱尔兰都柏林三一学院)继续SWIB 2018曾介绍的NAISC,创建实体(如人、地点或作品)间链接,采用PROV-O作为基础本体加以扩展。

7、酷和BnF帮:法国国家图书馆关于处理永久标识符的一些想法 / Raphaëlle Lapôtre(法国国家图书馆)

第2天会议

1、(主旨报告)用于数字人文的智慧数据 / 曾蕾(美国肯特州立大学)

2、数字资源和研究数据:链接且可用 / Florian Kräutli等(德国马克斯·普朗克科学史研究所)马克斯·普朗克人文数字研究基础设施(MP-DRIH),基础架构的中心是知识图谱,使用CIDOC-CRM作为通用模型,采用基于语义数据平台Metaphactory的软件系统ResearchSpace使用生成的图谱。

3、BIBFRAME内外的数据建模 / Tiziana Possemato(意大利@Cult and Casalini Libri公司)依据BIBFRAME,Share-VDE已进入生产阶段。扩展BF本体,增加概念:超级作品、主实例。【其用户界面与早先的Share目录类似。参见:BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25】

4、图书馆目录的实证评估 / Péter Király(德国GWDG)用工具分析MARC目录的问题:字段/子字段/指示符、词典取值等错误;计算完整性,基于FRBR用户任务运行功能分析。

5、简单应用纲要/应用程序配置文件设计 / Karen Coyle / Tom Baker(DCMI)2019.4成立的DCMI AP兴趣小组的工作

6、SkoHub:通过ActivityPub基于KOS的内容联合 / Adrian Pohl等(德国hbz)/ Felix Ostrowski(graphthinking GmbH)2家企业合作的SkoHub项目,利用社交网络协议ActivityPub,发送和订阅受控词表中定义的主题的通知。

7、提出丰富的关联开放数据集视图:S路径原型和data.bnf.fr中FRBR化数据的可视化 / Raphaëlle Lapôtre等(法国国家图书馆,法国国家信息与自动化研究所)data.bnf.fr团队与人机交互研究团队ILDA合作,设计交互数据可视化界面“S路径”,使用户可以更直观地导航关联开放数据。S路径对于揭示数据源中的缺陷、可视化建模特性以及显示可用于与最终用户进行通信的数据趋势非常有用。

8、目标词汇表映射 / Niklas Lindström(瑞典国家图书馆)

9、在OCLC研究部的关联数据Wikibase原型中表示图书馆元数据的经验教训 / Karen Smith-Yoshimura(美国OCLC)

参见:
OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)
OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)
用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

知识图谱、语义网、关联数据

2014年时,约翰霍普金斯大学图书馆系统馆员Jonathan Rochkind写了篇博文:语义网还是个事儿吗?当时我作了译介(2014-11-8)。一年后他离开了已经工作9年并且热爱着的图书馆,去了一家软件公司就职。发消息前两天他写了长篇博文《关联数据注意事项》(Linked Data Caution),用众多事实佐证自己先前的看法。在离开博文中,他说自己身心俱疲(Career change, 2015-11-25),不是因为关联数据而离开,但那篇博文可作为他的临别赠言。可以看出他对图书馆前景的深度失望,以及对图书馆界在关联数据上投入巨大的深度担忧。

今天看到鲍捷的《从语义网到知识图谱——语义技术工程化的回顾与反思》,让我又想起Jonathan Rochkind和他对关联数据的看法。计算机领域变化太快,不同观点太多(或者说共识少,要不然也不会有那么多死在沙滩上的前浪),鲍文的观点有待验证。无论如何,作笔记如下。

———从语义网到知识图谱——语义技术工程化的回顾与反思(笔记)———
– 基本观点:“语义网”这两年改名“知识图谱”;工程优于科学【逻辑】。
关于关联开放数据:Tim Berners-Lee(就是我们的神)呼吁:语义网 -> (因为感觉走偏)2006年提出关联数据 -> 2009年公开数据(用RDF结构化)。
关于元数据和知识图谱:元数据 -> 演变成RDF -> 然后演变成一堆奇奇怪怪的语言 -> 然后是schema.org【一统天下?】 -> 最后演变到了今天的知识图谱。
关于RDF:RDF不适合作为存储语言。
RDF的发展:知识的交换语言 -> 数据建模语言 -> 数据存储语言。作为存储语言,由于要完全从头开发,高成本低性能而失败。
2013年Google推目前知识图谱用的Microdata,后来JSON-LD,充分利用现有工具。
存储语言:RDF数据 -> 图数据库(键值数据库?)。图数据库比三元组库和SPARQL更主流。
【乱弹:如此则RDF与MARC倒是很类似,是交换语言而非存储语言。ILS内部并不按MARC格式保存】
关于本体语言OWL和RDF1.1:弱语义的语义网,优于强语义的OWL。
OWL2语言很失败、没人用。
2004的RDF语义是怪胎,2014年RDF1.1是厄运的开始。【在计算机界,常见不同版本并用,并非未及升级,如当年的RSS】
逻辑或推理非常需要成本,在实践中很少使用。大多数时间有数据就够了,有一个结构化的东西就好。
Dublin Core等没能发展起来,因为都是面向机器的,它考虑的是怎么提高机器的效率。RSS想的是我怎么提高人的效率,这样就火起来了。【图书馆界在说要让机器能够用数据,他说要让人用得高效】
构造知识图谱,需要知识工程的技术,需要自然语言处理的技术,需要规则系统,需要正则表达式。有效的才是最好的。

——— Google趋势:知识图谱vs语义网vs关联数据———
在先前博文中语义网(SW)和关联数据(LD)搜索对比基础上,增加知识图谱(KG)做对比。Google搜索趋势显示,在SW下降与LD上升趋势交汇后的2012年5月,KG异军突起超出SW和LD,2012年12月出现第2个超出SW和LD的峰值,其他时间均在两者之下,搜索量起伏不大。SW仍持续下跌,LD则平稳起伏。

Google Trends: KG,SW,LD

另看国家趋势
KG前五:印度100、美国60、德国50、英国47、法国39(没有其他国家)
SW前五:韩国100、巴基斯坦98、印度87、奥地利85、爱尔兰/伊朗74,(英国37、美国30)
LD前五:印度100、巴基斯坦68、菲律宾28、英国/美国均21

语义网还是个事儿吗?

十多天前,黑客新闻(Hacker News)上有人提问,引来一百多条回复。问题是:“几年前,好像每个人都在谈语义网是下一件大事。发生了什么吗?那地方现在还有创新工作吗?人们还感兴趣吗?”从回复看,语义网似乎已经走向了末路,其中一条大概可以说明语义网的现状:“原来(伯纳斯-李等)提出的语义网,如同去年路毙的动物那样死了,尽管还有很多装着不是这么回事。还有很多小组试图复兴最初的想法,或者如知识管理领域的很多事,他们只是简单地改变定义,纳入其他看上去类似、或许能替代的事”。多人提到其产出低,用其中一位的说法是:“所有把语义标记放在没有回报的努力上是一个愚蠢的主意”。有一位指出“语义网不像联盟,更像共产主义”,显见其因缺乏商业模式而遥不可及。
约翰霍普金斯大学的系统馆员Jonathan Rochkind在其博客上,针对该提问及回复写了博文《语义网还是个事儿吗?》,总结了语义网/关联数据的现状,对图书馆界的关联数据热提出质疑。

他首先说明: “关联数据”基本上和“语义网”谈的是相同技术,是“语义网”的一种新品牌,只是关注点有些小变化。然后指出:图书馆界正将很大精力放在尝试生产“关联数据”,而我认为关注更大的世界中正发生什么很重要。
其博文的主要观点有二:
其一,图书馆界因为视语义网/关联数据为技术发展方向而跟随,希望跨出自己的小圈子,不再创建图书馆自己的特定标准,但事实上“其他人似乎没有走向数年前人们希望的那条路”。当下反倒是图书馆及其他没有商业压力的文化遗产机构和民间组织才是探索关联数据的主体。
其二,图书馆更应该关注自己数据的质量、共享自己的数据,并建立适用的模型,而不是盲目跟风“关联数据”。

读完博文,用Google趋势对比了“语义网”和“关联数据”,前者十年间下降趋势明显,而后者呈稳中有升状态,自2012年前后超出前者;中文世界大部分时候“关联数据”在“语义网”之上,但均呈下降状态。
SemanticWeb&LinkedData2005-2015-GoogleTrends

SemanticWeb&LinkedData2005-2015-GoogleTrends-中文

———-语义网还是个事儿吗?(原文摘译)———-
Bibliographic Wilderness: “Is the semantic web still a thing?” (October 28, 2014)

– GIGO(垃圾入垃圾出)
取原有同样数据转换格式为“关联数据”不一定增加多少价值。如果是以前未很好受控、未很好建模或不完整的数据,即使采用RDF它还是那样。改善数据质量,比转换格式为关联数据/RDF,可使数据增加更多的潜在价值、更多的附加利用
– 但请共享数据
如果你的数据有价值,开发者会发现用它的途径,简单地提供已有数据,比试图转换为关联数据更便宜。你可以发现是否有人感兴趣。如果无人对你那样的数据感兴趣——不可能在你把它建模为“关联数据”后,对其兴趣就大大增加
– 跟潮流vs做工作
部分问题是,建模数据本质上是一个上下文相关行动。没有普遍适用的模型——这里谈的是本体层的实体和关系,在数据中作为不同实体表达的对象、它们如何关联。不管建模为RDF还是定制XML,建模世界的方法对不同环境、领域与商业可能有用,也可能无用甚至不可用。……
这些不是不能解决的问题,而是有趣的问题,是图书馆作为专业信息组织应当有兴趣致力解决的问题。语义网/关联数据技术可能在解决方案中起很好的作用(尽管很难明确它们正是“这个”答案)。
对图书馆来说,有兴趣致力于这些问题很好。但致力于这些问题意味着“致力于”这些“问题”,意味着花资源在调研和研发,员工具有正确的专长与组合。不意味着盲目跟从关联数据风潮,因为(错误地)相信它已经被图书馆外(意味着“比图书馆更时髦”)的人们判断为正确的途径。