基于BIBFRAME的上海图书馆家谱本体发布

今年6月,夏MM在“数字人文与语义技术”(2014年图书馆前沿技术论坛)上做了《以书目框架建模的上图家谱知识库系统》的报告,介绍上海图书馆已经用BIBFRAME构建了家谱本体。
昨天(11月21日),上海图书馆在网站上[(update 2014-11-23)以关联数据形式]发布了基于BIBFRAME的家谱本体,目前为第一版(V1.0):
上海图书馆家谱本体:http://gen.library.sh.cn

网站长得和BIBFRAME词表很像,也提供了类似的模型视图、类视图和列表视图三种浏览模式。不过,在可视化及浏览导航上,比bibframe.org对人的可用性要好,有助于从整体上快速了解该本体:
– 模型视图:提供了5个类(核心类?)的可视化图示,分别是:
BF的作品Work、实例Instance、拥有单件HeldItem
自定义的家族Family、个人Person
– 类视图:左侧以等级方式展开所有类,包括:
BF类17个(除顶级类bf:Resource)
自定义shlgen类5个

当然比形式更值得关注的是内容,尤其是针对家谱资源的扩展内容。从类视图看,扩展的5个类(及属性)分别是:
(1)bf:Family的子类shlgen:Family(包括属性:始祖、支祖、始迁祖、名人、散居地)
(2)bf:Person的子类shlgen:Person(包括属性:字、名、行、号、家族、迁徙、时代)
(3)bf:Event的子类shlgen:Event
(4)shlgen:Event的子类shlgen:Migration(包括属性:原居地、迁居地)
(5)shlgen:FamilyName(包括属性:姓氏值)
扩展同名子类(而不是直接采用BF类)的目的,是要定义家谱独特的属性(见上)或类(迁徙事件)。
据了解,设置顶级类shlgen:FamilyName(姓氏),是为了未来扩展更多(超出家谱资源本身的)属性,比如姓氏的发源地、变迁等。

从列表视图看,上图家谱本体的类与属性的数量是:
– 类(Class):23个 = 18个BF类 + 5个shlgen类
– 属性(Property):49个 = 31个BF属性 + 2个FOAF属性 + 16个 shlgen属性(“事件”目前未出现在类视图中)

参见:
Bibframe.org的类与属性发布(2014年1月27日)
当时BIBFRAME定义了52个类、266个属性

数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)(2014年6月20日)

[update 2014-11-23] 网站的“发布说明”对该本体做了介绍(见下),右侧栏还有相关的论文及会议报告链接(Publications & Presentations(资料)),目前有如下三个:
– 刘炜,夏翠娟:《书目数据新格式BIBFRAME及其应用》大学图书馆学报,2014,1
– 夏翠娟:以书目框架建模的上图家谱知识库系统
– 夏翠娟,刘炜,张磊,朱雯晶:《基于书目框架(BIBFRAME)的家谱本体设计》图书馆论坛,2014,11

———-上海图书馆家谱本体第一版(V1.0)发布说明(全文抄录)———-
上海图书馆家谱本体是上海图书馆家谱知识库系统的前期成果,是为了更深入地对上海图书馆丰富的家谱馆藏资源进行基于内容的深度加工而设计的本体模型,包括一套术语词表。本体模型基于书目框架(BIBFRAME)而设计,词表也复用了BIBFRAME和FOAF的某些术语,同时根据家谱的特殊性自定义了少量术语。复用自BIBFRAME的术语前缀为bf,如bf:Work,自定义的术语前缀为shlgen,如shlgen:Person。

上海图书馆家谱本体此次在本网站发布的是第一版(V1.0),随着家谱数据的处理和家谱知识库系统建设的进一步深化,将来会进一步扩展。

本网站对上海图书馆家谱本体的发布采用了关联数据技术,遵循关联数据的四原则。
术语均赋予了URI,如http://gen.library.sh.cn/vocab/Person。
实现内容协商,如用普通的浏览器访问http://gen.library.sh.cn/vocab/Person,系统将返回Html页面,当用语义浏览器或语义代理(程序)访问http://gen.library.sh.cn/vocab/Person,系统返回关于Person的RDF/XML数据。 用W3C的RDF Validator可以体验。

本网站提供三种视图模式供用户浏览: 模型视图(Model View)、 类视图(Class View)和 列表视图(List View)。
模型视图(Model View):可视化地展示了家谱本体类和属性间的关系。
类视图(Class View):通过父类和子类的层级关系浏览类和属性。
列表视图(List View):按照类和属性名的首字母顺序排列展示类和属性。

语义网还是个事儿吗?

十多天前,黑客新闻(Hacker News)上有人提问,引来一百多条回复。问题是:“几年前,好像每个人都在谈语义网是下一件大事。发生了什么吗?那地方现在还有创新工作吗?人们还感兴趣吗?”从回复看,语义网似乎已经走向了末路,其中一条大概可以说明语义网的现状:“原来(伯纳斯-李等)提出的语义网,如同去年路毙的动物那样死了,尽管还有很多装着不是这么回事。还有很多小组试图复兴最初的想法,或者如知识管理领域的很多事,他们只是简单地改变定义,纳入其他看上去类似、或许能替代的事”。多人提到其产出低,用其中一位的说法是:“所有把语义标记放在没有回报的努力上是一个愚蠢的主意”。有一位指出“语义网不像联盟,更像共产主义”,显见其因缺乏商业模式而遥不可及。
约翰霍普金斯大学的系统馆员Jonathan Rochkind在其博客上,针对该提问及回复写了博文《语义网还是个事儿吗?》,总结了语义网/关联数据的现状,对图书馆界的关联数据热提出质疑。

他首先说明: “关联数据”基本上和“语义网”谈的是相同技术,是“语义网”的一种新品牌,只是关注点有些小变化。然后指出:图书馆界正将很大精力放在尝试生产“关联数据”,而我认为关注更大的世界中正发生什么很重要。
其博文的主要观点有二:
其一,图书馆界因为视语义网/关联数据为技术发展方向而跟随,希望跨出自己的小圈子,不再创建图书馆自己的特定标准,但事实上“其他人似乎没有走向数年前人们希望的那条路”。当下反倒是图书馆及其他没有商业压力的文化遗产机构和民间组织才是探索关联数据的主体。
其二,图书馆更应该关注自己数据的质量、共享自己的数据,并建立适用的模型,而不是盲目跟风“关联数据”。

读完博文,用Google趋势对比了“语义网”和“关联数据”,前者十年间下降趋势明显,而后者呈稳中有升状态,自2012年前后超出前者;中文世界大部分时候“关联数据”在“语义网”之上,但均呈下降状态。
SemanticWeb&LinkedData2005-2015-GoogleTrends

SemanticWeb&LinkedData2005-2015-GoogleTrends-中文

———-语义网还是个事儿吗?(原文摘译)———-
Bibliographic Wilderness: “Is the semantic web still a thing?” (October 28, 2014)

– GIGO(垃圾入垃圾出)
取原有同样数据转换格式为“关联数据”不一定增加多少价值。如果是以前未很好受控、未很好建模或不完整的数据,即使采用RDF它还是那样。改善数据质量,比转换格式为关联数据/RDF,可使数据增加更多的潜在价值、更多的附加利用
– 但请共享数据
如果你的数据有价值,开发者会发现用它的途径,简单地提供已有数据,比试图转换为关联数据更便宜。你可以发现是否有人感兴趣。如果无人对你那样的数据感兴趣——不可能在你把它建模为“关联数据”后,对其兴趣就大大增加
– 跟潮流vs做工作
部分问题是,建模数据本质上是一个上下文相关行动。没有普遍适用的模型——这里谈的是本体层的实体和关系,在数据中作为不同实体表达的对象、它们如何关联。不管建模为RDF还是定制XML,建模世界的方法对不同环境、领域与商业可能有用,也可能无用甚至不可用。……
这些不是不能解决的问题,而是有趣的问题,是图书馆作为专业信息组织应当有兴趣致力解决的问题。语义网/关联数据技术可能在解决方案中起很好的作用(尽管很难明确它们正是“这个”答案)。
对图书馆来说,有兴趣致力于这些问题很好。但致力于这些问题意味着“致力于”这些“问题”,意味着花资源在调研和研发,员工具有正确的专长与组合。不意味着盲目跟从关联数据风潮,因为(错误地)相信它已经被图书馆外(意味着“比图书馆更时髦”)的人们判断为正确的途径。

OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议

OCLC研究部2014年7月7日到8月15日在网上做了一个关联数据项目与服务调查,针对图书馆档案馆发布关联数据,以及在自己的数据或应用中摄入关联数据资源,目的在于了解谁、为什么使用关联数据。
调查信息通过其博客hangingtogether.org发布,8月底Karen Smith-Yoshimura在该博客上分6次发布了调查分析结果,并提供原始调查结果汇总表供下载。
调查对象要求是已经或正在实施关联数据项目的,但在收到的122个参与者,有26个目前并未实施,只是有计划或兴趣。其余96个实施了172个关联数据项目/服务,其中76个项目被描述:25个消费关联数据,4个发布关联数据,47个既消费也发布。对项目进行描述的47个机构有很好的国际代表,过半在美国,其余来自14个国家:澳大利亚、加拿大、捷克、法国、德国、爱尔兰、意大利、荷兰、挪威、新加坡、韩国、西班牙、瑞士、英国。调查得到的数据及分析,对了解当前国际上图博档领域关联数据应用现状很有参考价值。
以下概述7篇博文内容:

So who is using linked data? And for what? / July 7, 2014
发布调查邀请,说明调查目的等(调查链接已失效)

Linked Data Survey results 1 – Who’s doing it (Updated) / August 28, 2014
关联数据调查结果1:谁在做
调查结果概述(见前),参与调查机构、日均请求、是否成功达到期望结果、机构中参与的部门等

Linked Data Survey results 2: Examples in production (Updated) / August 29, 2014
关联数据调查结果2:成果举例
关联数据项目简介

Linked Data Survey results 3–Why and what institutions are consuming (Updated) / September 1, 2014
关联数据调查结果3:为什么及什么机构在消费
消费关联数据的理由、方法、关联数据源、面临的障碍或挑战。

用得最多的关联数据源
* id.loc.gov – 30
* DBpedia – 25
* GeoNames – 25
* VIAF – 24

Linked Data Survey results 4–Why and what institutions are publishing (Updated) / September 3, 2014
关联数据调查结果4:为什么及什么机构在发布
发布关联数据的理由、发布的数据类型、许可、面临的障碍或挑战。

用得最多的RDF词表与本体
* SKOS – 38
* FOAF – 30
* Dublin core terms – 29
* Dublin core – 27
* Schema.org – 22
(关注:RDA–10;BIBFRAME–6)

Linked Data Survey results 5 – Technical details / September 5, 2014
关联数据调查结果5:技术细节
访问方法、序列化、消费技术、发布技术。

访问方法前3位
* Web pages 网页 – 25
* SPARQL Endpoint – 24
* file dump 文件下载 – 23

序列化前3位
* RDF/XML – 47
* Turtle – 30
* RDF/JSON – 26

Linked Data Survey results 6 – Advice from the implementers / September 8, 2014
关联数据调查结果6:来自实施者的忠告
建议、资源推荐、调查结果源数据下载

忠告:困难的是什么?[1]组织支持与人员配置;[2]词表;[3]技术;[4]法律问题……

[update 2014-10-29] 参见荔园图志:OCLC发布关联数据调查报告 (2014-10-21)