语义网还是个事儿吗?

十多天前,黑客新闻(Hacker News)上有人提问,引来一百多条回复。问题是:“几年前,好像每个人都在谈语义网是下一件大事。发生了什么吗?那地方现在还有创新工作吗?人们还感兴趣吗?”从回复看,语义网似乎已经走向了末路,其中一条大概可以说明语义网的现状:“原来(伯纳斯-李等)提出的语义网,如同去年路毙的动物那样死了,尽管还有很多装着不是这么回事。还有很多小组试图复兴最初的想法,或者如知识管理领域的很多事,他们只是简单地改变定义,纳入其他看上去类似、或许能替代的事”。多人提到其产出低,用其中一位的说法是:“所有把语义标记放在没有回报的努力上是一个愚蠢的主意”。有一位指出“语义网不像联盟,更像共产主义”,显见其因缺乏商业模式而遥不可及。
约翰霍普金斯大学的系统馆员Jonathan Rochkind在其博客上,针对该提问及回复写了博文《语义网还是个事儿吗?》,总结了语义网/关联数据的现状,对图书馆界的关联数据热提出质疑。

他首先说明: “关联数据”基本上和“语义网”谈的是相同技术,是“语义网”的一种新品牌,只是关注点有些小变化。然后指出:图书馆界正将很大精力放在尝试生产“关联数据”,而我认为关注更大的世界中正发生什么很重要。
其博文的主要观点有二:
其一,图书馆界因为视语义网/关联数据为技术发展方向而跟随,希望跨出自己的小圈子,不再创建图书馆自己的特定标准,但事实上“其他人似乎没有走向数年前人们希望的那条路”。当下反倒是图书馆及其他没有商业压力的文化遗产机构和民间组织才是探索关联数据的主体。
其二,图书馆更应该关注自己数据的质量、共享自己的数据,并建立适用的模型,而不是盲目跟风“关联数据”。

读完博文,用Google趋势对比了“语义网”和“关联数据”,前者十年间下降趋势明显,而后者呈稳中有升状态,自2012年前后超出前者;中文世界大部分时候“关联数据”在“语义网”之上,但均呈下降状态。
SemanticWeb&LinkedData2005-2015-GoogleTrends

SemanticWeb&LinkedData2005-2015-GoogleTrends-中文

———-语义网还是个事儿吗?(原文摘译)———-
Bibliographic Wilderness: “Is the semantic web still a thing?” (October 28, 2014)

– GIGO(垃圾入垃圾出)
取原有同样数据转换格式为“关联数据”不一定增加多少价值。如果是以前未很好受控、未很好建模或不完整的数据,即使采用RDF它还是那样。改善数据质量,比转换格式为关联数据/RDF,可使数据增加更多的潜在价值、更多的附加利用
– 但请共享数据
如果你的数据有价值,开发者会发现用它的途径,简单地提供已有数据,比试图转换为关联数据更便宜。你可以发现是否有人感兴趣。如果无人对你那样的数据感兴趣——不可能在你把它建模为“关联数据”后,对其兴趣就大大增加
– 跟潮流vs做工作
部分问题是,建模数据本质上是一个上下文相关行动。没有普遍适用的模型——这里谈的是本体层的实体和关系,在数据中作为不同实体表达的对象、它们如何关联。不管建模为RDF还是定制XML,建模世界的方法对不同环境、领域与商业可能有用,也可能无用甚至不可用。……
这些不是不能解决的问题,而是有趣的问题,是图书馆作为专业信息组织应当有兴趣致力解决的问题。语义网/关联数据技术可能在解决方案中起很好的作用(尽管很难明确它们正是“这个”答案)。
对图书馆来说,有兴趣致力于这些问题很好。但致力于这些问题意味着“致力于”这些“问题”,意味着花资源在调研和研发,员工具有正确的专长与组合。不意味着盲目跟从关联数据风潮,因为(错误地)相信它已经被图书馆外(意味着“比图书馆更时髦”)的人们判断为正确的途径。

OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议

OCLC研究部2014年7月7日到8月15日在网上做了一个关联数据项目与服务调查,针对图书馆档案馆发布关联数据,以及在自己的数据或应用中摄入关联数据资源,目的在于了解谁、为什么使用关联数据。
调查信息通过其博客hangingtogether.org发布,8月底Karen Smith-Yoshimura在该博客上分6次发布了调查分析结果,并提供原始调查结果汇总表供下载。
调查对象要求是已经或正在实施关联数据项目的,但在收到的122个参与者,有26个目前并未实施,只是有计划或兴趣。其余96个实施了172个关联数据项目/服务,其中76个项目被描述:25个消费关联数据,4个发布关联数据,47个既消费也发布。对项目进行描述的47个机构有很好的国际代表,过半在美国,其余来自14个国家:澳大利亚、加拿大、捷克、法国、德国、爱尔兰、意大利、荷兰、挪威、新加坡、韩国、西班牙、瑞士、英国。调查得到的数据及分析,对了解当前国际上图博档领域关联数据应用现状很有参考价值。
以下概述7篇博文内容:

So who is using linked data? And for what? / July 7, 2014
发布调查邀请,说明调查目的等(调查链接已失效)

Linked Data Survey results 1 – Who’s doing it (Updated) / August 28, 2014
关联数据调查结果1:谁在做
调查结果概述(见前),参与调查机构、日均请求、是否成功达到期望结果、机构中参与的部门等

Linked Data Survey results 2: Examples in production (Updated) / August 29, 2014
关联数据调查结果2:成果举例
关联数据项目简介

Linked Data Survey results 3–Why and what institutions are consuming (Updated) / September 1, 2014
关联数据调查结果3:为什么及什么机构在消费
消费关联数据的理由、方法、关联数据源、面临的障碍或挑战。

用得最多的关联数据源
* id.loc.gov – 30
* DBpedia – 25
* GeoNames – 25
* VIAF – 24

Linked Data Survey results 4–Why and what institutions are publishing (Updated) / September 3, 2014
关联数据调查结果4:为什么及什么机构在发布
发布关联数据的理由、发布的数据类型、许可、面临的障碍或挑战。

用得最多的RDF词表与本体
* SKOS – 38
* FOAF – 30
* Dublin core terms – 29
* Dublin core – 27
* Schema.org – 22
(关注:RDA–10;BIBFRAME–6)

Linked Data Survey results 5 – Technical details / September 5, 2014
关联数据调查结果5:技术细节
访问方法、序列化、消费技术、发布技术。

访问方法前3位
* Web pages 网页 – 25
* SPARQL Endpoint – 24
* file dump 文件下载 – 23

序列化前3位
* RDF/XML – 47
* Turtle – 30
* RDF/JSON – 26

Linked Data Survey results 6 – Advice from the implementers / September 8, 2014
关联数据调查结果6:来自实施者的忠告
建议、资源推荐、调查结果源数据下载

忠告:困难的是什么?[1]组织支持与人员配置;[2]词表;[3]技术;[4]法律问题……

[update 2014-10-29] 参见荔园图志:OCLC发布关联数据调查报告 (2014-10-21)

WorldCat作品关联数据问答

相关博文:OCLC以关联数据开放1.94亿书目作品(2014-2-27)[2014.4.28 正式发布]

Richard Wallis预告WorldCat作品关联数据之后(最早是在南非开普敦举行OCLC的EMEA地区委员会会议上),邮箱和推特等收到了很多回应,于是在自己博客上统一做了解答。摘译若干【本人想法】:
WorldCat Works Linked Data – Some Answers To Early Questions (March 4, 2014)

– 作品的准则是什么【尽管源自FRBR研究,但并不严格按照FRBR定义,只是从现有书目数据可以如何聚集考虑】
”作品“定义更多是若干相互依赖的算法处理结果,而不是一套简单的准则。……产生这些定义以及关系的工作是OCLC研究部针对FRBR的一项多年研究的持续结果:OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records  [包括FictionFinder、xISBN、FRBR作品集算法、Work Records in WorldCat等]

– 会不会链接到单独的ISBN/ISNI记录【尽管没有做出决定,但和国际标准名称标识ISNI相比,无疑会更偏爱自家的虚拟国际规范档VIAF】
* ISBN – 用FRBR术语,ISBN是载体表现实体的属性,在已发布的WorldCat关联数据中可以找到。因为每个作品用schema:workExample链接到相关的载体表现实体,因此已链接到ISBN。
* ISNI – ISNI是个人标识号,ISNI的URI是链接作品到其他实体类型的候选者。VIAF的URI是我们会使用的个人/团体实体的另一个候选者,因为我们有数据。还没有最后决定用哪个URI,以及是否对相同关系使用多个URI。是对相同个人使用ISNI、VIAF和Dbpedia的URI,还是使用一个,然后依赖规范中心间的相互连接,是个还没有得出结论的问题。

– 当创建作品的记录组变化时,稳定的标识号如何管理【未定】
……当作品组分开或合并时,标识号如何维护的问题。这是未来数周这批数据完整发布前,开发团队正致力的任务之一。……

– 是否有批下载数据:没有【解释略。可以想见】

– WorldCat作品如何与BIBFRAME模型形成交集?对bf:Work的bf:hasAuthority,这些作品描述会很有用。【BF并非首选的考虑,Schema.org+SchemaBibEx才是OCLC的选择】
OCLC团队监控、参与、考虑许多可能——BIBFRAME、Schema.org、SchemaBibEx、WikiData等,这些对象有一些明显的协同效应,在方法及/或细节层面上对不同使用对象也有差异。使用sameAs互联数据集的潜在性,以及其他规范关系是重要的。随着WorldCat数据成熟以及其他数据集发布,大家会期望从一开始就关联许多不同来源的书目数据。

– 会使用ISTC么【作品不用。国际标准文本码ISTC基于语言分配,作品集中肯定会对应不只一个。只能如ISBN般做外部链接】
这方面现在做决定还太早。但我们不会期望存储ISTC号为作品的属性。ISTC是很多基于作品的数据集之一,调查识别相互间的sameAs关系将会很有趣。
ISTC号是基于语言分配的。以FRBR术语,出版语言与内容表达相关,而非作品层描述。因此在”作品“中不会有ISTC——我曾经的回答是:
— 注意WorldCat.org发布的作品被定义为schema:Creativework的实例。
— ……WorldCat也许不严格遵守FRBR规则与层级。我说”也许“也针对其后的建模,特定语言的作品也许只是一个更一般作品的实例——也许更像内容表达。在FRBR规则与更广泛的非图书馆理解之间,需要有一个平衡。

– 使用哪个三元组库(triplestore):不使用【解释略】