编目精灵III

2014年时，约翰霍普金斯大学图书馆系统馆员Jonathan Rochkind写了篇博文：语义网还是个事儿吗？当时我作了译介（2014-11-8）。一年后他离开了已经工作9年并且热爱着的图书馆，去了一家软件公司就职。发消息前两天他写了长篇博文《关联数据注意事项》（Linked Data Caution），用众多事实佐证自己先前的看法。在离开博文中，他说自己身心俱疲（Career change, 2015-11-25)，不是因为关联数据而离开，但那篇博文可作为他的临别赠言。可以看出他对图书馆前景的深度失望，以及对图书馆界在关联数据上投入巨大的深度担忧。

今天看到鲍捷的《从语义网到知识图谱——语义技术工程化的回顾与反思》，让我又想起Jonathan Rochkind和他对关联数据的看法。计算机领域变化太快，不同观点太多（或者说共识少，要不然也不会有那么多死在沙滩上的前浪），鲍文的观点有待验证。无论如何，作笔记如下。

———从语义网到知识图谱——语义技术工程化的回顾与反思（笔记）———
– 基本观点：“语义网”这两年改名“知识图谱”；工程优于科学【逻辑】。
– 关于关联开放数据：Tim Berners-Lee（就是我们的神）呼吁：语义网 -> （因为感觉走偏）2006年提出关联数据 -> 2009年公开数据（用RDF结构化）。
– 关于元数据和知识图谱：元数据 -> 演变成RDF -> 然后演变成一堆奇奇怪怪的语言 -> 然后是schema.org【一统天下？】 -> 最后演变到了今天的知识图谱。
– 关于RDF：RDF不适合作为存储语言。
RDF的发展：知识的交换语言 -> 数据建模语言 -> 数据存储语言。作为存储语言，由于要完全从头开发，高成本低性能而失败。
2013年Google推目前知识图谱用的Microdata，后来JSON-LD，充分利用现有工具。
存储语言：RDF数据 -> 图数据库（键值数据库？）。图数据库比三元组库和SPARQL更主流。
【乱弹：如此则RDF与MARC倒是很类似，是交换语言而非存储语言。ILS内部并不按MARC格式保存】
– 关于本体语言OWL和RDF1.1：弱语义的语义网，优于强语义的OWL。
OWL2语言很失败、没人用。
2004的RDF语义是怪胎，2014年RDF1.1是厄运的开始。【在计算机界，常见不同版本并用，并非未及升级，如当年的RSS】
逻辑或推理非常需要成本，在实践中很少使用。大多数时间有数据就够了，有一个结构化的东西就好。
– Dublin Core等没能发展起来，因为都是面向机器的，它考虑的是怎么提高机器的效率。RSS想的是我怎么提高人的效率，这样就火起来了。【图书馆界在说要让机器能够用数据，他说要让人用得高效】
– 构造知识图谱，需要知识工程的技术，需要自然语言处理的技术，需要规则系统，需要正则表达式。有效的才是最好的。

——— Google趋势：知识图谱vs语义网vs关联数据———
在先前博文中语义网（SW）和关联数据（LD）搜索对比基础上，增加知识图谱（KG）做对比。Google搜索趋势显示，在SW下降与LD上升趋势交汇后的2012年5月，KG异军突起超出SW和LD，2012年12月出现第2个超出SW和LD的峰值，其他时间均在两者之下，搜索量起伏不大。SW仍持续下跌，LD则平稳起伏。

另看国家趋势：
KG前五：印度100、美国60、德国50、英国47、法国39（没有其他国家）
SW前五：韩国100、巴基斯坦98、印度87、奥地利85、爱尔兰/伊朗74，（英国37、美国30）
LD前五：印度100、巴基斯坦68、菲律宾28、英国/美国均21

归档

知识图谱、语义网、关联数据