Schema – 第 5 页 – 编目精灵III

私人定制版Schema.org

Richard Wallis是WorldCat应用schema.org及schema书目扩展的重要人物。他2012.4-2015.7任职于OCLC，现为独立咨询人。
在去年底DCMI/ASIS&T的两次网络会议上（2015-11-18和2015-12-2），他介绍了Schema.org及扩展机制，视频与PPT可下载：
Schema.org in Two Parts: From Use to Extension
Part 1: Fit For a Bibliographic Purpose（适合书目用途）：我感兴趣的部分包括：SchemaBibEx、BiblioGraph.net、Schema.org 2.0扩展机制
Part 2: Extending Potential and Possibilities（扩展潜力与可能性）：后面三分之一有应用各种软件及信息：应用schema.org的各种工具、扩展schema.org的有用链接，以及最后总结的schema.org概要。

Richard Wallis本月发长博文，继续此一主题。
Data Liberate: Evolving Schema.org in Practice Pt1: The Bits and Pieces (February 10, 2016)
目前的第1部分针对“有建议，如何测试、分享并提交到schema.org社区”的问题。博文按步骤详述整个实际操作过程，并有丰富截屏。
昨天照猫画虎，把前半部分（从下载到本地、到发布到公开访问网址）操作了一遍。结论是，需要首先看前述网络会议第2部分，了解第76-98页PPT（扩展Schema.org有用链接）并下载述及的软件。另外还需安装Python 2.7（GAE配套），PPT及博文中均未提及。

操作准备：
1 帐号：Github、Google
2 软件安装
2.1 与Github交互的Git客户端
博文用命令行工具，我使用GitHub Desktop，Clone、Commit等下载、上传操作比命令行直观方便。GitHub Desktop带有命令行工具Git Shell，有些操作可使用。
2.2 Python 2.7（与GAE配套使用，要求先安装）
Python官网https://www.python.org/首页，下载处挂两个版本的链接，最新版3.5.1和2.7.11——猜想是因为GAE的缘故。
2.3 Google App Engine SDK（要求Python版）
Google App Engine SDK for Python

步骤概要（详见原博文）：
1、登录Github，访问Schema.org repository，Fork（分叉，即在本人帐号下复制一份）
2、GitHub Desktop：clone（克隆，即复制到本机）
3、Git Shell：运行本地版本：dev_appserver.py schemaorg（须注意路径），完成后可以通过浏览器访问http://localhost:8080/，如同访问schema.org网站
4、生成共享公共版
（1）访问https://console.cloud.google.com/（登录Google帐号）创建新项目（对Schema.org，项目名通常以sdo-起始）
（2）修改本地克隆文件夹app.yaml文件，应用名改为项目名
（3）Git Shell：上传配置更新：appcfg.py update schemaorg（须注意路径，可能需要根据提示做其他操作）
（4）完成后即可用浏览器访问：http://项目名.appspot.com/
我的schema.org共享公共版：http://sdo-catwizard.appspot.com/ （Schema.org 2.2版，目前没有做任何修改）【可惜这个也是有墙的，可谓全程有墙陪伴】

原博后半部分的修改Schema.org步骤：
1、本机修改
2、Git上传修改（add、commit）至本人Github
3、Github网站：向Fork的原repo提出修改请求（New pull request）
Schema.org的新版本在处理请求清单后发布（Closed是处理完成的，Open是当前的）——完全参与式。

Schema.org中文站（以及如何知道网站挂了还是被墙）

很多时候不明白，什么网站会被墙。
Schema.org，各大搜索引擎的标记规范，当今著名元数据标准，怎么看都是人畜无害的。就因为Google注册了此域名，因此就要翻墙才能访问？
偶而查到有个Schema.org中文站，把Schema.org都译成了中文，看起来方便不少。最重要的是，无需翻墙。真是功德无量！
只可惜最后更新时间2011-11-11，当时Schema.org还在0.X版。2015-11-05最新版2.2。

查到注册者曾曦。找到他的博客《尘埃落定》，其中有他的自我介绍。
看他网名lovelucy，忍不住要八卦一下。Schema.org中文站中，他把教育机构（EducationalOrganization）原来的样例，改成了他的个人信息：江陵中学经中路50号湖北省 430079 校友名单: 曾曦陈露西
——中学时的恋人。IT男如此宣示爱情。

附：怎么知道网站是挂了还是被墙？可以用一个网站检查：down for everyone or just me（www.全部拼写连起来.com）

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上，“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面（Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition）对报告的介绍如下：
UIUC图书馆在内部创新拨款项目支持下，研究人员转换并强化该馆目录中近30万电子图书记录，由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码，然后使用附加python处理，这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化，研究人员在线索引了BIBFRAME资源，创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当（Bento）视图，让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎。

BIBFRAME at University of Illinois
项目首页的描述：“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图，汇集相似内容，帮助用户确定相关书目元数据集。”
项目为期一年，从2014年秋到2015年夏，选择该校近30万册电子书记录，由MARC转换至BIBFRAME，并用关联开放数据强化。
关联数据来源
– 作品标识符：WorldCat的xISBN【这是OCLC的作品级Web Service，好像OCLC去年宣布结束这个服务了】
– 实例标识符：该馆目录Vu-Find
– 人名、团体名、地名：VIAF
– 主题：LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
– 研究者和机构：国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一（记录清单）随便找了一条记录。
记录显示分成四个部分：Access（获取）、Item Description（描述）、Subject Terms / Creators（检索点）和Bibframe RDF。
这是一本中文书（Zhong wai jun zhi he zhi hui can mou di xi de yan jin），记录没有显示汉字，“获取”和“描述”信息少到用户应该没法确认是不是所需要的（出版者不详、未显示出版日期）。
因为显示的信息太过简陋，所以第一感觉是：Garbage in, Garbage out。没有优质的记录，用什么格式都是一样的。【编目员的价值？职责？】

“获取”部分有e-Book链接，取自原记录的856字段。链接到HathiTrust后，因为我的IP不在可访问范围，看不到电子书，但可通过侧栏点击HathiTrust书目记录链接，该记录优于UIUC的记录，有中文题名（中外軍制和指揮參謀體系的演進）和基本书目信息。

“主题词和创作者”部分是项目的亮点，即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据，是实际应用中的关键点。从本记录看：
（1）创作者，用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会，但本书台北出版，作者Shi, Zhi，从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码，作品转换时还真是用搜索方式获取VIAF的URI，且结果按馆藏量排序后，返回第一个？这里肯定有问题，或是获取代码的、或是VIAF搜索机制的，或者就是因为原数据问题而根本无法解决的。
（2）主题词，三个主题词串看上去差不多，却分别链接到不同的关联数据项目：
第1个有复分，链接到OCLC实验的分面主题FAST（http://experimental.worldcat.org/fast/1020859/）
第2个无复分，链接到LC关联数据服务的LCSH（http://id.loc.gov/authorities/subjects/sh85085236.html）
第3个有复分，链接到伊大本身（即本记录）
看作品转换程序源代码，也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类（Work、Instance、Annotation和Authority）的rdf文件链接，可点击下载，比如作品类的RDF。从这些RDF文件中，可以看到所用bf:命名空间的各种类和属性，如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见：http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性，相关关系及与外部数据源的联系。

使用上，本项目提供了两个检索界面：
1、Google定制搜索
说明是：检索BF记录时，检索界面提供带结构化数据的结果。做查询，竟然什么都查不到【当然没有，因为Google被墙了！】
2、便当视图
即分栏的多库检索结果，除本项目中的电子书外，其他两栏为文章和其他目录数据。
不过，用题名部分“Zhong wai jun zhi”查所有字段或题名，用作者“Shi, Zhi”查作者或所有字段，竟然都没有查到结果。
目前来说，强化内容没有整合到记录内容中。看上去对检索没有贡献，在检索结果的呈现上也只是最简单的链接，还有提升的空间。

按项目说明，bibframe/html中也有Schema.org结构数据，看HTML文件源代码，本记录用了三种：
http://schema.org/Book 电子书、主题词（为什么主题词用Book？）
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富，但源代码中Schema.org也只多了一种：
http://schema.org/CreativeWork 体裁主题（genre，电子书、词典）
总体来说，Schema.org的使用似乎还比较初步，或许只是表明一种对搜索引擎优化的态度吧。