私人定制版Schema.org

Richard Wallis是WorldCat应用schema.org及schema书目扩展的重要人物。他2012.4-2015.7任职于OCLC,现为独立咨询人。
在去年底DCMI/ASIS&T的两次网络会议上(2015-11-18和2015-12-2),他介绍了Schema.org及扩展机制,视频与PPT可下载:
Schema.org in Two Parts: From Use to Extension
Part 1: Fit For a Bibliographic Purpose(适合书目用途):我感兴趣的部分包括:SchemaBibEx、BiblioGraph.net、Schema.org 2.0扩展机制
Part 2: Extending Potential and Possibilities(扩展潜力与可能性 ):后面三分之一有应用各种软件及信息:应用schema.org的各种工具、扩展schema.org的有用链接,以及最后总结的schema.org概要。

Richard Wallis本月发长博文,继续此一主题。
Data Liberate: Evolving Schema.org in Practice Pt1: The Bits and Pieces (February 10, 2016)
目前的第1部分针对“有建议,如何测试、分享并提交到schema.org社区”的问题。博文按步骤详述整个实际操作过程,并有丰富截屏。
昨天照猫画虎,把前半部分(从下载到本地、到发布到公开访问网址)操作了一遍。结论是,需要首先看前述网络会议第2部分,了解第76-98页PPT(扩展Schema.org有用链接)并下载述及的软件。另外还需安装Python 2.7(GAE配套),PPT及博文中均未提及。

操作准备:
1 帐号:Github、Google
2 软件安装
2.1 与Github交互的Git客户端
博文用命令行工具,我使用GitHub Desktop,Clone、Commit等下载、上传操作比命令行直观方便。GitHub Desktop带有命令行工具Git Shell,有些操作可使用。
2.2 Python 2.7(与GAE配套使用,要求先安装)
Python官网https://www.python.org/首页,下载处挂两个版本的链接,最新版3.5.1和2.7.11——猜想是因为GAE的缘故。
2.3 Google App Engine SDK(要求Python版)
Google App Engine SDK for Python

步骤概要(详见原博文):
1、登录Github,访问Schema.org repository,Fork(分叉,即在本人帐号下复制一份)
2、GitHub Desktop:clone(克隆,即复制到本机)
3、Git Shell:运行本地版本:dev_appserver.py schemaorg(须注意路径),完成后可以通过浏览器访问http://localhost:8080/,如同访问schema.org网站
4、生成共享公共版
(1)访问https://console.cloud.google.com/(登录Google帐号)创建新项目(对Schema.org,项目名通常以sdo-起始)
(2)修改本地克隆文件夹app.yaml文件,应用名改为项目名
(3)Git Shell:上传配置更新:appcfg.py update schemaorg(须注意路径,可能需要根据提示做其他操作)
(4)完成后即可用浏览器访问:http://项目名.appspot.com/
我的schema.org共享公共版:http://sdo-catwizard.appspot.com/ (Schema.org 2.2版,目前没有做任何修改)【可惜这个也是有墙的,可谓全程有墙陪伴】

原博后半部分的修改Schema.org步骤
1、本机修改
2、Git上传修改(add、commit) 至本人Github
3、Github网站:向Fork的原repo提出修改请求(New pull request)
Schema.org的新版本在处理请求清单后发布(Closed是处理完成的,Open是当前的)——完全参与式。

Schema.org中文站(以及如何知道网站挂了还是被墙)

很多时候不明白,什么网站会被墙。
Schema.org,各大搜索引擎的标记规范,当今著名元数据标准,怎么看都是人畜无害的。就因为Google注册了此域名,因此就要翻墙才能访问?
偶而查到有个Schema.org中文站,把Schema.org都译成了中文,看起来方便不少。最重要的是,无需翻墙。真是功德无量!
只可惜最后更新时间2011-11-11,当时Schema.org还在0.X版。2015-11-05最新版2.2。

查到注册者曾曦。找到他的博客《尘埃落定》 ,其中有他的自我介绍。
看他网名lovelucy,忍不住要八卦一下。Schema.org中文站中,他把教育机构(EducationalOrganization)原来的样例,改成了他的个人信息:江陵中学经中路50号 湖北省 430079 校友名单: 曾曦 陈露西
——中学时的恋人。IT男如此宣示爱情。

附:怎么知道网站是挂了还是被墙 ?可以用一个网站检查:down for everyone or just me(www.全部拼写连起来.com

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎

BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
实例标识符:该馆目录Vu-Find
人名、团体名、地名:VIAF
主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
研究者和机构:国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】

“获取”部分e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。

“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。

使用上,本项目提供了两个检索界面
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。

按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。