RDF 1.1新变化

RDF 1.1于2014年2月25日正式公布,取代发布于2004年的RDF 1.0:
RDF CURRENT STATUS

同日发布的工作组说明文件,汇总了RDF 1.1的变化。
What’s New in RDF 1.1 (W3C Working Group Note 25 February 2014)

1、导言
介绍了此次更新的所有相关文档,大部分是W3C推荐标准:
– RDF 1.1 Primer《RDF 1.1入门》(目前还不是推荐标准)
– RDF 1.1 Concepts and Abstract Syntax 《RDF1.1概念与抽象句法》
– RDF 1.1 Semantics 《RDF1.1语义》
– 各种具体句法:Turtle, TriG, N-Triples, N-Quads, JSON-LD, RDFa和XML(更新版)
– RDF Schema 1.1(RDFS 1.1)

2、抽象句法
2.1 标识符
由“RDF URI 参照”(RDF URI References)改为“IRIs”
2.2 文字(Literals)
所有文字都有数据类型(不再区分plain/typed literals)
新增:文字的语言标签数据类型 rdf:langString
2.3 数据集(Datasets):新增概念
2.4 数据类型:新增4种

3、新序列化格式
RDF/XML不再是唯一推荐的序列化格式。RDF本身应被当作数据模型(抽象句法),而非任何特定序列化(换言之,与XML脱钩)。

Fig. 1 RDF 1.0 and 1.1 serialization formats

4、语义

RDF1.1的大部分变化对实施没有任何影响

———-关于IRI取代URI———-
IRI=Internationalized Resource Indicator(国际资源指示符)
《RDF 1.1概念和抽象句法》(RDF 1.1 Concepts and Abstract Syntax,2014)3.2对URI和IRI的说明:
“IRIs是URIs[RFC3986]的泛化,允许更广范围的Unicode字符。每个抽象URI和URL是都是一个IRI,但不是每个IRI都是一个URI。当IRIs用于仅为URIs定义的操作时,它们首先必须根据[RFC3987]3.1所定义的映射进行转换。著名的例子是通过HTTP协议的检索,映射涉及:非ASCII字符的UTF-8编码,在URIs中不允许八字节的%编码,以及域名的域名代码(Punycode)编码。”

———-关于RDF 1.1变化的分析———-
参见:RDF概念上的更新和一些本体论知识 / Daniel J Lewis, 计算机科学家, Vanir Systems,2012-1-9
来自IBD中国开发网站,对当时尚在讨论中的RDF 1.1的变化:
“最重要的差异是 RDF 从 RDF/XML 中分离出来,在语言代码方面显式使用 Best Current Practice (BCP) 47,使用 Unicode 友好的 IRI 而不是基于 ASCII 的 URI,使用 Skolem IRI 而不是未命名的空白节点 (blank node),以及从 RDF 概念中去除可扩展标记语言 (XML) 类型。”

哈佛大学《中国历代人物传记资料库》(CBDB)

网友CJ在“数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)”下留言,提到哈佛大学的CBDB数据库,于是查到这个很强大的《中国历代人物传记资料库》,属于后知后觉。

CBDB据称收录七世纪至十九世纪的中国人传记资料共32.8万,网站首页有与地理信息数据结合的可视化数据呈现。数据库的强大不只在于其数据量,更因为其数据的处理及提供利用方式:
– 不是纯文本的,而是结构化的、带地理位置信息的;
– 不仅可以查,而且提供原始数据下载;
– 有CBDB API,可以通过人物ID或人名(汉字或拼音),返回丰富的结构化人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。

资料库简介称:“中國歷代人物傳記資料(或稱數據)庫係線上的關係型資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料,並將其內容毫無限制地、免費地公諸學術之用。截至 2013年10月為止,本資料庫共收錄約328,000人的傳記資料,這些人物主要出自七世紀至十九世紀,本資料庫現正致力於增錄更多的明清代人物傳記資料。本資料庫除可作為人物傳記的一種參考資料外,亦冀可敷統計分析與空間分析之用。”
该数据库由创始者郝若贝教授(Robert M. Hartwell,1932-1996)将初版遗赠哈佛燕京学社,后续开发工作由哈佛大学燕京学社、台湾中研院历史语言研究所及北京大学中国古代史研究中心三方合作进行(英文界面说明的合作方中,第一家是费正清中国研究中心)。从历史看,2004年傅君勱开始技术开发,2005年北大加入内容维护,2006年中研院提供经费资助,2007年开放使用。创始与开发、维护可称功德无量。

网站有方法论部分,也可以说其实讲的是数据库中的数据可以如何被利用,包括:
– 群体传记学
– 地理资讯系統(GIS)
介绍利用ArcGIS或MapInfo(甚至Google Earth)等,将CBDB与哈佛的另一个项目中国历史地理信息系統(CHGIS)(update: 2014-8-4:中国编纂处复旦大学历史地理研究中心,多种GIS数据可下载)整合的多个实例。
– 社会网路关系(SNS)
介绍利用免费社会网络分析工具Pajek,对CBDB导出数据做人际关系可视化的实例。

下载了某个版本的数据(ACCESS数据库),看到很多实用的表,比如朝代年号(对照公历年)、古代地名(带地理位置、管辖关系),要做古代数据时,可以用上。于是又仔细下载了网站上的用户指南(下载教学与辅助文件):

《中国历代人物传记资料库:用户指南(中文版)》(2011年4月) / 傅君勱(Michael A. Fuller);北京大学CBDB编辑组译
第三章CBDB的分析工具,介绍设定的了解人物关系的用法,可供古代中国人物研究用。
第二章CBDB的结构,详细给出了数据库表的结构与取值等,就是一套全面的古代中国人物本体

– 实体:
1、人物:基本信息
2、亲属关系:9种基本类别,及更多变化
3、非亲属关系:直接、间接,未来还考虑参加丧事、馈赠礼物关系
4、身份(社会区分)
5、入仕方式
6、职官和除授:序列、年份、地址,未来考虑官僚组织的历史变化
7、地点:名称、地理座标(经纬度)、政区等级(从属关系)
8、传记地点信息:传记中涉及的各种地点
9、文本:与人物有关的著述,包括碑刻等、手稿、印刷品
10、人物参与的重大事件:比如谋反、皇后废立、党争等,相关的人物、时间、地点
11、财产

– 数据库包括5类表格,分别是:
1、基本实体(11个)
2、基本实体间相互关系(16个)
3、关系类型信息(16个)
4、历史信息辅助表(9个)
5、分析辅助表(5个)

美国国会图书馆推荐格式规范(2014-2015)

美国国会图书馆(LC)日前推出《美国国会图书馆推荐格式规范(2014-2015)》(Library of Congress Recommended Format Specifications 2014-2015)。看标题直觉这类规范是针对数字资源的,没有想到竟然也包含印刷形式。看后觉得对印制品(书刊与照片)确实也有必要作出规定,LC或也由此表明对传统与数字的同等重视。图书馆在收藏保存或自建内容需确定格式时,本规范可以提供很好的指引。

LC的数字保存博客The Signal就此规范访谈了LC美国连续出版物采编部主任Ted Westervelt,对不少问题作了说明,见:
Recommended Format Specifications from the Library of Congress: An Interview with Ted Westervelt (June 23, 2014) by Trevor Owens

看规范导言,很深切地感受到LC的使命感:“本馆作为美国致力于国内外创作作品保存与提供访问的最重要机构,具有独特的地位;其基本目标之一是以其专业与知识,在其他机构实现其使命时提供支持与帮助”。因之此规范有两个主要目的:“其一,向LC提供内部指引,帮助馆藏资料的采访;其二,告知创作与图书馆界,确保保存与长期访问国内外创作作品的最佳实践”。
本规范从2011年开始制订。由于格式处于动态发展中,该规范将每年作评估,以与时俱进。

本规范分六个大类,其下再有若干细分:
1. Textual Works and Musical Compositions 文本和音乐作品
(1) Textual Works – Print 文本作品-印制
(2) Textual Works – Digital 文本作品-数字
(3) Textual Works – Electronic Serials 文本作品-电子连续出版物
(4) Digital Musical Compositions (score-based representations) 数字音乐作品(乐谱表示)
2. Still Image Works 静态图像作品
(1) Photographs – Print 照片-印制
(2) Photographs – Digital 照片-数码
(3) Other Graphic Images – Print 其他图像-印制
(4) Other Graphic Images – Digital 其他图像-数码
(5) Microforms 缩微品
3. Audio Works 音频作品
(1) Audio – On Tangible Medium (digital or analog) 音频-有形媒介(数字或模拟)
(2) Audio – Media-independent (digital) 音频-不依赖媒介(数字)
4. Moving Image Works 动态图像作品
(1) Motion Pictures – Digital and Physical Media 电影-数字与物理媒介
(2) Video – File-Based and Physical Media 视频-文件与物理媒介
5. Software and Electronic Gaming and Learning 软件和电子游戏与学习
6. Datasets/Databases 数据集/数据库
(1) Datasets 数据集
(2) Geospatial Data 地理空间数据
(3) Databases 数据库

择其要点笔记如下:
– 每种类型都分“首选”和“可接受”两种情况;同一内容或格式有多种选择时,再规定优先级。
– 对于文本印刷品,规定了用纸、印刷过程(优先度降序:平版印刷、数字印刷、喷墨打印)、装订、尺寸、版本(限量版、最多特性版本、彩色插图版)、完整性。——值得注意的是,“限量版”只在文本作品时优先,其他类型则以最广泛发行版本为先。
– 除文本印刷品外,都规定了元数据,通常包括:题名、创作者、创作日期、出版地、出版者/生产者/发行者,标识号(ISBN、ISSN、ISMN、ISRN、UPS、EIDR、ISAN等),联系信息;如有还可包括:作品语言,其他相关标识号(如DOI、LCCN等),版本、主题描述词、文摘。——值得注意的是,用“创作日期”而非通常的“出版/生产/发行日期”(对数字文本作品也如此)。
– 数字作品的内容与格式中,首选各种基于XML的格式
– 特别引人注目的是,数字作品的“技术措施”在“首选”与“可接受”两部分均规定“文档不能含控制数字作品访问或使用的措施(如数字版权管理或加密)”。前述访谈中,Ted Westervelt对此做了说明。另:本规范对电影“可接受”蓝光碟,博文留言指出无DRM与加密的蓝光碟少之又少。
软件等不但要求提供能够运行的平台(游戏可以是PC模拟器),还要求提供源代码及相应的编译软件——从长期保存及访问来说自然是必要的,但对其可行性存疑。

另外从规范中也了解到其他一些相关标准规范。除各种基于XML的格式外,特别有如下三种,备记于此:
NISO期刊文章标记套件(JATS, Journal Article Tag Suite (NISO Z39.96-2012):电子期刊内容格式。项目概览页
美国版权局“最佳版本说明“(Best Edition of Published Copyrighted Works for the Collections of the Library of Congress:在分类上与本规范有一定的相似性。LC有大量资料来自国内呈缴(从版权局收到),“本规范不是为了取代‘最佳版本说明’,而是加以补充,并提供更广泛的推荐集”。
美国联邦地理数据委员会(FGDC)“地理空间元数据标准”(Geospatial Metadata Standards,包括其采用的ISO标准,及其“数字地理空间元数据内容标准”(Content Standard for Digital Geospatial Metadata (CSDGM))