SKOSsy:利用DBPedia自动生成叙词表?

奥地利的语义Web公司(Semantic Web Compan)正在开发一个自动生成英语和德语叙词表的工具SKOSsy。SKOSsy可以针对某个领域,从维基百科的关联数据形式DBPedia中抽取数据,生成基于SKOS的叙词表“种子”,随后再使用专门的叙词表编辑工具清理,增加概念、关系及链接等。也就是说不必一切从零开始了。

据该公司博客介绍,利用SKOSsy制作某一领域叙词表雏形,然后使用PoolParty系列工具完成词表,进而自动标引、形成检索系统的过程如下:
1、在维基百科/DBPedia中找到最合适的类别
2、由SKOSsy遍历DBPedia收集所有资源、等级与非等级关系、交替标签、定义及其他属性,并组织成一个有效的SKOS叙词表。整个过程持续几分钟。
3、把初成的叙词表装入PoolParty Thesaurus Manager (PPT),人工完善。
4、使用PoolParty Extractor (PPX)生成定制的文本抽取器。
5、用PPX从文档中自动抽取命名的实体并做索引。
6、数秒钟后语义搜索引擎就可以用了。 PoolParty Semantic Search (PPS)可以提供类别自动完成、分面检索、内容推荐(类似检索)及智能检索提示。

这广告实在很生动。虽然博文中提供了一个自动生成的示例词表的链接,但需要登录才能看,效果不明。想要实际体验的话,可以向他们发送自己感兴趣的领域,他们会向你发送测试邀请,或者为你准备一段演示。

Via mod librarian: Metadata Monday: Automated Controlled Vocabularies?(梯子自备)

SKOSsy Dynamically Generates Thesauri: Automated Controlled Vocabularies A Real Possibility?
by NARESH SARWAN on DECEMBER 2, 2011

Introducing SKOSsy – generate thesauri on the fly!
November 29, 2011 by Andreas Blumauer

斯坦福关联数据研讨会报告

斯坦福关联数据研讨会于2011.6.27-7.1召开,会议主办者为图书馆信息资源委员会(Council on Library and Information Resources, CLIR)与斯坦福大学图书馆与学术信息资源中心(Stanford University Libraries and Academic Information Resources, SULAIR)。不禁联想到当年MARC开发也有CLIR(当时称CLR)的很大功劳。
会议报告于日前发布(报告下载),长达80页,有点不可思议,这是真正有所行动的会议。

———-引言(p.5-6)———-
概述会议背景及本报告内容:
·详述会议成果
·列出下步活动,包括为关联数据原型环境提出建议
·与会者小传
·概述会议期间的活动与讨论

———-W3C图书馆关联数据孵化小组最终报告(p.7-17)———-
引用W3C图书馆关联数据孵化小组最终报告,虽称引用的是草案,但网址是正式报告的。或许本报告的发布也是在等孵化小组最终报告正式发布吧(10月25日)。
据说孵化小组报告马上会有中文翻译([update 2011-11-14]图林中文译站:图书馆关联数据孵化小组最终报告/2011年10月25日W3C孵化小组起草;译者:娄秀明),此处略去,仅取一个定义:
· 图书馆数据:指图书馆生产或保管的、任何描述资源或助其被发现的数字信息。图书馆隐私政策范围内的数据通常不在此列。本报告基于其典型使用,划分作三类:数据集、元素集和取值词表。

———-经典MARC数据与关联数据方法比较(p.18-19)———-
详细介绍Tim Hodson的“大英图书馆数据模型”(British Library Data Model: Overview, 2011-7-22)(PDF版模型图),称其对现实关联数据模型的处理在图书馆环境中扩展了W3C关联数据的文本定义。

———-研讨会成果(p.20-42)———-
· 价值声明:为什么关联数据方法是有价值的原型/模型

· 关联图书馆(及博物馆、档案馆……)宣言(manifesto)
1. 为发现与使用而非暗中保存而在网上发布数据,不可及的档案通常是私有的或利益驱动的。
2. 持续改进数据与关联数据,而非等待发布“完美”数据
3. 以语义结构化数据,而不预备扁平的非结构化数据
4. 协作而不单干
5. 采用Web标准,而非领域独有的标准
6. 使用开放、广为所知的协议,而非封闭/本地协议

· 为图书馆催生关联数据环境 [实践]
1. 构建使用案例
2. 摄入数据(由开放存储中使用结构化数据,构建或转码关联数据,同时实施质量控制)
3. 发布数据,假定为开放的以让其他人可用
4. 提供基于使用案例的结构化数据的服务
5. 重复步骤1-5[4?],增加或更新使用案例,得到新的相关数据,改善数据、改进服务
6. 教育元数据生产者(如出版者、馆员、学术项目领导者),向最终用户推广服务

· 已知问题优先清单
问题涉及四个类别:出处、可用性、保存、标准
1. 跨格式参照、同指与一致(referencing, co-referencing, reconciliation)(标准)
[owl:sameAs;词表alignment]
2. 使用图书馆规范档-名称、主题等(标准、可用性)
3. 杀手级应用(可用性)
MIT、BBC野生动物网站、Talis的LinkSailor及Civil War 150网站
4. 归属、来源及授权(出处)
5. 培训创建、衍生与发布URI,以及在发现环境中做链接、用链接(可用性)
6. 数据可用性(可用性)
7. 质量控制(可用性)
8. URI标准(标准)
9. 数据保管(保存)
10. 责任分担(可用性)
a. 数据保存(即9)
b. 反馈、报告、奖励制度、计量、贡献关联数据/URI的激励
c. 博弈与竞争(即11)
11. 营销/拓展(可用性)
12. 流程(可用性)
13. 可扩展性
14. 索引
15. 本体使用(标准)
16. 许可(标准)
17. 注释(出处)
18. 身份管理
19. 与e-学术(尤其是e-科学)及e-学习的关系
20. 文化多样性(可用性)
21. 搜索引擎优化(标准)
微数据,Google的schema.org [仅仅是搜索引擎优化,没有竞争关系?]
22. 社会媒体:Facebook及类似应用
Facebook的开放图形协议

———-布署关联数据(见附录A)———-

———-搜索杀手级应用(p.43-44)———-

———-下一步及潜在计划(p.45-48)———-
· 下一步
斯坦福团队将在其他参与者帮助下,生成一个建立在关联开放数据上的多国、多机构发现环境模型,向最终用户、研究界证明关联数据方法的价值。该模型必然会的基本功能包括生成、收割、URI调和[reconcile?],以及改编或有必要建立一个或多个“杀手级应用”,组装/要求支持流程的必要步骤,以及学术信息资源的操作环境。该模型将与本次与会者及其他共享。

· 明确的建议
∠ URI创建
由学术期刊文章元数据创建结构化数据URI,斯坦福HighWire出版社与大英图书馆(BL)潜在联合计划。目标元数据来自:HighWire服务器的文章(6.7M)、Medline/PubMed的元数据(>21M引文)、大英图书馆得到许可使用的2万种期刊的文章。
∠ MARC记录
斯坦福团队将与与会的国家图书馆(LC、BL、BnF、DNB)等一同工作。受2011年9月欧洲国家图书馆会议(CENL)大胆声明、投票支持将其元数据开放为关联开放数据的鼓舞,我们将追随BL协同Talis所做优良工作──设计一个丰富的、理解网络的图书馆关联数据的数据模型,通过由MARC记录出取适当事实构建其关联数据,将数据发布为开放数据而不限制其使用。
我们的计划也包括关注支撑当今图书馆元数据的不同类型的规范记录。
∠ 开放VIAF
高度期望创建一个“开放的”VIAF,或者要求OCLC以开放关联数据服务提供VIAF。
∠ 手稿互操作
斯坦福将以URI收集手稿描述(著录)。随后可由斯坦福或其他机构连接展示不同中世界手稿集的个别应用。
∠ 关联开放数据工具套件
已知工具太一般不适合图书馆需要,出版者则需要另外的工具。
目标不是罗列所有已有工具,而是引进经试用与测试的工具与方法,向没有关联数据经验的机构提供。
∠ MARC交换所
应当由URI建立MARC交换所(数据存储),应当包括资源的FRBR第一组实体关系即WEMI。

· 其他潜在计划
特定领域计划
关联数据能力构造

———-读物与报告———-

———-相关工具(p.49-50)———-
· eXtensible Catalog
· BnF发布了其关联开放数据计划的初版http://data.bnf.fr。该计划应用FRBR原则,包括主要法语作家与作品的简单Web页,其HTML完全开放给Web。
实例 [虽不懂法语,但也看得出相当好]
· LUCERO Project
· Talis的LOD Around The Clock (LATC)

———-结论(p.50-51)———-

———-附录———-
· 附录A:RDF三元组创建与迭代和解(?Iterative Reconciliation)的样本流程(p.52-55)
[原则] 1. 早发布,常发布;2. 完美URI (Mint URIs);3. 链接留到以后
· 附录B:文化遗产机构相关的关联与开放数据(p.56-60)
[目前提供关联或开放数据的机构,长长的清单,可供按图索骥]
· 附录C:参与者(p.61-73)
[国际会议──看到德国、法国、芬兰、日本……,也有图书馆界外如Google参与。部分人未实际与会]
· 附录D:研讨会日程概要(p.74-80)

via Local Weather: Report of the Stanford Linked Data Workshop, 27 June – 1 July 2011 (published October 2011)(梯子自备)

MARC21为RDA所做更新大全

LC将于11月开始RDA编目,从曾参与RDA测试的编目员开始。目的是承担两部分的责任:1、RDA继续开发;2、创建/修改培训资料,支持LC、PCC及美国图书馆界。或可看做RDA正式使用开始启动。
LC Cataloging Staff Involved in US RDA Test to Resume RDA Cataloging in November 2011 (2011/10/21)

LC的MARC标准网站的RDA in MARC上月做了全面更新,综合了MARC21为使用RDA所做的所有更新(即更新9、10、11和13),最新变化为2011年6月。 网页以网络发展与MARC标准办公室主任Sally McCallum名义发布于9月21日。

[update 2013-1-16: MARC标准网站一直在提供新的RDA in MARC
– 2011年9月,包括MARC Update 9-12 http://www.loc.gov/marc/RDAinMARC29-9-12-11.html
– 2012年6月,包括MARC Update 9-14 http://www.loc.gov/marc/RDAinMARC-7-12.html
– 2012年10月,包括MARC Update 9-15 http://www.loc.gov/marc/RDAinMARC-10-12.html]

———-内容、媒介、载体类型及特征———-

Content, Media and Carrier Types and Characteristics

内容、媒介和载体类型是RDA区别于AACR2的最明显部分,MARC21对此做了相应更新。本部分归纳了与之相关的RDA内容分别归于哪些MARC字段、子字段。

⊙ RDA内容类型
√ 头标06位(原有)
√ 新字段336(书目格式、规范格式)
√ 336字段包括$a(RDA术语)和$b(MARC代码),代码由MARC更新10提出。
√ 头标06位与相应RDA内容术语、MARC代码对照表见:
Term and Code List for RDA Content Types

⊙ RDA媒介类型
√ 007字段00位(原有)
√ 新字段337(书目格式、馆藏格式)
√ 337字段包括$a(RDA术语)和$b(MARC代码),代码由MARC更新10提出。
√ 007字段00位与相应RDA媒介术语、MARC代码对照表见:
Term and Code List for RDA Media Types

⊙ RDA载体类型
√ 007字段01位(原有)
√ 新字段338(书目格式、馆藏格式)
√ 338字段包括$a(RDA术语)和$b(MARC代码),代码由MARC更新10提出。
√ 007字段01位与相应RDA载体术语、MARC代码对照表见:
Term and Code List for RDA Carrier Types

⊙ RDA载体特征
√ MARC书目格式300、340、5XX字段以文本形式表示,书目和馆藏格式007字段以代码形式表示
√ RDA含表达载体特征的术语表
√ RDA载体特征附注:MARC书目格式500及其他5XX字段
√ RDA载体特征术语用于书目格式:
原有字段:300(物理描述)、340(物理媒介,新子字段)
新增字段:344(声音特征)、345(移动图像投影特征)、346(视频特征)、347(数字文档特征)

———-名称属性与资源属性———-
Attributes of Names and Resources

名称属性(如生日)或题名属性(如乐谱的调),原来MARC记录于书目记录的名称或统一题名标目,或者规范记录的附注。对于RDA则既可作为标目的一部分,也可独立出来。为此新增字段[书目或规范信息的识别性更好]:

⊙ 名称属性字段(规范格式)
046(特殊编码日期)、368(其他团体属性)、370(相关地点)、371(地址)、372(活动领域)、373(相关团体)、374(职业)、375(性别)、376(家族信息)、378(个人名称完整形式)

⊙ 作品与内容表达属性字段(规范与书目格式)
046(特殊编码日期,新子字段)、336、377(相关语种)、380(作品形式)、381(作品或内容表达的其他区别特征)、382(表演媒介)、383(音乐作品数字标识)、384(调)

———-关系———-
Relationships

由于与FRBR模型的紧密关联,关系是RDA特别强调的部分。
⊙ 名称与资源关系
√ RDA附录I(如:作者、艺术家、制图者)
√ MARC在书目格式1XX、6XX、7XX、8XX,规范格式1XX、4XX、5XX字段的$e(关系词)或$4(关系代码)记录这关系类型
√ 将在RDA关系词表最终确定后扩充MARC关系词代码:
MARC Relator Code

⊙ 资源与资源关系
√ RDA附录J,列出400多个作品、内容表达、载体表现和单件间关系。如:改编为戏剧(作品)、被(作品)索引、续集、(内容表达)的摘要、与(载体表现)被拍为电影、(单件)的复制品
√ 指定RDA关系的多种方法:
标识符:如不同字段的子字段$o、$u、$x、$w、$0,以及856字段
附注:书目格式5XX字段、规范格式6XX字段
结构化描述:书目格式76X-78X字段
结构化检索点:书目格式7XX字段,规范格式4XX、5XX字段
√ MARC增加$i(关系词),用于书目格式7XX及76X-78X字段,规范格式4XX、5XX字段

⊙ 名称与名称关系
√ RDA附录K(如雇员、主办者、嫡系家族、雇主、前任)
√ MARC增加$i(关系词),用于规范格式4XX、5XX字段

———-MARC其他变化———-
Miscellaneous other changes to MARC for RDA
⊙ 502(学位论文附注)增加子字段
⊙ 490(连续出版物)中ISSN子字段可重复
⊙ 007和008不同字符位中增加代码
⊙ 033(事件的日期/时间与地点)与相应附注518中增加子字段
⊙ 使用RDA标志:头标18位用代码i;040$e可重复,在MARC代码表增加代码rda:
Description Convention Source Codes
⊙ 新书目格式字段:264(制作、出版、发行、制造及版权说明)
⊙ 实验以URI取值(无MARC内容标识变化),见:
MARC DISCUSSION PAPER NO. 2010-DP02
Encoding URIs for controlled values in MARC records

最后这个实验表明,MARC21正开始迈向关联数据/语义网。