TextExt:DBpedia开放文本抽取挑战赛

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。

成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。

LD4PE项目&“关联数据能力指标”

LD4PE(Linked Data for Professional Educators,针对专业教育工作者的关联数据),IMLS资助项目(2014.12.1-2016.11.30),由DCMI教育与推广委员会(DCMI Education & Outreach Committee)承担。项目内容包括开发“探索关联数据”网站,支持结构化发现在线学习资源。网站核心是关联数据的能力框架,支持根据特定技能与知识、索引学习资源。“探索关联数据”开发团队以华盛顿大学为首,参与者包括肯特州立大学、DCMI、韩国成均馆大学、OCLC、Elservier和Synaptica。(Project Charter

Exploring Linked Data 网站主体部分“关联数据能力指标”(Competency Index for Linked Data)。
能力指标(CI)为4级结构,即:主题簇 Topical Cluster » 主题 Topic » 能力 Competency » 基准 Benchmark
简单理解即:对于某个主题(第1-2级),应当具备什么能力(第3级:了解哪些知识、掌握什么技能、具有什么样的思维习惯),如何检验是否具备上述能力(第4级:采取什么行动可以达成相关能力)

“关联数据能力指标”有6个方面(2016年5月版):
1. RDF(资源描述框架)基础
2. 关联数据基础
3. RDF 词汇与应用纲要
4. RDF 数据的生成与转换
5. 与 RDF 数据的交互
6. 关联数据应用的开发
详见由范炜联合张永娟、夏翠娟翻译的中文版(不含资源链接)
[update 2017-9-18: Github上的中文版]

“关联数据能力指标” 不只是一个简单的清单,而且是相关资源的组织框架。各级标题后数字表示资源数量,点击每一级会显示相应的资源链接。因而既可以用来检验自己的关联数据知识、查遗补缺,也可以作为(专业教育工作者)编制培训资料的起点,或者作为学习者了解相关知识、查找相关资源的入口。

刚结束的ADLS2016(第十三届数字图书馆前沿问题高级研讨班)有一小时的“关联数据能力指标培训”环节,曾蕾教授和中文版译者范炜作了使用讲解与演示。据称注册后可以添加新的资源并作评价,也引入用户贡献内容了。

伊利诺伊大学“特藏关联开放数据”项目

伊利诺伊大学(UIUC)于2015年9月获得安德鲁梅隆基金资助“探索数字化特藏的关联开放数据对用户的益处”项目,针对在特藏中使用关联数据——特别是UIUC收藏且已数字化的3个特藏“Motley剧院和服装设计”“1720-1920演员肖像”以及 “Kolb普鲁斯特研究档案”。项目为期20个月,经费24.8万美元。
从项目主页介绍看,项目由图书馆信息学院科学与学术信息学研究中心(CIRSS)承担, 3位主持人均为图书馆员和学院教授双重身份。项目时间已过去大半,前2个特藏的元数据映射已经完成,从基于DC的元数据方案映射到schema.org命名空间;后1个基于TEI,在项目成果页中尚未见映射表。
项目涉及的3个特藏是UIUC早年数字化的。本项目针对现有环境下,“数字化之后,如何最大化这些数字化资源的使用”,提高其有用性。即所谓“数字化特藏在网上,但不是网的一部分,至少没有到它们可以成为的程度”。“转换遗留特藏单件级元数据为关联开放数据(LOD),集成LOD进入服务及最终用户界面,将有助于解决这个问题。这不是新的或独特见解,但在图书馆界,范式转换到LOC被证明很困难,既有技术原因、也有社会原因。图书馆在LOD上、尤其对特藏LOD,经验有限。转换遗留元数据为LOD的最佳实践仍在开发中,LOD对我们用户的假定益处仍有待证明。结果是,没有外来帮助,图书馆迟疑不愿意承担此项任务。由于本领域描述实践的多样性、用户需求的复杂性,推动数字化特藏的转变尤其具有挑战性。需要进一步实验和概念证明,以建立转换遗留特藏元数据为LOD的价值,证明如此做的近期益处”。【译自项目“Context”部分】

项目的4个研究问题如下【译自项目“Research Questions”部分,方括号为本人体会】
1、与一般馆藏目录记录相比,数字化特藏的单件级元数据通常更细粒度,在非书目实体上更丰富,使用定制词表和方案表达。当转换遗留特藏元数据记录为LOD时,会遭遇什么差别和附加挑战?【转换到LOD】
2、典型地,用于发现和观看数字化特藏的界面,是与OPAC和提供通用馆藏用户访问的辅助服务分离的。LOD能否重新连接图书馆特藏和普通馆藏?【整合特藏和普通馆藏】
3、数字化特藏也与外部、网上的非图书馆信息资源分离。如何借助LOD帮助识别与建立这些资源的有用连接?非图书馆资源是否有潜力丰富单件描述,提供发布和解释数字化特藏的环境?【用外部资源强化】
4、通常特藏单件的描述包含对人物和关系的大量引用。新兴的可视化和注释技术能否增加特藏的社会网络视图,对传统的书目中心视角起到有用的补充?【强化关系视图,尤其通过普鲁斯特档案】

——— 三个数字化特藏 ———

看前2个特藏的元数据,比一般书目信息丰富,如前研究问题1所述,粒度较细。此2特藏间在内容上有一定的关联性,通过关联数据联系起来,会有更丰富的呈现效果。
《Motley剧院和服装设计》元数据项目:图片名,演出名【戏剧】,作者/作曲者,剧院,开演日期,实物,类型,材料/技术,支撑,尺寸,相关人物,主题(AAT),主题(TGM),主题(LCSH),登记号,特藏
Captain de Foenix
《1720-1920演员肖像》元数据项目:ID号,题名,日期,角色,戏剧,主题【演员/扮演者等】,类型,尺寸,技术,创作者,出版者,描述,权利,物理收藏,存储库,特藏
如本例所见:William Farren II as Lord Ogleby in “The Clandestine Marriage”

元数据更丰富的是《Kolb普鲁斯特研究档案》。该档案是UIUC教授Kolb五十年(1945-1992)间研究普鲁斯特的资料,标识普鲁斯特书信中提及的个人、地点、事件;约4万张交叉参照索引卡片【出版物中相关内容摘录,有出处】。已经做的“数字化增加了第二层有用的元数据和规范控制:所有被引个人被赋予独特标识符,所有被引文学和创作作品被赋予一个类别(小说、诗歌、音乐、雕塑等),所有书目引用被标准化,方便链接这些元数据到资源如数字化报纸(大多数当时的法文报纸已被扫描,可由法国国家图书馆获取)和其他数字代理(数字化图书和图像或声音库,普氏本人手稿,同样由法国国家图书馆数字化及收藏)”。“为此档案创建的本地名称规范档,用日期(出生、死亡、结婚等)增强了名称串,包括对职业和/或亲属关系的注释。为协调名称与外部规范,与每个名称相关的这些辅助信息将方便识别和消歧。……期望潜在的用户贡献注释来链接名称与附加资源中的实体”。

参见:
梅隆基金项目数据库:Linked Open Data for Digitized Special Collections
项目主页:Linked Open Data for Special Collections
内容丰富,包括栏目:关于本项目、新闻报道、方法与成果、特藏介绍、咨询委员会、联系信息
UIUC的另一关联数据项目:伊利诺伊大学BIBFRAME项目