编目精灵III

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛，目的在于解决从维基百科文章文本（而非信息盒）中抽取三元组问题，并进而使相关技术普遍化，以及开发更细粒度的质量测度与准则，帮助判断是否信任这些数据。摘译网站信息如下：

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒（infobox）中包含的事实知识。但是，大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”，我们旨在促进由维基百科文章文本的知识抽取，以显著扩大和深化结构化DBpeida/维基百科数据的数量，并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源，使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识，加以提炼与结构化，然后为IT用户和业界，以自由和开放的方式在网络传播。

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同，它不同一次性的，而是持续增长和扩大的，关注*可持续地*推动现状，超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施，无限期地推动本挑战赛，同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载，并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP（自然语言处理）及抽取引擎，然后提交给我们。我们将定期运行参赛者工具以抽取：
1、事实、关系、事件、术语、本体为RDF三元组（三元组追踪）
2、有用的NLP注释，如位置标记、依赖关系、共同参照（注释追踪）

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议，并加入年度会议录。每次会议，挑战赛委员会将在参赛者中选择一位获胜者，可得1000欧元。

成果
每年12月，我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求 ：
三元组Track（知识抽取）
提交的主要目标是N-Triples格式的一个或多个文档，内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介：
– 抽取数据的数量
– 抽取数据的质量（正确性，适用性，一致性和简洁性）
– 抽取类型：除了事实，也希望术语和词典、本体知识（新类型、分类法、格言/原理、定义域/值域）
– 语言多样性：抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创，作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的，但这不是必要条件。

归档

TextExt：DBpedia开放文本抽取挑战赛