TextExt – DBpedia Open Extraction Challenge
DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:
背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。
使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播。
方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。
我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)
【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。
成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。
对参赛者的要求 :
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
– 语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处
文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。