TextExt:DBpedia开放文本抽取挑战赛

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。

成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。

维基百科搞笑词条的回忆

    在众多在线百科中,维基百科是我的首选。今天是维基百科十周年纪念日,想起开博之初写的“维基百科搞笑词条” (2004年11月7日),翻出那个搞笑词条“稻米”晒晒:

稻米是一种可食用的谷物,煮熟后称米饭。
现在常用电饭煲煮饭,煮之前要淘洗,但也有免淘洗米。
如果煮的时候多放点水,煮熟后称稀饭,也叫粥;但水放得太多,煮熟后称撩命汤。如果煮的时候水放的比较少,煮熟后称干饭;只加一点水的煮后叫夹生饭,不加水的叫爆米花。用油炸的叫锅巴。煮成的饭有的生、有的熟、有的焦的叫三层楼。饭煮好后加水的叫泡饭。

    当时网上热议维基百科,前述博文曾被某评论文章引用,很是热烈讨论了一番。
    遗憾的是,在维基百科中,那个“稻米”词条已经不复存在,且一点历史记录也没有留下,所以说维基可以保留所有编辑历史并不是绝对的。
    所幸我保存了一个截图:

稻米

    因为,那是UU写的。
    中文维基大概始于2003年。2004年3月的时候,UU听我说有一个人人可撰写词条的百科全书,相当兴奋,就到维基百科在线撰写。后来还不时想到看看有没有被人修改、改了些什么,开心一番。

    除了我的截图,该词条留下的另一个痕迹,就是维基百科网站聊天记录中维基人当年对该词条的讨论(维基百科:聊天/2004年11月)。其中的一些评论,UU看了还是很开心的:
“維基固然要以百科全書自居,但難道百科全書中就不能有幽默或是一些錯誤嗎?我覺得維基裡還是不要太學術化的好,細觀稻米一篇,從第一個寫作的人的角度,到最後一位修改的人的觀點,都可以看出很有趣的東西”──阿福 18:02 2004年11月24日
“我一点不觉得稻米有什么可笑之处,上面的内容有些我确实不知道,这就是知识呀。当然这些知识可能比较浅薄,但是大家的努力就会让他变得越来越丰富。我想,无论文风如何,但是没有几个人能够独自写出这么一篇多角度的文章来。–百无一用是书生 (shizhao) 18:12 2004年11月24日
    我当时在底下的回复中说“我不改,是因为我喜欢这个词条,理由就不说了”。最重要的理由是──撰写者是UU。

参见:筆記與流年
是大家的,而不只是专家的 (06/12/2004)

———-历史的分割线———-
除了上文,在开博第一年还写了几篇涉及维基百科的博文。并非颂扬之词,只是很有历史感,拿出来晒晒:

维基何时成为网络时代的第5大美人?(2004年11月23日) 是从维基百科引申到专业维基的建设。一问、一网……往事不可追,参见“一网生不逢时”。

维基百科“版权信息”的另类解读 (2004年12月17日)

在以上几篇博文下,都有中文维基元老Mountain的留言。当年是订着他的Blog的,看他写调到上海工作,后来那个Blog不再更新,就没了音讯。昨天查到他的blog搬到了“筆記與流年”,这些年虽然没订,但也曾见过其他人的分享,只不知道主人就是Mountain。

学术图书馆也用开源ILS──UPEI舍Unicorn用Evergreen

    看国外图书馆采用开源ILS的报道,看得早已麻木。不过今天得知加拿大爱德华王子岛大学(UPEI)成为第一家采用Evergreen的学术图书馆,而且是一个月内搞定,还是感到些兴趣。
    UPEI馆长Mark Leggott在自己的博客上用系列博文记录了迁移的过程(Vendor to Open Source ILS in 1 Month,这是第1篇),还在PBWiki上建有迁移维基Wiki Migration Page,可详细了解整个过程。
    该馆原来用Sirsi的Unicorn,合约到期,决定迁移到Evergreen──5月上旬在测试服务器上安装Evergreen,开始将书目记录由Sirsi迁移到Evergreen,6月4日正式上线。应该是趁着暑假读者服务低谷吧。

    以上是操作过程。不知道决策过程。
    从博文看馆长是开源软件拥趸,做事随性,好象还常做拍脑袋的事(第2篇“Our Project Planning Document”竟是一封email,文首引言:Yea right – like how many people who know me think we actually have a planning document?),换系统这样的决策不至于随便拍脑袋吧?

    UPEI图书馆对新图书馆目录及系统的介绍:New Library Catalogue and System – Updated June 4/08)
新系统称为IslandPines,是该校名称与Evergreen发源地Georgia Library PINES Program的结合吧。
    新目录入口:http://islandpines.roblib.upei.ca/

    谈及使用开源软件,很多图书馆可能会感到担心,或者担心自己没有足够的技术力量,或者担心软件的稳定性,但国外图书馆为什么不担心?答案是,他们有很棒的Geek,可以自己搞定?那只是少数图书馆。真正的答案是,他们有开源软件公司做技术支持。UPEI就是由Equinox软件公司做技术后盾的,而该公司创始人正是Evergreen的开发者。
    因为是开源软件,Equinox并不具有垄断性质,如果不满意其服务,完全可以在不更换系统的情况下换一家提供服务的公司(如LibLime,也提供对Evergreen的支持)──这也正是很多国外图书馆选择开源软件的重要原因之一。

Via:
Wow! from "Self-plagiarism is style" by Dave Pattern
Academic Evergreen from Lorcan Dempsey’s weblog

推荐:Evergreen社区:http://open-ils.org/

PS: 很遗憾地说,无论是Mark Leggott的博客还是该馆的迁移维基,拜GFW之赐,都无法直接访问。