国际图联活动:#1Lib1Ref(1馆员1参考文献)

曾经,网络百科全书代表着不靠谱,严谨的学术研究不引用网络百科。这种状况已经逐渐改变,但网络百科的质量仍有待改善,而引用出处是体现其可靠性的重要指标。在维基百科中,没有参考文献的词条通常都会有醒目标识,提醒使用者注意词条的真实性。

2016年开始,国际图联(IFLA)与维基百科合作,征求图书馆员参与维基百科的编辑活动,为条目增加参考文献。“将图书馆领域的集体知识用于改善作为免费方式获取事实检查信息的维基百科”。活动始于维基百科创立15周年纪念日(2016年1月15日),全称1 Librarian 1 Reference,即一个图书馆员一条参考文献。图书馆员为条目增加参考文献时,在编辑摘要中加上 #1Lib1Ref 作为标识 。

1Lib1Ref

活动已持续3年,2016年为期1周,2017年起延长到3周,2018年活动已在1月15日到2月3日举行。
从活动成果看,参与情况逐年增加:
2016年:327贡献者,1232个修改(879页),9种语言
2017年:741贡献者,4171个标志#1Lib1Ref(2588页),18种语言
2018年:824贡献者,6500个标志 #1Lib1Ref,22种语言

今年首次进行第2轮,目前正在进行中(2018.5.15-6.5),主要目的是希望发展中国家参与,改变维基百科中对富裕国家的偏向。
吾国或许认同维基百科存在偏见的说法,因此自信满满地主动屏蔽中文版,这个活动当然也不会参加。
那么,图书馆界是不是可以与中文百科合作,开展类似活动呢?毕竟也曾有过传为美谈的“卧槽泥马”参考文献《战国策》;而近年也越来越常看到一些言之凿凿的信口开河,需要真实的参考文献来正本清源。当然,图书馆员也可以此体现其专业价值。

相关链接:
IFLA网站新闻(2018-5-25):Delivering Information for All: #1Lib1Ref Returns for a Second Time in 2018
维基百科
词条:1Lib1Ref
活动成果:The Wikipedia Library/1Lib1Ref/Lessons
活动说明:The Wikipedia Library/1Lib1Ref (有中文版)

TextExt:DBpedia开放文本抽取挑战赛

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。

成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。

维基百科搞笑词条的回忆

    在众多在线百科中,维基百科是我的首选。今天是维基百科十周年纪念日,想起开博之初写的“维基百科搞笑词条” (2004年11月7日),翻出那个搞笑词条“稻米”晒晒:

稻米是一种可食用的谷物,煮熟后称米饭。
现在常用电饭煲煮饭,煮之前要淘洗,但也有免淘洗米。
如果煮的时候多放点水,煮熟后称稀饭,也叫粥;但水放得太多,煮熟后称撩命汤。如果煮的时候水放的比较少,煮熟后称干饭;只加一点水的煮后叫夹生饭,不加水的叫爆米花。用油炸的叫锅巴。煮成的饭有的生、有的熟、有的焦的叫三层楼。饭煮好后加水的叫泡饭。

    当时网上热议维基百科,前述博文曾被某评论文章引用,很是热烈讨论了一番。
    遗憾的是,在维基百科中,那个“稻米”词条已经不复存在,且一点历史记录也没有留下,所以说维基可以保留所有编辑历史并不是绝对的。
    所幸我保存了一个截图:

稻米

    因为,那是UU写的。
    中文维基大概始于2003年。2004年3月的时候,UU听我说有一个人人可撰写词条的百科全书,相当兴奋,就到维基百科在线撰写。后来还不时想到看看有没有被人修改、改了些什么,开心一番。

    除了我的截图,该词条留下的另一个痕迹,就是维基百科网站聊天记录中维基人当年对该词条的讨论(维基百科:聊天/2004年11月)。其中的一些评论,UU看了还是很开心的:
“維基固然要以百科全書自居,但難道百科全書中就不能有幽默或是一些錯誤嗎?我覺得維基裡還是不要太學術化的好,細觀稻米一篇,從第一個寫作的人的角度,到最後一位修改的人的觀點,都可以看出很有趣的東西”──阿福 18:02 2004年11月24日
“我一点不觉得稻米有什么可笑之处,上面的内容有些我确实不知道,这就是知识呀。当然这些知识可能比较浅薄,但是大家的努力就会让他变得越来越丰富。我想,无论文风如何,但是没有几个人能够独自写出这么一篇多角度的文章来。–百无一用是书生 (shizhao) 18:12 2004年11月24日
    我当时在底下的回复中说“我不改,是因为我喜欢这个词条,理由就不说了”。最重要的理由是──撰写者是UU。

参见:筆記與流年
是大家的,而不只是专家的 (06/12/2004)

———-历史的分割线———-
除了上文,在开博第一年还写了几篇涉及维基百科的博文。并非颂扬之词,只是很有历史感,拿出来晒晒:

维基何时成为网络时代的第5大美人?(2004年11月23日) 是从维基百科引申到专业维基的建设。一问、一网……往事不可追,参见“一网生不逢时”。

维基百科“版权信息”的另类解读 (2004年12月17日)

在以上几篇博文下,都有中文维基元老Mountain的留言。当年是订着他的Blog的,看他写调到上海工作,后来那个Blog不再更新,就没了音讯。昨天查到他的blog搬到了“筆記與流年”,这些年虽然没订,但也曾见过其他人的分享,只不知道主人就是Mountain。