TextExt:DBpedia开放文本抽取挑战赛

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。

成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。

媒介与信息素养五大法则(附UNESCO重要相关资料)

联合国教科文组织(UNESCO)力推“媒介与信息素养”(MIL),它的主题页面汇聚了相当丰富的资源,有的还有中文版:Media and Information Literacy

网页侧栏资源太过丰富,指南、工具、课程、出版物、文档等等,还有外部链接MIL Clearinghouse——联合国不同文明联盟(UNAOC) 的“媒介信息素养交流中心”。总之就是看不过来。

侧栏首先是MIL概念,接下来就是最新发布[1]的“媒介与信息素养五大法则”:
Five Laws of Media and Information Literacy

媒介与信息素养五大法则

从名称不难猜测来自阮冈纳赞的图书馆学五定律(1931年),但并没有五定律那么简明扼要。
在2016年《MIL年鉴》中有解说文章[2],从该文表1中抽出对应的“图书馆学五定律”文本和现在的解释,附在五大法则后,或许可帮助理解:
法则1:信息、传播、图书馆、媒介、科技、互联网以及其他形式的信息提供者应用于批判性的公民参与和可持续发展。它们享有同样的地位,而且没有一个比其他更与媒介信息素养相关或应被视为如此。 (书是为了用的->知识是为了用的)
法则2:每个人都是信息或知识的创造者,并且携带自己的消息。他们必须被授予获取新的信息或知识和表达自己的权利。男性与女性应共同享有媒介与信息 素养。媒介与信息素养亦是人权的纽带。 (每个读者有其书->每个知识用户能获得知识并创造新知识)
法则3:信息、知识与消息并不总是价值中立,或始终免受偏见影响。任何对媒介与信息素养的概念化、使用与应用都应保证上述事实对于所有人都是透明可懂的。 (每本书有其读者->所有知识有其用户)
法则4:每一个人都想知晓与理解新的信息、知识与消息,并与外界进行交流,即使她/他并没有意识到、承认或表达过。然而她/他的权益绝不应受到侵害。 (节省读者时间->提高知识用户的幸福感)
法则5:媒介与信息素养并不能即刻习得。它是一个动态的具有生命力的经历与过程。只有当这个学习过程包括知识、技能与态度,涵盖进入权、评估、使用、生产、信息的传播、媒体和技术内容时它才能称为完整。(图书馆是生长的有机体->知识是动态成长的)

[1] CILIP 信息素养组新闻. UNESCO launch Five Laws of Media and Information Literacy (February 16, 2017)
[2] I. V. Malhan & Jagtar Singh. Five Laws of Media and Information Literacy as Harbingers of Human Rights: A Legacy of Ranganathan’s Five Laws of Library Science. MILID Yearbook 2016, Media and Information Literacy: Reinforcing Human Rights, Countering Radicalization and Extremism. UNESCO, 2016. pages 25-39. ISBN 978-92-3-100177-2

——— 附:UNESCO“媒介与信息素养”重要文献 ———
– MIL宣言(3个)
2011.6.17:菲斯宣言Fez Declaration on Media and Information Literacy) (2页)
2012.6.28:莫斯科宣言The Moscow Declaration on Media and Information Literacy),UNESCO和IFLA共同发布 (4页)
2014.5:巴黎宣言Paris Declaration on Media and Information Literacy in the Digital Era)(6页)

– 中文版资料(2种)
2011:《媒介与信息素养课程方案教师用书》(Media and Information Literacy Curriculum for Teachers)(中文版 189页
2013:《全球媒介与信息素养评估框架:国家状况与能力》(Global Media and Information Literacy Assessment Framework: Country Readiness and Competencies)(中文版 193页

NISO推荐实践《期刊迁移实践条例》Transfer Code of Practice

国际上,期刊更换出版者或发布平台是常见现象,这被称为“迁移”(Transfer 转让)。据称2016年1-10月,EBSCO共录得超过5000种期刊更换出版者。在增强迁移通告服务(ETAS)(介绍见下)侧栏“迁移通知”下,有最新变更出版者的期刊,可以由生效日期实际感受下数量之多。
期刊迁移对图书馆、中介机构(如连续出版物订购代理、链接解析器管理者、大型发现系统供应商)和读者有负面影响。常常期刊仍在出版,但像是消失了,现有信息系统到期刊内容的链接中断,影响对期刊的订阅与访问。(NISO RP-24-2015,p.v)
为应对这个问题,英国连续出版物集团(UKSG)自2006年开始期刊迁移项目,于2008年发布第1版《期刊迁移实践条例》(Transfer Code of Practice),指导期刊的迁出和接收出版者如何确保以最小的中断,让所有利益相关人能继续获取内容。
2014年,项目转由NISO主持(Transfer),维护机构更换消息于2015年宣布(UKSG Transfer Code of Practice to be Maintained by NISO (2015-2-9)) ,随后《期刊迁移实践条例》 作为NISO“推荐实践”发布第3版(NISO RP-24-2015)。

《期刊迁移实践条例》由图书馆、出版者出版者和其他专家组成的“迁移指导委员会”管理,主要活动分为三个方面(以下编辑译自NISO的 Transfer 网页):
1、期刊迁移实践条例。当前为第3版:Transfer Code of Practice, Version 3.0. NISO RP-24-2015. National Information Standards Organization (NISO), 2015. 11 pages. ISBN 978-1-937522-40-7
已签署此条例的出版社见“Transfer Publishers”页面,包括很多大出版商。
2、增强迁移通告服务Enhanced Transfer Alerting Service, ETAS)。方便期刊迁移沟通,本服务由以下3部分组成:【在JISC网站】
期刊迁移通知数据库Journal Transfer Notification Database):可用题名、关键词、ISSN查询期刊迁移详细信息 。
迁移通告邮件组Transfer Notification List):每当使用ETAS宣布期刊迁移,注册者会收到电子邮件通告。
迁移通知博客Transfer Notification Blog,有墙)。存储来自出版社的期刊迁移信息,作为迁移信息存档。
3、迁移的教育和支持活动。迁移指导委员会致力于向出版者、图书馆员和出版过程中的其他利益相关者提供实践支持。

自《条例》作为“推荐实践”发布以来,NISO每年都召开公开远程会议加以推广。2017年会议将于2月13日举行。