SKOSsy:利用DBPedia自动生成叙词表?

奥地利的语义Web公司(Semantic Web Compan)正在开发一个自动生成英语和德语叙词表的工具SKOSsy。SKOSsy可以针对某个领域,从维基百科的关联数据形式DBPedia中抽取数据,生成基于SKOS的叙词表“种子”,随后再使用专门的叙词表编辑工具清理,增加概念、关系及链接等。也就是说不必一切从零开始了。

据该公司博客介绍,利用SKOSsy制作某一领域叙词表雏形,然后使用PoolParty系列工具完成词表,进而自动标引、形成检索系统的过程如下:
1、在维基百科/DBPedia中找到最合适的类别
2、由SKOSsy遍历DBPedia收集所有资源、等级与非等级关系、交替标签、定义及其他属性,并组织成一个有效的SKOS叙词表。整个过程持续几分钟。
3、把初成的叙词表装入PoolParty Thesaurus Manager (PPT),人工完善。
4、使用PoolParty Extractor (PPX)生成定制的文本抽取器。
5、用PPX从文档中自动抽取命名的实体并做索引。
6、数秒钟后语义搜索引擎就可以用了。 PoolParty Semantic Search (PPS)可以提供类别自动完成、分面检索、内容推荐(类似检索)及智能检索提示。

这广告实在很生动。虽然博文中提供了一个自动生成的示例词表的链接,但需要登录才能看,效果不明。想要实际体验的话,可以向他们发送自己感兴趣的领域,他们会向你发送测试邀请,或者为你准备一段演示。

Via mod librarian: Metadata Monday: Automated Controlled Vocabularies?(梯子自备)

SKOSsy Dynamically Generates Thesauri: Automated Controlled Vocabularies A Real Possibility?
by NARESH SARWAN on DECEMBER 2, 2011

Introducing SKOSsy – generate thesauri on the fly!
November 29, 2011 by Andreas Blumauer

《SKOSsy:利用DBPedia自动生成叙词表?》上有2条评论

  1. 博主,你好,最近一直都在看OPAC2.0的东西。
    例如用wordpress+scriblio来搭建OPAC2.0。但是遇到一些问题不知道怎么解决。首先我看到scriblio官方的视频中插件中有个scriblio catalog enrichment 这个插件,但就是找不到下载。
    其次我们用的是iii的millennium系统,我通过WP的后台导入是可以获取到类似:
    LEADER 00000nam 2200037 a 4500
    008 000921n ch 000 0 chi d
    020 9577175864|cNT $420
    041 chi
    090 TK 9969|bShiwm 2000
    100 1 施威銘.
    245 10 PCDIY 2000完全掌握你的電腦 /|c施威銘硏究室著.
    260 臺北市 :|b旗標 ,|c2000.
    300 1 v. (various pagings) :|bcol. ill. ;|c24 cm.
    650 0 Microcomputers|xAmateurs’ manuals.
    650 0 電腦|x業餘手册.
    700 1 施威銘硏究室.
    这样的数据,但是在处理完成时会出现:
    Processing complete.
    records harvested. with 0 warnings and 0 errors.
    不明白为什么一条记录都拿不到。不知道怎么处理。
    求解答。

    1. 抱歉我不懂技术。香港科技大学在用Scriblio,而且他们的系统也是Millennium,向他们请教应该是最合适的。

评论已关闭。