公众分类法(Folksonomy)

作者: 阮一峰

日期: 2006年9月 6日

腾讯课堂 NEXT 学院

从一个具体的问题开始思考:如何给电子书分类?(这个问题可以推广到如何给信息分类。)

传统的方法是使用自上而下的目录分类法(Taxonomy)。在中国是中图分类法(第四版),在美国是国会图书馆分类法。但是,这种分类过于复杂(所有细目厚达几千页),导致实施起来成本很高。而且,它不太符合电子书的实际,一是分得太细,一本书往往在第四层或第五层的子目录;二是分得不均衡,中图分类法下A类是"马克思主义、列宁主义、毛泽东思想、邓小平理论",I类是"文学",显而易见,对于电子书库来说,将A类单独分为一类非常浪费,而I类则至少可以分列成"汉语文学"和"外语文学"两大类。

此外,目录分类法还有一个先天不足,就是有时候一本书到底分在哪一个类很不明确。比如,《18世纪英国诗歌选(中英对照)》到底应该是"语言"类书籍,还是"文学"类书籍?一个解决办法是同时分在这两类,但是这会造成巨大的冗余工作量。

总之,目录分类法对于巨量信息来说,不是理想的分类方法。但是,它的直观和方便,却是其他分类法难以比拟的。

着互联网的发展,一种新的分类方法出现了,那就是公众分类法(Folksonomy)。典型的代表网站就是Del.icio.us

所谓"公众分类法",就是由公众来为信息贴加标签(tagging),被使用最多的标签就最能说明这条信息的特点。

使用标签分类,非常的便捷,而且易于组合,但是也存在一些问题:

(1)不同的用户对相同的标签,往往有不同的理解,比如在"工具"标签下,可能会发现彼此完全没有关系的内容。

(2)同义词问题。用户可能使用同义词作为标签,比如"tv/television","Holland/Netherlands/Dutch","超级女生/超女"。英语中,还存在复数问题。

(3)词的多义性问题。比如"china"这个标签,到底指中国,还是指瓷器。

(4)用户的标签五花八门,可能会产生大量"噪音",加重系统负担,降低分类的准确性。

以,最好的解决方法应该是,自上而下的目录分类法与标签式的公众分类法相结合,然后对能够用作标签的词汇进行控制(controlled vocabulary),不能什么词都用来当标签。

当然,这只是理想中的情况,技术上的实现似乎难度很大。

(注:此文用来为我整理思路,留待以后修改和补充。)

留言(4条)

真是个好问题
分类不健全只有靠搜索弥补了

如果需要处理的信息量足够大的话,那么一个足够活跃的,且可以信赖的核心用户组应该是必要的,相当于wikipedia的编辑们。

多义词可以借鉴wiki的消歧义页面。而同义词可以用彼此页面间的超级链接解决问题。

刚好涉及了很多关于我的专业的知识呢,很是激动!
你说的A类的浪费我们也有过思考,其实我想是因为跟政治强烈地有关所以才单独成类吧,这是中国特色哎.
还有关于中国的都是用数字2,这个也是单独的,如果我们要问为什么,只能回答作:因为是"中国"图书馆分类法啊!只是不知道是基于什么心态

您说的理想情况就类似WordPress的分类法

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接