3个月前,就在freebase.com上线的第二天,我在日志里惊呼"这将是互联网上继Wikipedia之后又一个杀手级的应用"。可惜当时freebase.com不对外开放,我不能进去看个究竟。
上个星期,我终于得到了它的邀请信,成为了注册用户。于是,我将这个网站初步研究了一下。
Freebase的作用
首先,我来说一下,这个网站到底是干什么的。
简单说,Freebase是个类似wikipedia的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于,Freebase中的条目都采用结构化数据的形式,而wikipedia不是。
比如,下图是已故美国总统肯尼迪的条目(点击看大图)。可以发现其中所有的内容都是格式化的,一条一条的,有点像履历表,包括出生时间、死亡时间、性别、职业、国籍、配偶等等。
这一套格式是固定的,所有人物条目都包含同样的字段。这样一来,数据之间就可以很容易地联系在一起,为信息的查询和处理提供了巨大的方便。
举例来说,将来可以很方便地在Freebase中查到"出生于1946年的美国电影导演的名单",然后你就可以根据这份名单,立即从Freebase中提取他们每个人的简历。要想在wikipedia中完成类似的查询是非常困难的,事实上,wikipedia最大的缺点就是它的数据不是结构化的,因此难于引用和处理。
推而广之,Freebase的目标是包含地球上的所有信息,因此可以设想,理论上,将来可以从freebase中得到任何信息。我立刻能想到的一个应用是,将来在电脑上播放DVD或mp3时,播放器可以到Freebase中获取光盘或专辑的出版信息。
Freebase的结构
Freebase的结构分为三层:Domain -> Type -> Topic。
1) 在Freebase中,每个条目叫做一个Topic,每个Topic中的固定字段,叫做"属性"(Property);
2) 所有同类的Topic组成一个Type,比如所有电影Topic就属于同一个Type,每个Type都有一套固定的Property,因此同类信息可以直接比较和关联;
3) 所有相关的Type组成一个"域"(Domain),比如电影和音乐都属于"艺术和娱乐" Domain。
截至现在(2007年5月30日),Freebase中共有61个DOMAIN、765个Type,2,312,676个Topic。
元数据的威力
如果你熟悉图书馆学的话,其实可以看出来,Freebase的核心功能就是为每一类条目(Type)定义了一套元数据。元数据是否准确和适用,是影响Freebase成败的关键。
Freebase最强大的地方就在于,它里面的元数据是可变的,具有弹性。
具体的操作机制,我还没有完全搞清楚,好像是用户可以定义自己私人的元数据,然后在某些条件下,某些私有元数据的Property可以变为共有的Property。
对Freebase的一些意见和展望
现在Freebase全站完全都是用Ajax搭建的,HTML页面中根本不包含具体数据,完全要靠Javascript去读取。这等于拒绝了搜索引擎,我认为是极其不智的。
另外,也许是Alpha版的原因,现在的网站中还不包括信息输出,使得用户无法引用。我认为,每个条目都应当提供xml文件才好。
不管怎样,Freebase是一个革命性的网站,就像一个国外程序员所说:"Freebase是2007年迄今互联网上最激动人心的东西"(This is the most exciting Web thingy 2007 until now.)我想我将在这个网站里面,继续花费大量的时间,四处逛逛,熟悉整个系统。
我预计,到明年的这个时候(2008年6月),Freebase将成为互联网世界中最热门的话题之一。
(完)
jgmao 说:
现在Freesbase 需要invitation code?
怎样才能找到人邀请我呢?
2007年5月31日 08:56 | # | 引用
sunshine 说:
准备数字图书馆的课件,主题是元数据,搜索间偶然看到了你的博客!受益匪浅!不论是专业学术还是思想领域,嗯,当然还有英语学习!呵呵!谢谢你!
现在每次上网都要看看你的网页,总能收获不少!
2007年6月 5日 20:01 | # | 引用
MetalDudu 说:
我也发过注册申请,不知道什么时候能得到邀请。
通过数据库方式,一定比wiki的方式更容易组织资料。
2007年6月 8日 21:53 | # | 引用
bigbug 说:
你好,我在http://www.bigbug.us/WordPress/wp-admin/post-new.php?posted=157引用了你这篇文章的部分内容,但是我没有找到你的trackback url,所以只好在这里留言了,有机会交流一下对freebase的看法吧。
2007年12月29日 20:09 | # | 引用
est 说:
其实Visualized Metadata才是最freaky exciting的东西
2008年4月14日 12:33 | # | 引用
mr_nop 说:
偶然知道了freebase这个网站,也是因为google api的缘故,请问,现在这个网站有什么进一步的发展么?单从网站没看出什么。
2013年10月12日 23:00 | # | 引用
Neil 说:
freebase在16年8月关闭了,目前可以下载全部的数据,压缩后22G
2017年1月26日 13:30 | # | 引用
Antonio 说:
现在在做利用freebase做sub-knowledge graph的工作 看到07年的博客对freebase工作的展望真的非常神奇
2022年10月26日 23:32 | # | 引用