« 搜索引擎的体系结构 | 首页 | 《美国偶像》歌曲选(I) »

零编辑的娱乐新闻系统:牛啦网


bg2007040301.gif

卢亮的Blog上看到的:

牛啦曾经是一个书签系统,后来因为疏于维护,被黄色内容包围,进而我们关闭了他。

两年前我一直有一个想法,就是完全的实现零编辑的新闻系统,但是总是种种原因没有实施成,这次几个朋友一起花了几周时间完成了这个零编辑的娱乐新闻系统,也算弥补了以往的一个缺憾。

牛啦主要的功能是:
新闻网页的自动获取,自动分类,内容(标题,正文)的自动抽取,新闻图片的自动提取,新闻关键词计算,人名识别,新闻照片里头像的自动识别,内容消重,聚类,搜索等功能。

未来没有运营的打算,不过如果有好的建议我们可能会做一些改进。

牛啦的地址(http://www.niu.la

我浏览了一下,觉得这是一个很聪明的想法。

第一步将娱乐新闻自动抓取,第二步进行文本分析,主要是分析其中的人名。凡是相同的人名就归为同一个主题。第三步根据报道数量的多少,对当天的热点新闻进行排序。这样就实现了一个零编辑的娱乐新闻网站。

在这上面还可以加上其他功能,比如访问者留言,比如RSS,比如为每个人名建立一个档案。最后,再加上广告,就是一个低成本的娱乐门户,只需一个程序员业余时间维护就行了。

牛啦网本身倒还是其次,重要的是它提供了一种未来新闻网站的思路,这种思路完全可以应用到其他领域的新闻上去,主题词分析可以从人名扩展到地名和机构团体名。大家想一想,如果新浪网用这样方式展示新闻,那会是怎样的情景?

这种方式的主要技术难点在于如何自动识别人名,这是汉语分词技术中的关键之一。

另一个技术难点,我还没有想通他是怎么做到的,就是从照片中自动识别人物的头像。

(完)

相关内容

  • 2007.07.27: 工业设计三原则
    日本设计公司Information Architects在网站首页上,写了三个他们最基本的信念:
  • 2007.07.26: 互联网交通图
    有人仿照东京地铁交通图,画了一张互联网交通图。上面一共有16条行车路线,200个车站。每个车站就是一个网站,相似的网站组成了一条行车路线。这200个网站就是目前世界上最重要的网站了。

随机文章

  • 2006.08.12: 查拉《正面与反面》
    特里斯当·查拉(Tristan Tzara,1896-1963)是法国的先锋派作家,达达主义的创始人。今天,我看了他的一个剧本,写得非常机智,我很喜欢。
  • 2004.05.05: 世界真奇妙图片展(转贴)
    下面的图片是从新浪上转贴的,看看世界的其他角落,真是很有意思。

功能链接

广告



评论

阿三 说:

界面太乱。
分不出重点。

这种思路,将RSS聚会的范围扩大了。或者是聚合之后的再次聚合,很有意思。

fishee 说:

识别人物头像……应该是根据tag/上下文/文件名标识的吧。类似google图片。图像识别人脸……现在技术还没有那么成熟吧(特别是明星们还化妆,哈哈)。

Ruan YiFeng 说:

引用fishee的发言:

识别人物头像……应该是根据tag/上下文/文件名标识的吧。类似google图片。图像识别人脸……现在技术还没有那么成熟吧(特别是明星们还化妆,哈哈)。

你看那个网页中间的“明星百态”,就是用机器将头像从照片中抠出来的!

我在想会不会采用“一块浅色区域中有两个对称的暗点”这种识别模式……

我要发表看法