零编辑的娱乐新闻系统:牛啦网

作者: 阮一峰

日期: 2007年4月 4日

bg2007040301.gif

卢亮的Blog上看到的:

牛啦曾经是一个书签系统,后来因为疏于维护,被黄色内容包围,进而我们关闭了他。

两年前我一直有一个想法,就是完全的实现零编辑的新闻系统,但是总是种种原因没有实施成,这次几个朋友一起花了几周时间完成了这个零编辑的娱乐新闻系统,也算弥补了以往的一个缺憾。

牛啦主要的功能是:
新闻网页的自动获取,自动分类,内容(标题,正文)的自动抽取,新闻图片的自动提取,新闻关键词计算,人名识别,新闻照片里头像的自动识别,内容消重,聚类,搜索等功能。

未来没有运营的打算,不过如果有好的建议我们可能会做一些改进。

牛啦的地址(http://www.niu.la

我浏览了一下,觉得这是一个很聪明的想法。

第一步将娱乐新闻自动抓取,第二步进行文本分析,主要是分析其中的人名。凡是相同的人名就归为同一个主题。第三步根据报道数量的多少,对当天的热点新闻进行排序。这样就实现了一个零编辑的娱乐新闻网站。

在这上面还可以加上其他功能,比如访问者留言,比如RSS,比如为每个人名建立一个档案。最后,再加上广告,就是一个低成本的娱乐门户,只需一个程序员业余时间维护就行了。

牛啦网本身倒还是其次,重要的是它提供了一种未来新闻网站的思路,这种思路完全可以应用到其他领域的新闻上去,主题词分析可以从人名扩展到地名和机构团体名。大家想一想,如果新浪网用这样方式展示新闻,那会是怎样的情景?

这种方式的主要技术难点在于如何自动识别人名,这是汉语分词技术中的关键之一。

另一个技术难点,我还没有想通他是怎么做到的,就是从照片中自动识别人物的头像。

(完)

留言(3条)

界面太乱。
分不出重点。

这种思路,将RSS聚会的范围扩大了。或者是聚合之后的再次聚合,很有意思。

识别人物头像……应该是根据tag/上下文/文件名标识的吧。类似google图片。图像识别人脸……现在技术还没有那么成熟吧(特别是明星们还化妆,哈哈)。

引用fishee的发言:

识别人物头像……应该是根据tag/上下文/文件名标识的吧。类似google图片。图像识别人脸……现在技术还没有那么成熟吧(特别是明星们还化妆,哈哈)。

你看那个网页中间的“明星百态”,就是用机器将头像从照片中抠出来的!

我在想会不会采用“一块浅色区域中有两个对称的暗点”这种识别模式……

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接