互联网档案计划(Internet Archive)

作者: 阮一峰

日期: 2007年11月16日

腾讯课堂 NEXT 学院

bg2007111601.jpg

前几天,我在Blog里提到了"开放内容联盟"(Open Content Alliance),当时我说这是"互联网档案计划"(Internet Archive)的一部分。今天,我就来介绍一下这个非常非常重要和有用的"互联网档案计划"。

就像它的名字一样,这个计划的目的就是为互联网保存一份档案。在它的网站上,它这样介绍自己:

Most societies place importance on preserving artifacts of their culture and heritage. Without such artifacts, civilization has no memory and no mechanism to learn from its successes and failures. Our culture now produces more and more artifacts in digital form. The Archive's mission is to help preserve those artifacts and create an Internet library for researchers, historians, and scholars. The Archive collaborates with institutions including the Library of Congress and the Smithsonian.

大多数社会都非常重视保护文化遗存。如果没有这些遗存,那么人类就将失去记忆,无法从过去的经历获得启示。如今,越来越多的文化遗存以数字格式出现。"互联网档案计划"的使命就是保护这些数字遗存,为人类创造一个互联网图书馆。我们的合作单位包括国会图书馆和史密森学会。

目前,"互联网档案计划"分为六大部分:

一、电子书

网址:http://www.archive.org/details/texts

这个部分,我以前已经介绍过了,它专门收集公共领域的书籍和文档,任何人都可以免费下载。截至到今天,共有29万多种材料,堪称互联网上最好的公共领域图书搜索引擎。

它主要收集英语书籍,但也包括少部分其他语种的书籍,比如朱熹的《论语集注》

二、网页

网址:http://www.archive.org/web/web.php

这个部分有个专门的名字,叫做"时光倒流机器"(Wayback Machine),它像收集旧报纸那样收集旧网页。举例来说,Yahoo!的首页就有5000多份档案,最早的可以回溯到1996年10月17日,最近的则是2007年8月30日

要将全世界的网页都保存下来,这需要多大的存储容量啊?根据2006年的统计,当时Wayback Machine的存储容量有2000T,然后还在以每月20T的速度增加。

三、视频

网址:http://www.archive.org/details/movies

这个部分收集视频材料,你在其中可以找到动画片电影。我感觉内容还不算很丰富,不过在其中经常可以找到有趣的内容,比如《如果抵御僵尸的袭击?》和1951年的好莱坞喜剧片《皇家婚礼》

四、音频

网址:http://www.archive.org/details/audio

音频材料主要是有声书籍音乐。比如,你可以免费下载世界名著《简爱》的MP3,以及巴赫的《 C小調第4奏鸣曲》等等。

五、软件

网址:http://www.archive.org/details/software

软件也是人类文化的一部分,保存旧软件同保存旧书一样,都是很有意义的。我在上面发现了Photoshop 6.0的DEMO版和Winamp 5.0

六、教育材料

网址:http://www.archive.org/details/arsdigita

这部分主要是美国大学课程,有视频和文字材料下载,相当于不去北美就可以上那里的课,比如麻省理工学院的《微分方程》和Naropa大学的《艾伦·金斯堡的诗歌》

最古怪的事情是,这里居然有一个"中国大学课程"的栏目,里面有14所中国高校的187门课程。当我在美国的网站上,听到有人用中文给我讲解《毛泽东思想和邓小平理论概论》,我简直有一种时空交错的感觉。

(完)

留言(6条)

这个网站以前用过一点. 如果全部收集, 那数据量也太恐怖了. 即使是部分记录, 也还是很有意义的计划.

Wow, what an exciting online library!

很好,很详细。

从内地上传archive.org速度非常快。经常达到200k/s以上,而且如果我多开几个ftp链接,每个都在200k以上。

www.archive.org非常稳定。我特别信任他。

你可以再仔细阅读一下archive.org成立的由来。我很敬佩他的创始人。

听这个采访,你会了解很多
http://www.pbs.org/cringely/nerdtv/player/?show=004&ext=mp4

和archive.org一同的项目也有其他的,比如以前的etree.org现在是archive.org的一部分。

这是个值得学习和使用的网站。

如果你得到了更多的信息,希望你能更新和完善你这篇文章。谢谢。

你写了,我就可以不写或者少写了。:)


我个人认为amazon从购买到技术借鉴了很多它的技术。最后这句话是给所谓挨踢的人看得。

引用404的发言:

如果你得到了更多的信息,希望你能更新和完善你这篇文章。谢谢。

你写了,我就可以不写或者少写了。:)

好的,我一定会再看一些资料,完善这篇文章的。

但是,你也可以写啊。这么好的项目,就是需要大力宣传嘛!

一直在默默关注你的博客,很好 啊!可以多写一点关于这个网站的东西吗?我想多了解一些,谢谢哦!

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接