“不盈利”的互联网档案馆，有人要从它身上挤出26亿元_内容_网页

在互联网上，有许多充满“艺术行为”的项目，像是：把AI凑成一堆让它们自己发布内容、鼠标指哪就生成一张人物看向鼠标位置的图片等等。这些项目虽然有趣，但要说再带上“对大家能带来用处”的标签，那么可以分类成“艺术类”的项目就不多了，其中……互联网档案馆就算一个。

互联网档案馆的口号是“普及所有知识”，它会爬取网络上的信息并永久存储下来，它主要保存的内容分类是：网页、图书、视频、音频、软件和图片。

档案馆是一个诞生于1996年号称非营利的项目，到现在收集的内容还在持续增长，在2021年，它保存的内容数量是：

2021年2月，该网站存储了7280 亿个网页、3800万本书和文本、1400 万个录音（包括 240,000 场现场音乐会）、700 万个视频（包括 200 万个电视新闻节目）、400 万张图片、790,000 个软件程序。

而在2023年，从单一的网页分类来看，保存的网页数就来到了8280亿，一年500亿的增长数量可谓迅速，这些保存的网页数据是一直累加的，不是说保存了新数据就删除较旧的数据，所以在这里能发现不少有趣的东西。

像是知乎以前的域名，在2001年的时候是一家叫做“智狐机械”的宣传网页，在这里上面你甚至还能看到瀛海威的服务器托管广告，左下角有一个“请用IE4.0以上”访问的提示，一下子就感觉回到了以前，而这些页面里的链接，点进去也是有内容的，并不只是主页。

你可以在上面自由调整时间线，来体验一下复古的感觉。

这些保存的网页也不是强制爬取的，它会通过网站的robots.txt文件来判断是不是爬取该网站，如果想单独禁止这个档案馆保存你网站的黑历史，只需要在爬虫声明里面禁止 ia_archiver 这个标签的爬虫即可。

如果你只是在网站上单独留下一行提示表示不想被爬取，是没有用的，这在2007年的时候，一位美国科罗拉多州的妇女已经尝试过了。

而如果想要删除某个站点保存的内容，用robots.txt没有生效的话，根据国外网友说的，也可以直接联系管理员进行删除。

除了网页，互联网档案馆保存的内容里面还有不少古早的系统和游戏，对于那些对历史软件感兴趣的朋友比较有用。

像是一些MS-DOS游戏，互联网档案馆的页面直接提供了一个模拟器，可以直接在网页上玩。

它上面的软件五花八门，甚至安卓APK的都有，版本的话大多是比较旧的版本，给人感觉就像是一个应用市场。

看到上面凌乱的软件和版本，也能看出来这个互联网档案馆的另一个特色，那就是：不管是什么东西，都是一股脑儿保存了再说，内容质量与真假并不是最重要的，保存是第一要务。那么带来的结果就是，互联网档案馆上面绝大部分的内容，对普通人来说是冗余用不上，甚至是混乱的。

这时候再来看互联网档案馆的标语“普及所有知识”，就显得有些小问题了，这些知识是没有经过筛选的，更多的仅仅是“信息”，称不上是“知识”，而在近一两年，这个爬虫型的网站又被美国法院和索尼和其他唱片公司盯上，原因是它保存的内容里有许多是未经授权的内容。

前脚刚刚在数字图书的问题上达成和解，下一脚音乐相关的公司就找上门来了。

就在昨天，一堆唱片公司还在要求互联网档案馆删除音频，然后按照15万美元一首的价格进行赔偿，已经列举出来的有2749个音频，完整的列表有数十万部作品，一共需要3.72亿美元，换算一下是26亿人民币左右，对于不盈利（但是接受组织或者个人的赞助，从6万美元到600万美元都有）的互联网档案馆来说，绝对是一笔天价了。

而互联网档案馆则表示积极应诉唱片公司侵权索赔，同时吐槽了一下这些音频的目的是用于教学和研究，而且大多内容的访问量一个月连1人都没有。

里面一些也来自互联网档案馆起源于2006年的Great78项目，他们想保存的音频则历史久远，是一些1898年到1950年的唱片，而这些唱片大多是用虫胶树脂制作的，录音中会有刮擦和爆裂的杂音，想要转换成数字版本还需要有人去处理这些噪音。

在他们的博客上有提到，这个项目记录的唱片已经超过了40万张。

也许看到这里，大家也能隐约感受到了，保存互联网上的这些东西，哪怕也还只能算是互联网上的一小部分内容，维护和存储起来也是需要费用的，那么这些钱都是从哪里来的？那就必须提起这个站点的创始人Brewster Kahle了。

互联网档案馆的创始人大家可能在不经意间，已经用过或者听说他的产品，Kahle毕业于麻省理工，1992年创立了一家电子出版公司WAIS，可以让《华尔街日报》之类的出版物在网上发布，1995年，它把这套系统以1500万美元卖给了美国在线。

之后他建立的网站Alexa Internet，相信大多人都不陌生，就是那个属于亚马逊的那个Alexa网页分析工具（已经关停），它可以分析网站的世界排名，这个工具是在1999年被亚马逊以2.5亿美元收购的。

有了启动资金，Kahle就已经在规划互联网档案馆这个项目了，在与亚马逊的合约当中，就提到了用Alexa获取的数据也要给一份数据给到互联网档案馆。

在互联网档案馆成立25周年的时候，创始人提到了他们之前用的存储设备是普通机器，最开始保存的内容在1-10TB，之后每几个月都要翻一倍，最后用上了数据中心一类的存储设备。

而他们回首过去25年，说之后25年的互联网可能越来越严格，相关的内容会被企业和组织把控，他们会将网页尽可能存档，好家伙这事可不兴做啊，不过也正是因为这样的特性，所以它早早就被封掉了。

也有人受这个档案馆的启发，做了一个中文网站的时光机，不过这类工具简陋许多，收集到的内容和排版也在兼容性方面也差一点，而且收集到的内容也比较少，想要长久运营下去是很困难了，而且像是搜索引擎的快照功能都已经下线了，这样的工具想要发展起来不太现实。

保存互联网的内容也是为了留住记忆，不过这些记忆变得不再想回忆的时候，怎么保存都会显得多此一举，如果只是选择性地记忆某些东西，而且还是可以随时篡改的时候，更令人深思。

参考资料：

码农翻身－他把互联网“存”了起来

ConanXin-互联网档案馆（Internet Archive）25周年

返回搜狐，查看更多

责任编辑：

果核剥壳

“不盈利”的互联网档案馆，有人要从它身上挤出26亿元