评论

“不盈利”的互联网档案馆,有人要从它身上挤出26亿元

原标题:“不盈利”的互联网档案馆,有人要从它身上挤出26亿元

在互联网上,有许多充满“艺术行为”的项目,像是:把AI凑成一堆让它们自己发布内容、鼠标指哪就生成一张人物看向鼠标位置的图片等等。这些项目虽然有趣,但要说再带上“对大家能带来用处”的标签,那么可以分类成“艺术类”的项目就不多了,其中……互联网档案馆就算一个。

互联网档案馆的口号是“普及所有知识”,它会爬取网络上的信息并永久存储下来,它主要保存的内容分类是:网页、图书、视频、音频、软件和图片。

档案馆是一个诞生于1996年号称非营利的项目,到现在收集的内容还在持续增长,在2021年,它保存的内容数量是:

2021年2月,该网站存储了7280 亿个网页、3800万本书和文本、1400 万个录音(包括 240,000 场现场音乐会)、700 万个视频(包括 200 万个电视新闻节目)、400 万张图片、790,000 个软件程序。

而在2023年,从单一的网页分类来看,保存的网页数就来到了8280亿,一年500亿的增长数量可谓迅速,这些保存的网页数据是一直累加的,不是说保存了新数据就删除较旧的数据,所以在这里能发现不少有趣的东西。

像是知乎以前的域名,在2001年的时候是一家叫做“智狐机械”的宣传网页,在这里上面你甚至还能看到瀛海威的服务器托管广告,左下角有一个“请用IE4.0以上”访问的提示,一下子就感觉回到了以前,而这些页面里的链接,点进去也是有内容的,并不只是主页。

你可以在上面自由调整时间线,来体验一下复古的感觉。

这些保存的网页也不是强制爬取的,它会通过网站的robots.txt文件来判断是不是爬取该网站,如果想单独禁止这个档案馆保存你网站的黑历史,只需要在爬虫声明里面禁止 ia_archiver 这个标签的爬虫即可。

如果你只是在网站上单独留下一行提示表示不想被爬取,是没有用的,这在2007年的时候,一位美国科罗拉多州的妇女已经尝试过了。

而如果想要删除某个站点保存的内容,用robots.txt没有生效的话,根据国外网友说的,也可以直接联系管理员进行删除。

除了网页,互联网档案馆保存的内容里面还有不少古早的系统和游戏,对于那些对历史软件感兴趣的朋友比较有用。

像是一些MS-DOS游戏,互联网档案馆的页面直接提供了一个模拟器,可以直接在网页上玩。

它上面的软件五花八门,甚至安卓APK的都有,版本的话大多是比较旧的版本,给人感觉就像是一个应用市场。

看到上面凌乱的软件和版本,也能看出来这个互联网档案馆的另一个特色,那就是:不管是什么东西,都是一股脑儿保存了再说,内容质量与真假并不是最重要的,保存是第一要务。那么带来的结果就是,互联网档案馆上面绝大部分的内容,对普通人来说是冗余用不上,甚至是混乱的。

这时候再来看互联网档案馆的标语“普及所有知识”,就显得有些小问题了,这些知识是没有经过筛选的,更多的仅仅是“信息”,称不上是“知识”,而在近一两年,这个爬虫型的网站又被美国法院和索尼和其他唱片公司盯上,原因是它保存的内容里有许多是未经授权的内容。

前脚刚刚在数字图书的问题上达成和解,下一脚音乐相关的公司就找上门来了。

就在昨天,一堆唱片公司还在要求互联网档案馆删除音频,然后按照15万美元一首的价格进行赔偿,已经列举出来的有2749个音频,完整的列表有数十万部作品,一共需要3.72亿美元,换算一下是26亿人民币左右,对于不盈利(但是接受组织或者个人的赞助,从6万美元到600万美元都有)的互联网档案馆来说,绝对是一笔天价了。

而互联网档案馆则表示积极应诉唱片公司侵权索赔,同时吐槽了一下这些音频的目的是用于教学和研究,而且大多内容的访问量一个月连1人都没有。

里面一些也来自互联网档案馆起源于2006年的Great78项目,他们想保存的音频则历史久远,是一些1898年到1950年的唱片,而这些唱片大多是用虫胶树脂制作的,录音中会有刮擦和爆裂的杂音,想要转换成数字版本还需要有人去处理这些噪音。

在他们的博客上有提到,这个项目记录的唱片已经超过了40万张。

也许看到这里,大家也能隐约感受到了,保存互联网上的这些东西,哪怕也还只能算是互联网上的一小部分内容,维护和存储起来也是需要费用的,那么这些钱都是从哪里来的?那就必须提起这个站点的创始人Brewster Kahle了。

互联网档案馆的创始人大家可能在不经意间,已经用过或者听说他的产品,Kahle毕业于麻省理工,1992年创立了一家电子出版公司WAIS,可以让《华尔街日报》之类的出版物在网上发布,1995年,它把这套系统以1500万美元卖给了美国在线。

之后他建立的网站Alexa Internet,相信大多人都不陌生,就是那个属于亚马逊的那个Alexa网页分析工具(已经关停),它可以分析网站的世界排名,这个工具是在1999年被亚马逊以2.5亿美元收购的。

有了启动资金,Kahle就已经在规划互联网档案馆这个项目了,在与亚马逊的合约当中,就提到了用Alexa获取的数据也要给一份数据给到互联网档案馆。

在互联网档案馆成立25周年的时候,创始人提到了他们之前用的存储设备是普通机器,最开始保存的内容在1-10TB,之后每几个月都要翻一倍,最后用上了数据中心一类的存储设备。

而他们回首过去25年,说之后25年的互联网可能越来越严格,相关的内容会被企业和组织把控,他们会将网页尽可能存档,好家伙这事可不兴做啊,不过也正是因为这样的特性,所以它早早就被封掉了。

也有人受这个档案馆的启发,做了一个中文网站的时光机,不过这类工具简陋许多,收集到的内容和排版也在兼容性方面也差一点,而且收集到的内容也比较少,想要长久运营下去是很困难了,而且像是搜索引擎的快照功能都已经下线了,这样的工具想要发展起来不太现实。

保存互联网的内容也是为了留住记忆,不过这些记忆变得不再想回忆的时候,怎么保存都会显得多此一举,如果只是选择性地记忆某些东西,而且还是可以随时篡改的时候,更令人深思。

参考资料:
码农翻身-他把互联网“存”了起来
ConanXin-互联网档案馆(Internet Archive)25周年
返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
大家都在看
推荐阅读