Contents

archive.today 之谜

互联网没有没有记忆?

我们说互联网没有记忆,因为所有的事情都有时效性。 人们都只关心当下,而天大的热点事件,几个月之后都变成明日黄花无人问津。 但同时我们也说互联网是有记忆的,因为我们乐观地相信,不管过了多久,那些事情总归会在互联网上留下痕迹。

事实真的如此么?

如果你常常使用类似维基百科的服务,你会发现作为信息来源的参考链接常常会失效。 失效的原因有很多,可能是网站本身已经关闭,或者页面本身被删除,也可能数据还在,但不再被公开展示,而是需要实名验证或者付费登陆。 即使那些链接还可以访问,可能你看到的页面也已经被多次修改,失去了参考价值。 所以从某个时间开始,维基百科的用户习惯使用 Internet Archive 来备份参考链接的内容。

根据维基百科的描述,Internet Archive(互联网档案馆) 是美国的一个非营利性的,提供互联网多媒体资料档案阅览服务的数字图书馆。 用户可以提交保存各种数字资料的副本,包括图书、视频、图片、软件等等。 互联网档案馆 有一个网站时光机的功能,用户可以提交一个网页的链接, 网站时光机会抓取并保存此时的网页内容。 这样一来,即使十年后这个网站不复存在,你依然可以通过网站时光机来看到它当时的样子。

但我们今天的主角并不是互联网档案馆,而是一个叫做 archive.today 的网站。 整体上,archive.today 的功能和互联网档案馆 很类似, 但它只专注在网页的备份,也就是只做了互联网档案馆的网站时光机的功能。 与网站时光机相比,它更轻便易用,也更稳定。 我们前面说过,互联网档案馆是一个合法的非营利性组织,总部在旧金山。 它在2022年的年收入有3000万左右的收入,并且需要169名全职员工来支撑网站的运营。 而相对来说, archive.today 的情况就没那么透明了。 所以我们好奇的是,到底是谁在耗费心力,免费地维护着这一个网站?

功能

https://raw.githubusercontent.com/catbaron0/pic/main/images/2024529233009.png 我们从 archive.today 的设计上能对网站作者有一个直觉上的感受。

打开 archive.today,你可以看到两个类似地址栏的输入框。 把你想要存档的网页链接复制粘帖到第一个输入框,然后提交, 他就会访问这个网页,获取其中的内容,然后把内容保存。 在第二个输入框输入一个网址,如果有人曾经存档过这个页面,你就可以看到每一个存档的版本, 比如这个网页十年前,五年前,和上周的样子。 你能做的事情基本上就是这些了。

那我们再看一下它缺失的功能和特性,尤其作为一个运行在 2024 年的网站, 这些缺失的特性更能体现这个网站的性格。

首先,网站几乎没有UI设计可言。 它看上去简洁、紧凑,几乎看不到任何设计上的一致性, 看起来作者对设计感的要求就是能用就行,当然事实上也确实如此, 多余的视觉设计并不会提高多少易用性。

它没有用户系统。这意味着它没有任何针对单个用户的交互。 比如你无法记录自己提交过的网页存档,无法关注某个人的行为等等。 同时这也意味着用户的提交行为是匿名的。

它几乎没有 PR。没有更新记录,没有社交账号,没有官方用户社区,没有技术博客,没有公告页面。 官方网站有一个自 2013 年就没有更新过的 常见问题(FAQ) 页面,上面回答了一些常见的问题。 此外,用户可以通过 Tumblr 的匿名提问系统向官方提问, 网站的作者会不定期地回答其中的一些问题。 这几乎就是用户和网站作者唯一的互动方式了。 https://raw.githubusercontent.com/catbaron0/pic/main/images/2024529233239.png

我们可以从这些事实中看出一些端倪。

首先就是,明显过时、堪堪够用的设计风格能看出作者是一个非常务实的人。 这种风格常常出现在专注于技术的个人网站和博客中。 其次,作者并不想做任何宣传,似乎是在有意识地低调行事。 作者显然能够意识到这种服务在法律上存在的风险,也知道应该如何隐藏自己的身份。

还有就是他不在乎用户。当然你可以说他没有这种动机,因为他没办法从网站获利。 但我的感觉是,他创办这网站有很强的目的性,但是用户体验不在他的考虑范围。 无论是对用户,还是对内容,他体现出来的都是一种客观中立的一视同仁。 他不judge任何事情,比如他几乎不会对内容做任何审查。

比如说, 在常见问题页面中,有一个问题是「什么页面会被删除?」 他给出的回答是两种。 第一种是违反了他的服务器提供商使用协议的内容,比如有关破解和色情的内容。 第二种是完全空白的页面。

第二种很好理解,是一种实用性的,出于节省成本的考虑。 而第一种则完全是为了避免服务被服务器提供商下线的妥协。 考虑到这是一个十年前的回答,第一条约束时至今日是否还存在,这也是个未知数。

我们从 Tumblr 的其他回答中可以看到一些其他的标准。 首先儿童色情之外色情内容对作者来说完全不是问题。 网站在一段时间甚至因为有太多色情内容而接不到广告。 作者还表示,虚假新闻也不会被删除。因为你在事实上很难判断一条新闻是不是真的虚假新闻。 「昨天的假新闻今天可能被验证,今天的真新闻在今后可能会被证伪。」 所以他对于内容本身根本不在乎。 我甚至怀疑,对「儿童色情」的控制也是出于自保的目的,而非道德上的原因。

架构

看过使用层面之后,我们再从技术架构层面来观察一下。

对任何存档网站来说都需要有两个主要的构成: 一个是用来抓取网页的爬虫,另一个就是用来保存和查询存档的存储系统。

我们先说存储系统。 根据网站的常见问题页面,网站使用 Apache Hadoop 和 Apache Accumulo, 所有的数据都存储在 HDFS 中,文本内容会在两个数据中心的服务器中做三次冗余备份, 图片则会备份两次。 两个数据中心都在欧洲,其中至少有一个在叫 OVH 的服务商。 这些技术术语并不是很重要,唯一需要注意的可能是他们对数据的备份。 这意味着他们需要两三倍的存储资源。

在 2012 年,这个网站已经有了 10TB 的存档数据,每个月需要花费 300 欧元。 这个数字在 2014 年增长到 2000 欧元每月,在 2016 年则来到了4000 欧元每月。 在2021年为止,他们已经存档了5 亿个页面, 如果按照平均每个页面需要 2MB 来计算,他们需要 1000TB 来存储数据。 作为对比,Internet Archive 需要 4000TB。 因为数据存储的成本一直在降,所以我们不能简单地根据用倍数来估算他们现在需要的成本, 但参考 Internet Archive 的数据量,可以想象这个成本也非常可观。

但根据网站作者的说法,他们的资源瓶颈不在后端的存储,而在于页面抓取的部分。

如果你有一些相关的背景知识的话, 应该很容易理解这里的页面抓取和普通的搜索引擎的爬虫技术有明显的不同。 这里主要有两个额外的问题需要处理。 首先,搜索引擎抓取的主要是网页的文本内容,对于网页的排版结构和视觉效果是不在意的, 所以最简单的爬虫只需要拿到网页的代码就可以处理了。 但是在如果是为了存档来抓取页面的话,我们需要保证网页内容被完整地呈现, 所以在拿到页面的代码之后还需要尽显渲染排版,然后把得到的结果作为截图保存。 这个问题的解决方案也很简单直接,那就是跟一个正常人类一样, 用浏览器来打开那个页面,只不过这个过程是自动的。 这种自动化有一个专门的技术叫做无头浏览器, 在2019年之前他们使用一个叫做 PhantomJS的无头浏览器技术, 之后则是利用一个经过修改的 Chromium 浏览器。 也就是说,每当有用户提交一个链接的时候,他们就在服务器上运行一个浏览器打开那个链接, 然后把页面的结果保存下来。

第二个问题你也很容易想到,那就是需要登陆的网页怎么办。 因为有很多网站如果不登陆是看不到正文的。 既然他们是在自己的服务器上打开链接,那显然是没有你的登陆信息的, 你又不可能提供自己的账号密码给 archive.today,这时候他会怎么处理呢。 答案也很简单,如果他们有账号,他们就登陆自己的账号, 比如早期的 Instagram、领英、GitHub 之类的网站。 但是如果他们没有账号,那么就只能拿到一个没有登陆的页面效果。 他们的博客中也提到过,他们的 Instagram 因为这种抓取行为被封禁, 所以希望用户能够捐赠 instagram 的账号。 这意味着你保存的页面和你自己看到的页面可能是不一致的, 因为保存页面的时候并没有登陆你的账号,而是他们自己保有的账号。 这也成为之后我们追查网站作者的一个重要线索。

总之,由于他们本质上就是在服务器上运行无数个浏览器来打开页面, 这对于CPU和内存的消耗都很客观,所以这成了他们的瓶颈。

接下来就是重点了,那就是,谁创造了这个网站。

我们从 archive.today 的网站信息中可以找到一些线索。 他们的 FAQ 页面虽然从 2013 年起就没有更新过,但它也显示出他们位于欧洲。 他们发表了大量的 Tumblr 博客来简短地回答用户的问题。 可以看出作者拥有很高的英文水平,但也能看出英语并非作者的母语。 偶尔的名字大写也在暗示作者可能有德国背景。 但同时,他们也会使用俄语来回答问题,他们的网站也在使用来自俄国的数据分析引擎。

三个名字

Denis Petrov

然后我们可以找到三个和这个网站有关的人名。

如果我们想要一个名字的话,最直接能想到的就是去查看域名注册人的信息。 这个网站最早的历史记录可以追溯到 2012 年 5 月 16 日: 一个来自捷克布拉格的人注册了 archive.is 的域名, 也是这个网站最早的名字。 在 2014 年,archive.today 的域名被注册, 之后一大批相关的域名在此之后也被相继地注册, 比如 archive.li, archive.ec, archive.vn, archive.ph, archive.fo,等等等等。

注册这些域名的人叫做 “Denis Petrov” 。 Denis Petrove 是一个很常见的俄国名字,在领英上面能找到不计其数的 Denis Petrove; 但他也可能只是一个化名,因为 informer.com 显示他还注册了很多其他领域的域名, 比如信用卡论坛 verified.lu,隐私相关的网站 btdlg.com, 还有 moviesave.us 等等。 其中有不少域名都设置了德语的关键词。 所以如果我们假设他们都是同一个人的话,那么他很可能是一个有德国的背景的俄国人。

我们想继续追踪这个名字的话,还能想到另一个方向: 如果这个人在很早之前就接触了互联网的话,那么他很可能会用自己的名字注册域名。 事实上有三个看上去很有关联的域名,但是最终都被证明是死胡同。 首先是denis.biz(2001) 和 petrov.net(1998!) ,这两个网站里面什么都没有。 另一个denispetrov.com则是一个很有意思的博客,作者是一名技艺高超的程序员, 对网络自动化兴趣颇深,但他显然是一名纽约客。 这个博客也在2011年停止更新了,所以在时间和地点上都对不上。 archive.is 是在2012年之后开始活跃的,如果这个bloger就是我们要找的 Petrove 的话, 他博客应该也会持续更新才对。 当然也有可能他是有意为之想要隐藏自己的身份,但这样的话就没有必要留下这个网站了。 而去我们前面收集到的信息中可以看出,Petrove 有俄国和德国的背景, 但是和纽约似乎没有什么直接的关联。

接下来的两个名字是是 Stack Exchange 的一名叫做 Ciro Santilli 的用户发现的。

Masha Rabinovish

2020年,他发现有一个用户缓存了很多 领英 页面, 而这些 领英 页面的用户信息都指向了一个叫做Masha Rabinovich 的柏林人。 我们前面解释过,如果已给网站需要登陆的话,那么在缓存页面的时候, 需要在服务器端登陆相关的账号。 这意味着,这位 Masha Rabinovich 就是 archive.today 相关人士的领英账号。

更引人深思的是,在一篇于 2012 年发表在 F-secure 论坛的帖子中, 一名叫做 “masharabinovich” 的用户向管理员抱怨自己的网站被屏蔽了, 而他的网站正是 archive.today。 此外,在维基百科中存在一个 masharabinovich 的用户页面。 在这个页面中提到他创建的一个页面因为有太多来自 archive.today 的链接而被删除。 我们还可以得知 masharabinovich 的网络服务商是来自捷克的 fiber.cz, 而那个注册了 archive.is 的域名的人也是来自捷克。 从 masharabinovich 的维基百科条目编辑历史中可以看到很多对 “俄罗斯护照”和“白俄罗斯护照”页面的更新记录。 如果我们重新审视 Masha Rabinovich 这个名字, 其中的Masha (Маша) 在俄语中常常会被视作对 Maria 的昵称, 同时它也可能是指希伯来文的 Moses。而 Rabinovich 则是一个阿什肯纳兹犹太人的姓氏。

Volth

基于同样的原理,他注意到存档在 archive.today 中的一些 Github 页面 则指向了一名已经不存在的叫做 volth 的用户。 这名用户可以非常流利地使用俄语, 频繁地为 NixOS 贡献代码(这也是 archive.today 正在使用的操作系统), 他的头像和那位 Masha 也颇为相似。 所以我们有理由相信,这三个名字很可能指向的是同一个人,或者是同一个组织。

资金来源

我们前面提到,archive.today 的运营成本相当可观,那么问题来了,这些钱是哪来的? 我们目前知道的有广告和捐赠两个资金来源,而根据网站创始人的说法, 2021年的广告和捐赠收入只能覆盖成本的20%。 在2021年,他们获得了6000欧元的捐赠, 但在2022年之后,他们关闭了 PayPal 的捐赠渠道,理由是他们不再能够接收 PayPal 的汇款。 他们曾经抱怨跨境支付变得困难, 引用他们的原话,他们可能需要更多的广告和捐赠收入来维持「铁幕两侧的收支平衡」。 所以这些都指向一个结果,就是他们生活在俄国。 如今他们开始使用其他的捐赠渠道。 一个是来自法国的非营利性组织 Liberapay ,另一个则是由 YC 投资的 BuyMeACoffee。 有些令人意外的是,出于对加密货币不信任的态度,他们尚不支持加密货币的捐赠渠道。

他们另一个收入来源是广告,但具体收入却很不明了。 在一些「好日子」,广告收入几乎可以覆盖所有支出,但因为「有太多NSFW内容」, 他们也常会遇到接不到广告的荒年。

所以在他们背后,应该有一个其他的,稳定且丰厚的收入来源。 我无法想象这个来源是什么,但考虑到 archive.today 本身是不盈利的, 那么这个收入来源一旦消失,这个网站本身的命运也就可想而知了。

总结

遗憾的是,到目前为止我们只能找到这些名字。 archive.today 的作者看起来是一个拥有较高智力水准的俄国人,同时有一些欧洲背景。 他们,或者说他,很可能是一个 one-man-army,而不是一个成规模的团队。 但我对这个网站有一种说不明白的感觉,似乎有某种理想主义的动机在里面。

说到底,这个网站为什么会存在? 我是说,既然已经有了个专业的组织来做互联网档案这种事情, 为什么一个个人还需要站出来将这件事情重做一遍? 很多人会出于很多理由去制作一个网站,或者提供一个服务。 也许是为了盈利,也许是为了自我表达,但这个网站所需要花费的心力和成本显然有些太高了。 他看上去就是要做一件事情,那就是把互联网中有价值的内容保存下来。 而这个「价值」的定义也很简单粗暴:只要有人提交链接,那么这个链接的内容就是有价值的。 这个内容本身的价值观没有关系。 这个逻辑的背后有一种普度众生的味道在里面。

但如果你再多想一点,会发现这里面还有一些西西弗斯的感觉。 或者说,有点像是在沙滩上写字。 一方面,这个服务本身就是在法律的阴影中苟活的。 另一方面,在技术上这个网站也远远说不上坚不可摧。 就更不用说经济上的压力了。 作者自己也承认,作为一个存档工具,这个网站可以说是朝不保夕摇摇欲坠。

如今无处不在的互联网,其实也就诞生了小几十年。 那些曾经看上去会千秋万代的帝国公司,在这短短几十年已经此起彼伏地更迭了无数次。 甚至就是在这种语境下,才有了Github Archive Program:Github 将有价值的代码保存下来, 将磁带(film)放在了挪威的一个废弃矿坑中,确保它们可以维持千年。

和这种项目相比,不管他的目的是什么,archive.today 都显得微不足道了。 但尽管如此,他还是克服了千难万险运行了十年。 也许作者并不在乎,他就是觉得这件事应该有人做,于是他就做了。

我很难想象,再十年之后它会如何。

但我也很期待,再五十年后它会如何。

Reference