這個不講“道德”的網站,成了千萬網友最愛的白嫖工具

老差友應該都知道互聯網檔案館(下稱archive.org ),咱介紹好幾次了。

還不知道的兄弟自己找找原因,是不是不夠帥,沒早關注帥逼公衆號:差評。

archive.org 由 Brewster Kahle 創辦,是一個非營利性的數字圖書館。

從 1996 年起,它每隔一會就會抓取各種各樣的網頁、視頻、圖片等資料,保存在 “ 圖書館 ” 。

目前圖書館裡存了 8660 億個網頁,1200 萬個視頻,490 萬張圖片和 110 萬個軟件程序。

點進網站,從 MJ 演唱會視頻,到 1999 年測試版的 Google 搜索頁面,再到你多年前送給鳳姐的表白,都會重新進入你的世界。

不過,今天故事的主角不是這位,而是另一個檔案館 archive.today (今日檔案 )。

archive.today 於 2012 年創辦。從名字和功能上看,它類似於archive.org ,可以備份網頁。

但它倆之間還是有個很大區別——

archive.org 類似於搜索引擎,絕大多數資料都是爬蟲自動抓取的。所以一直以來他們都遵守robot.txt。

robot.txt 是互聯網裡通行的一個君子協議。通過它,網站可以告訴搜索引擎,哪些東西它不能抓。百度裡搜不到微信文章和淘寶商品,就是因爲 robot.txt 。

但 archive.today 不遵守這個協議,即便網站不讓它存在,它也會霸王硬上弓。

不過,這也不能說 archive.today 缺德。

因爲它並非自動抓取別人的網站,只有用戶上傳某個網頁時,它纔會抓取。

存檔 ing.....▼

目前,archive.today 已經存儲了 5 億個網頁。雖然遠不及 archive.org ,但這種大家主動尋求備份的網頁,相對來說,它的意義和價值會更大點。

就像三年前,有位吳彥祖備份了差評的官網,明顯是肯定了咱們,咳咳。

除了可以備份網頁,因爲技術上一些細節,人們發現archive.today 有另外一個妙用:

翻越付費牆。

對於那些訂閱費動輒幾百美刀的西方媒體,很多第三方世界國家的讀者不光無力支付,甚至壓根沒有匹配的支付方式。

但自從這個功能被發現後, archive.today 成爲了大家心照不宣的 “ 白嫖 ” 工具。

只要有好心人存檔了付費文章和有版權的學術論文,後來的讀者都可以看到。

還有不少人基於這個網站做了一些小工具,讓白嫖變得更簡單。

編輯部偶爾也用過它,有一些東西在這上面確實比較好找。

雖然 archive.today 管理員曾說過,翻閱付費牆不是網站本意,只是技術問題上產生的一些 “ 意外 ” 。

但想到他願意冒着被訴訟風險默許這個情況存在,甚至教讀者一些白嫖技巧。。。

差評君更願意相信,他就是一個知識自由的支持者。

根據網站裡問答記錄,2013 年的時候,存儲這些檔案每月要在服務器上花 300 歐元。

2014 年,隨着網頁越來越多,服務器成本升到了 2000 美元 / 月。

2016 年,這個數字漲到了 4000 美元。

那問題來了,這些服務器的錢誰出呢?

我們知道,archive.org 的背後是一家組織,總部在舊金山。它的年度預算有 1000 萬美元,這些錢來自於它的合作贊助商和基金會。

但 archive.today 管理員說,這個網站全靠自己。

儘管網頁在移動端開始投放廣告,並且管理員也開放了捐贈通道,但這些只夠 14% ~ 20% 的成本。

也就是說這個網站的管理員,每天在面臨版權訴訟的風險下,既要維護網站日常運營,還要隔三差五回答網友各種問題,最後每個月還得掏出幾千美金的服務器租金,只爲維持這麼一個免費網站?

並一路堅持了十多年?

這個賽博菩薩到底是誰啊?

報以好奇和敬意差評君去網上搜了一下,但發現 archive.today 的背後,是一個謎。

維基百科上關於經營者的身份,只寫了一句話:

事實上,沒人知道他的真實身份。

半年前一位悉尼的工程師 Jani 花了很大精力,想看看 archive.today 幕後神秘人到底是誰。

首先,網站能追溯到的第一個歷史記錄是在 2012 年 5 月 16 日,網站一開始的域名叫 archive.is。

由一個來自捷克布拉格,名叫 “ Denis Petrov ” 的人註冊。

Denis Petrov ,是第一個線索。

但隨着調查, Jani 察覺 Denis Petrov 可能是假名。

一來這是很常見俄羅斯名字,光是在領英里就有 242 個同名好哥們。

二來 Jani 發現同樣的名字和聯繫方式還註冊了一堆亂七八糟的域名。

後來 Jani 還驗證了很多帶有這個名字的網站,如 denispetrov.com、denis.biz 、petrov.net。

但大部分網站都已經停運了,唯一能打開的那個,只是一位紐約程序員的博客,早在 2011 年就已停更了。

Denis Petrov 這個線索似乎斷了。。。

和 Jani 一樣,這些年也有其他網友探索過這位神秘人,但大多數人都停在了 “ Denis Petrov ” 的階段。

倒是 2020 年,有另一個網友找到了神秘人的重要線索。

他發現 archive.today 裡所有領英網的備份,都基於同一個登錄賬戶。

這裡我解釋一下,諸如領英、 Instagram 這類應用,都要求登錄賬號後才能瀏覽詳情。我猜測神秘人是用了自己賬號 cookie ,來抓取領英的網頁內容。

順着線索,他找到了一個名爲 Masha Rabinovich 的領英賬號。賬號顯示,她有德國柏林某個大學的學士學位。

如果這個頭像確實是本人,那說起來你可能不信,這個神秘人居然是一個留着波波頭,有點娃娃臉的女生。

手動碼一下,另外這個頭像應該被刪了,登錄後就不可見▼

有人把 Masha Rabinovich 放進谷歌搜索,發現了一個 2012 年帖子,基本實錘 Masha Rabinovich 就是那個神秘人。

當時一位暱稱爲 masharabinovich 用戶發帖子,吐槽自己網站 archive.today 被惡意舉報,進了黑名單。

既然名字 “ 確認 ” 了,接下來就是網友們發揮福爾摩斯天賦的時候了。

他們發現 Masha Rabinovich 曾多次參與了維基詞條的編輯,最多的就是 “ 俄羅斯護照 ” ;

名字中的 “ Masha ” ( Маша )是瑪麗亞的常見俄語說法, Rabinovich 是德國猶太人的姓氏;

另外 archive.today 用的分析引擎是俄國的,回答問題時會使用一些大寫詞彙,可能有德國背景。

基於這些信息,網友推斷出,神秘人大概是一個曾在德國留學的俄羅斯人,且學識淵博,英語流利。

至於“ Masha Rabinovich ”,還不一定是其真名。也許和 Denis Petrov 一樣,只是神秘人在網絡世界的馬甲之一。

雖然大家仍無法確定神秘人真實身份,但差評君覺得點到爲止,他隱藏起來一定有自己的原因。

相比起來,我認爲神秘人的個性更值得一提。

在 archive.today 的網站上,有一個基於 Tumblr 問答服務的頁面。

通過這些 Q&A ,我推斷神秘人是一個偏執且不喜歡被吹捧的技術極客。

首先就是我們前面說的,不遵守 robot.txt 。

其實這是個非常激進的行爲,很容易被版權法提起訴訟,或者在道德上落下風。

像 archive.org 後來也推出了手動備份的功能,但用戶上傳網頁後,它還會檢查一遍 robot.txt ,如果網站不同意被抓取, archive.org 還是會刪除的。

但 archive.today 可不管這些。

我覺得這麼做,是因爲他創建網站的初衷就是尊重歷史,保存歷史。

他也說過,網站即便存檔了假新聞,也不會刪除。

因爲 archive.today 從來不是權威的參考來源,而是歷史的見證。它只是在告訴大家,在某個時刻,互聯網上某一處存在過這樣的頁面。

這一點差評君也認可,歷史不是紀錄大事記就夠了,它是由無數細節拼湊起來纔夠完整。

雖然archive.today看似有點極端,但也不是所有網頁都一視同仁。如果存檔確認爲恐怖分子的宣傳網頁、兒童色情等,收到舉報後他也會刪除。

另外神秘人很低調,從不希望自己被擡得很高。

當網友把他和 archive.org 放在一起誇獎時,他都會否定,說自己沒有想保存整個互聯網的目標,目前只有 archive.org 的百分之一,且運作方式不同。

差評君覺得,這是每一個老闆都要學習的不畫大餅精神。

他知道自己一個人 / 團隊的能力有限,做不到那麼宏大的目標,一開始就沒設想過這麼多。

但 12 年了,網站幫大家存檔了五億多個網頁,遇到了無數難題,並依舊堅持免費。

我覺得他和 archive.org 一樣,都是令人尊敬的。

不過最近的情況,讓差評君覺得網站的生存環境不容樂觀。

因爲神秘人回答網友問題的頻率明顯變低了,從兩年前月均回答 40 個問題,到現在隔了好幾個月纔回答 2 個問題。

他也曾說網站經常被 DDOS ,時不時癱瘓。在互聯網各個角落也有 “ 版權仇家 ” 在搜尋他的真實信息。至於訴訟,那也是遲早的事情。

結合歷史來看,這種情況其實是必然的。

所有支持知識自由的網站,從archive.org 到 Sci-hub ,他們都遭遇過版權法的鐵拳或者域名的封鎖。

互聯網檔案館因爲把 140 萬實體書掃描出來,不限量租借給讀者,被四家出版商聯合起訴,還有六千名作家簽了請願書支持這場訴訟。

Sci-hub 因爲把 8000 多萬學術論文爬取下來,免費分享給所有學者,在多個國家被出版巨頭起訴。創始人 Alexandra Elbakyan 爲了躲避各國引渡風險,在世界各地躲藏。

我知道,有很多人都抵制他們這種行爲,認爲盜版就是犯罪,不是解決問題的方式。

但世界不是非黑即白, “ 盜版 ” 就一定不被提倡嗎?

這個問題幾十年來一直爭論不休。

90 年代,互聯網上各種盜版電影和音樂橫飛、破解和盜版軟件橫行。明明是赤裸裸的侵權,但卻沒有明確的法律能治一波亂象。

在這樣的背景下,《 數字千年法案 》登場了。它以刑事犯罪立法的形式,希望在網絡這塊無主之地上,重振版權保護的權威。

毫無疑問,它保護了無數原創者的權利,讓人們獲得了相應的回報,也讓他們的心血沒有被盜版商肆意踐踏。

可《 數字千年法案 》在保護版權的同時,似乎也催產了一些版權流氓到處碰瓷,讓很大一批人也難以接觸到優秀的作品。

如何做到版權和知識自由兼顧,很難很難。

“ 科學和教育資源,就不應該有所謂的知識產權和資本運作的存在 ” 這是 Sci-hub 傳達的理念之一。

從 archive.org 到 Sci-hub 再到 archive.today ,他們把無法翻越的信息壁壘,難以打破的知識桎梏,都變成一個簡單的回車鍵,讓我們看到了世界的另外一種可能。

不管怎麼說——

Brewster Kahle 、 Alexandra Elbakyan 、神秘人以及所有那些不追求利益去捍衛知識自由的人,他們都值得我們的尊重和敬佩。