說到電子郵件,大傢對它的印象可能就是古早。
這些年隨著QQ、微信的普及,電子郵件已經不流行了,哪怕外貿行業,老外和我們做生意也索性用起了 WeChat。
可能有人說,我都沒見過電子郵件流行的時候。如果你夠年輕,那有資格說這話。
但不可否認,大多數 80、90 後網上沖浪的開始,都離不開一個 E-mail。
不說它當時有多大用吧,但最起碼你能用它在同學錄上裝個小 X。
大傢登錄自己的郵件主頁時,應該好奇點進過垃圾箱。
在這裡,你可以發現信用卡辦理活動,藍色小藥丸的打折營銷。
甚至,還有一批想直接騙你錢的郵件。
對方可能是想讓你繼承大筆資產的非洲王子。
也可能是你傢附近500米,能免費上門的洋妞。
甚至是南非總統第二任太太,說要寄給你 4000 萬美金,原因你別管,不信可查護照。
每次看到垃圾箱裡這些腦洞比腦子還大的垃圾郵件,世超就好奇:
這些垃圾郵件到底哪來的?郵箱客戶端又是怎麼識破它們,把它們攔截了。
今天咱們就簡單聊聊。
世界上第一份垃圾郵件,誕生在1978年。
當時一傢電腦公司的銷售員為了促銷電腦,壓根不管別人想不想買,一股勁地把郵件發給了阿帕網( 互聯網上前身 )上所有用戶。
盡管他們猛賺了一筆錢,但被大傢噴得很慘,美國國防通信機構也批評了他們一頓。
所以後來十幾年,都沒有人敢這麼做。
直到 1994 年,垃圾郵件真正的始作俑者出現了。
當時人們習慣在新聞組上訂閱各種欄目,欄目收到的郵件會自動轉發給訂閱者。
有天,兩名律師為了推銷自己的業務,把郵件反復發給了新聞組上 5500 多個欄目。
就這兩人▼
那天很多人發現,自己怎麼在每個欄目裡都能看到這個郵件啊。。
接下來那幾天,這兩位律師的電話、傳真被人打爆,接起來就是一頓罵。
但說出來你可能不信,也因為垃圾郵件,他們獲得了 1000 個新客戶。相當於幾美分的成本賺到了近 10 萬美金。
嚯,垃圾郵件的巨大利潤,一下子暴露在了公眾視野裡。
有錢不賺,那不大聰明麼?
於是人們一個接一個地發起了垃圾郵件,特別是那些平時不讓刊登廣告的成人用品,趁機會廣撒網了一波。
還有人另辟蹊徑,開始販賣郵件地址,有技術的程序員,也開發了一鍵群發工具。
垃圾郵件的潘多拉魔盒,正式打開了。
自那以後人們發現,不管需不需要,收件箱每天都塞滿了保健藥物的廣告郵件,嚴重影響自己的生活和工作。
最煩的是,犯罪團夥也利用電子郵件推送欺詐信息,病毒。
這種情況下,反垃圾郵件技術誕生了。
1996 年,有兩個工程師開始記錄發送垃圾郵件的 IP 地址,填進 RBL 黑洞名單裡,名單上的人發來郵件就直接拒收。
雖然深受歡迎,但這法子想破解它也不難。
對方要麼是買服務器換個 IP,要麼,利用中繼服務器就能規避。
這要說到郵箱服務器有個功能叫開放式中繼代理,專做好人好事。
如果收到一封不是寄給自己的郵件,就會隨手幫忙,再寄出去。
以前互聯網不穩定,為了保證郵件順利送到,大部分服務器都會打開這個功能。
人人為我,我為人人。
可惜啊,這個好功能被垃圾郵件看中了,他們故意把郵件發給老實人服務器,再讓其轉發出去,規避了黑名單。
在零幾年那會,因為起步慢,管理不佳,我國不少服務器就被國外利用,轉發了垃圾郵件,結果自己被送上了黑名單。
搞得當時我們和老外做生意發郵件,要麼申訴解封,要麼也隻能用中繼服務器,當然,這是另外一個話題了。
圖源 Winmail ▼
由此可見,黑名單技術並不算優秀。
所以還有沒有其他途徑,去判別一個郵件是不是垃圾郵件呢?
有。
你想想,垃圾郵件往往都是幾十萬封起發,肯定會遇到很多發送失敗的情況。
正常郵件發送失敗,都會自動重發第二次。
但垃圾郵件可不樂意,因為重發對它們來說,不僅消耗資源,還耽誤了大量的時間,業務要緊啦~
基於這個特性,灰名單技術誕生了。
誒,你第一次發給我,我先拒收,你要是好人,你肯定再發第二次對不對。
這樣我們就隻會接收到正常郵件,屏蔽掉那些垃圾郵件了。
除了不愛重發,垃圾郵件的內容也很有特點:不就是醫療保健、投資、約會之類的嘛。
那把這些詞設為關鍵詞,遇到後就塞進垃圾箱,行不行呢?
行是行。但對方想規避也不難,最主要是它會誤傷。
不少正常郵件就是因為誤碰了關鍵詞,被塞進了垃圾站。
網上還有人總結了關鍵詞列表 ▼
所以關鍵詞過濾垃圾郵件,還需要貝葉斯推斷。
貝葉斯推斷基於了貝葉斯定理,這玩意咱不好細說,講清楚最起碼再開 2 篇文章。
你隻要知道,借助貝葉斯推斷,過濾器會基於一群關鍵詞,判定一個郵件為垃圾郵件的概率。
怎麼做呢?
我們提供歸納好的正常郵件、垃圾郵件,讓過濾器統計每個詞出現的頻率。
比如,“ 猛男 ” 在垃圾郵件裡出現了 78 次,在正常郵件裡出現了 5 次;
這樣過濾器就能大概推出,郵件裡出現“猛男”一詞時它為垃圾郵件的概率,假如 90%。
同樣其他詞概率,也一樣計算。
如果我現在收到一封郵件,內容為:我是猛男,喜歡在半夜健身。
我們可不能因為它含有 “ 猛男 ”,就判定它 90% 是垃圾郵件。
而是要把 “ 喜歡 ” “ 半夜 ” “ 健身 ” 這些詞一起算,求一個聯合概率!
這樣算出來的,才是一個內容為“ 我是猛男,喜歡在半夜健身 ”郵件,為垃圾郵件概率是多少。
這個就是貝葉斯推斷,隻要我們收到的郵件越多,過濾器就會判斷得越準。
當然了,實際計算要復雜很多,我們不細講,點到即止。
到這裡我們說的過濾方法,都是基於垃圾郵件的特征,比如不喜歡重發、關鍵詞。
但還有一類垃圾郵件更猥瑣,它不會展現出明顯特征,而是偽造成官方運營商,來騙你敏感信息。
下面這張圖裡,是一份“ 比爾蓋茨 ”寄來的郵件,從姓名和郵件地址來看,都是對的。
這就代表它真的來自比爾蓋茨了嗎。
網絡郵箱的運行機制和微信、QQ雙向通訊不同,它是單向通信。
給別人發郵件,就是直接丟個包裹給服務器,說:我是 A,把這東西送給 B。
這一步就類似於寄快遞。
你明明不是吳彥祖,但你完全可以在寄件人那欄,填上 “ 吳彥祖 ”。
類似的,發郵件時隻要配合一些工具,我完全可以把自己寫成名人、運營商、銀行,誰對我作案有利,我就是誰。
有網站可以偽造發件人 ▼
為了解決這個問題,大傢就多了一步驗證技術,比如常見的 SPF( Sender Policy Framework )。
一般大型運營商、銀行都會采用這個技術防止別人假冒自己。
SPF 的原理,就好比每個運營商、銀行,在自傢門口放個公告板,告訴大傢隻有來自 138.138.138.138、139.139.139.139 等 IP 才是他們的郵件。
假若有人用它們名號去發郵件,服務器會對比 IP 地址。
要是對不上,那就判為假冒,直接打回。
隨著發展,郵件認證技術後來還有 Domainkeys 以及改進版 DKIM,世超就不再多講了。
那既然有這麼多的反擊手段,垃圾郵件有消停嗎?
並沒有。
2011 年,美國有大學做了實驗估算發送垃圾郵件的收入,結果發現,如果賣的是威而鋼,一天能賺 7000 美元。
所以,縱使我們有一萬個方法對付垃圾郵件,但因為利潤足夠吸引人,它們依然是打不死的小強,每年還是數千億封的往外發送,用各種方式逃過攔截。
2017 年以前,世界上發出的大部分郵件,還都是垃圾郵件。
你可能覺得這件事離自己挺遠,那除了因為不怎麼用電子郵件,更多是,每一秒鐘在看不見的世界,反垃圾郵件系統都在和無數垃圾郵件做鬥爭,保護你的郵箱。
這場較量也許還會持續很久很久,但隨著科技發展,反擊技術提升,垃圾郵件的消失一定是最後結局。