如何在9個小時內轉移3.4萬個WIRED頁面?
WIRED成立多長時間了?我只想說,如果它是一個人的話,那么他已經超過法定飲酒年齡了。這20多年來,WIRED已經發表了幾萬期刊物,如果將每一本雜志的封面都擺在書架上,一定...
WIRED成立多長時間了?我只想說,如果它是一個人的話,那么他已經超過法定飲酒年齡了。這20多年來,WIRED已經發表了幾萬期刊物,如果將每一本雜志的封面都擺在書架上,一定會讓人感到震撼。然而在網頁上,很顯然無法進行這樣的展示。在這個背景下,我們決定對網頁進行一次大掃除。
WIRED.com的發展故事,向所有人展示了硅谷互聯網泡沫從出現到破滅的整個過程。1993年,在WIRED雜志成立不久之后,HotWired成為了在線新聞領域的先鋒。但是當互聯網泡沫碎裂之后,網站被賣給了Lycos,而他們旗下的雜志則被出售給了Condé Nast。這兩個機構后來各自發展,直到2006年。在這一年里,Conde收購了WIRED.com。在這次收購之后,除了紙質雜志之外,WIRED還開始發行電子版雜志。有過了不久之后,WIRED.com被轉移到了wordPress上,開始用一種全新的方式更新網站,并且保留了此前所發布的所有內容。
你可以將這種文章歸檔方式想象成一種數字冷凍間。這里儲存了WIRED歷史上發表過的所有3.422萬個網頁,這些網頁的出現遠遠在WordPress這個平臺初現以前。這些網頁就像是一個巨大的寶庫,里面記錄了科技發展在各個時期的里程碑,它甚至可以起到科技發展編年史的作用,從谷歌的誕生,到蘋果的重新崛起,再到社交網絡的出現。對于這些內容,我們感到十分驕傲,當然也非常珍視它們。然而讓我們撓頭的時,雖然這些內容的重要性無需多言,但是由于出現的時間較早,當時所使用的編程技術無法良好的支持我們現在所使用的網頁技術。更糟糕的是,這些存檔就像是一個沒有網站地圖、也沒有網站架構的黑匣子,是的我們無法了解它的體積,這使得將這些頁面遷移到現有網站上成為了一件難度異常高的任務。
Cyphon的出現
Cyphon是一種我所發明的技術,我開發它的用意是為了用一種通用標準來分析WIRED的大量網頁存檔,并且存儲其中的相關數據。
今年4月開始,我一直在開發這種技術,可以說Cyphon占據了我幾乎所有的工作時間。我決定使用Node.js將Cyphon打造成一個命令行工具。Node.js是一個時下流行的服務器端平臺,有大量的開發人員為其提供支持。最初的時候,我嘗試著對所有存檔網頁進行分析,試圖找到其中是否有可以自動以編程的方式進行分類的規律。在進行了一些分析時候,我發現,大多數存檔網頁可以被分成3種類型,每一種類型都對應著各自發布時期所使用的技術。在獲得了這個信息之后,我制定了內容轉移流程,并且對即將使用的工具進行了精加工。
首先,我編寫了一個特殊功能,它可以將大約200本雜志的登錄頁作為起始點,對所有存檔網頁進行分析。這個繁冗的分析工作需要花上幾個小時的時間,但是它可以將尚未進行分析的頁面安全的存儲在一個專門的數據庫中,這樣做的好處是避免了數據損壞,而且還能夠避免進行重復分析的危險。
接下來,我又編寫了一種方式,它可以將分析得來的粗略數據轉換為結構性更強的信息:題目、作者、發布日期等等。在對每一個特定時期的內容進行分析的時候,我做了一個獨特的“摘要統計器”。有了這些信息,我們就可以將這些網頁的HTML導入這個摘要統計器,然后進行提取。最后,我又發明了一種能夠將這些數據變成WordPress所支持的簡單格式的方式,然后完成向WordPress平臺的導入。
在這個過程中,對存檔網頁進行分析,以及對內容發表時間的排序成為了技術上最大的挑戰。讓我欣慰的是,一位名叫Christopher Giffard的開發人員已經編寫了一個非常優秀的分析工具,這個工具為我提供了重要的幫助,在Node社區中,很多人都曾經靠著其他開發人員的幫助完成了目標。我想在這里特別感謝這位開發人員。為了更好的完成內容分析和歸類,我創造了無數的過濾規則,這些過濾規則能夠辨別相似頁面中的那些細微差別,它們也讓內容的最終輸出盡可能的靠近當前我們所使用的技術。最重要的是,在剛開始開發Cyphon的時候,我就希望它可以被其他人所擴展,可以添加其他的分析規則和摘要統計器,而我最終完成了這個目標。
例如,在對雜志文章進行了分析之后,我又添加了另一個工具來分析URL列表,完成了大量非雜志文章的統計和導入。
Cyphon所完成的工作:
·34220個網頁的分析
·11195篇存檔文章
·14799篇新文章
·97%的數據被成功分析并且導入到新網站平臺
·為所有內容生成了1076個標簽
有了這些得來不易的數據,我終于可以在WordPress平臺上瀏覽這些文章了。而直到這個時候,我才突然意識到:從上世紀90年代,那些先驅的前赴后繼之后,web已經經歷了許多的變化。從最早的只有文字的文章,當后來圖片的出現,直到現在我們可以在網頁上直接觀看視頻。在web出現的早期,幾乎所有網頁看上去都一樣,而如今網頁的形式已經無窮無盡。然而,無論網頁的布局如何改變,問文章的形式幾乎從來沒有什么巨大的改變。
況且,這些文章有著自己的價值,就像我此前所說的,它們是科技世界的編年史,可以讓我們了解科技的發展進程。那么我們要如何利用好這11195篇存檔文章?是否要做一個回顧科技大事件的專題?我相信網站的內容編輯們會有更好的想法。
在整理這些海量數據的同時,我獲得了極大的滿足感。作為一名工程師,完成這樣的工作總會讓我興奮異常。作為技術人員,我的職責之一,就是保留好以前的內容,并且將其遷移到新的網站上,讓讀者在需要的時候可以輕松的找到這些內容。我現在的感覺,就是將這些數字內容整齊的拜訪到了虛擬書架上。
-
無相關信息