資料備份還原 - 第二原則 重要性與存取頻率
繼續整理資料備份原則,整理自 Facebook 寫的草稿。
上一篇 整理了 資料備份還原
的 第一原則
:分層原則
,設計出發點是 Durability
。接下來第二原則則是資料的 重要性
與 存取頻率
矩陣,如下圖:
重要性
重要性指的是:
丟失後的後悔率有多高?可還原否?
重要性分成 Critical / Non-Critical 兩個指標。
Critical
資料就像生活照片、錄影、創作、喜歡的懷舊影集 … 等。基本上掉了、遺失,就找不回來了、或很難找回來。
重不重要就看你怎麼看待這些東西,你覺得他們是垃圾,那就是垃圾。
NonCritical
掉了也不會心痛,或者也容易找得回來。像是一些網路下載的程式安裝檔、電影、音樂 … 等。
存取頻率
相對於重要性的另一個指標則是 存取頻率 (Access Rate)
,這只的都是備份資料的存取頻率,不能用放在行動裝置 (NB, Mobile … ) 的角度來看。
我用 Cold Data
和 Warm Data
這兩個維度,代表 很少存取
或是 偶爾存取
。像很多照片,雖然很重要,但是其實不太常看,時間越久以前的,越不常存取,屬於 ColdData。有些資料會一直有固定更新,像是放在雲端硬碟的備份資料 (Google Drive / DropBox)。
其實還有 HotData,指的是 Tier1 的設備
依照這兩個維度,可以展開一個矩陣 (如圖),依照自己實際的資料去擺放與分類。
怎麼驗證這個矩陣的有效性?
第一種驗證方法,可以透過假設推論做驗證。
設計這個矩陣的背後的思路,就是當有天真的發生災難,電腦壞了、手機壞了、NAS 壞了、AWS S3 炸鍋了 … 第一時間,可以反映出 #資料損失程度,以及 #可還原比重。這個是整個背後設計的目的。
再來是當空間不夠的時候,如何有效的取捨?放在 NonCritical 的 ColdData 就是會直接被清掉,讓出空間。
這裡有個邏輯矛盾,不重要的資料需要放 NAS?
實際上,這整個原則都在討論資料備份原則,實際上我還沒真的談到 NAS 這個東西。但是會用 NAS,我個人的核心想法就是資料備份與還原,所以整個原則都是圍繞在資料存放原則上,而不是 NAS。
第二個應用是,平常如果想要調閱過往的資料,應該怎麼快速定位,例如:
- 調閱 2008 年的資料,大概要怎麼找?
- 想找一張有 QNAP TS-469 Pro 的照片要怎麼找? (現在可以透過其他方式,但成本太高)
備份的成本
備份本身還是有成本的,所以這個矩陣可以很輕易的選擇適當的解決方案存放資料,放在 NAS or S3?這樣的問題在這個矩陣可以輕易回答,圖二是我放在 S3 Glacier 的 ColdData,背後的邏輯與思路這樣設計的。
分類的成本
這個矩陣很考驗使用者對於資料的認識,以及平常怎麼擺放資料。我自己平常就習慣會將資料做適度的歸檔以及分類,所以會有這樣的思路。這個矩陣基本上有點門檻,也會有些邏輯誤區。
背後設計的邏輯,搭配的是我從小到大的慣性思維 - 分類。
而實際應用 第二原則
會搭配 第一原則 (Tier) 一起使用,