Page 3 | Complete Think

Thinking, Coding, and Learning.

先生不知來自何方，亦不知歸去何處，年過而立，參悟生與死，淡泊名與利，但憂天下蒼生。蹤跡走紅塵，藏身山林田野，撫琴於搖滾，振筆於網路，傳道於教學；神遊金庸武俠，往返程式思考，常以此樂而忘眠。... 更多關於我

事件管理的維度 2020/02/02 12:43:00

最近因為武漢肺炎事件，國家必須用各種方式通報國民，包含嚴重性、通報的方法、交付有意義的資訊。

這整個過程就是事件管理是一樣的。摘錄我在 2017 年分享的一段想法：淺談系統監控與 CloudWatch 的應用，其中第四部分談的異常通報就是談事件通報與管理的核心概念。

Updated 2023/07/19: 本文部分收錄在個人著作《SRE 實踐與開發平台指南》 - 2023/08 上市

我認識的計算機科學家 2020/02/01 15:37:03

整理我認識的計算機科學家。

Hello Hugo 2020/01/20 19:55:31

去年針對文件持續交付找了一些工具，當時以 K8s 官方網站作為目標，研究他使用的工具以及架構，後來這件事情就沒有時間持續往下。最近想把個人的入口網站，做更完善的整理，試了一些東西，最後腦海還是出現去年研究 Hugo 的想法，所以整理一下研究的筆記。

如何意識到問題的存在 2019/12/28 18:21:00

在組織裡推動事情，最困難的往往不是技術上的執行問題、不是成本問題、溝通問題、協作問題，困難的是：

如何讓高層、主管、團隊成員 意識 (Awareness) 到：這是一個必須被正視的問題。

當問題被正視了，大家都 Awareness 了，接下來才有開始討論如何解決、如何有效定義目標與執行、落地、資源才會進來 …

SRE 讀書會 Round3 結語 2019/12/08 15:01:30

SRE 讀書會 Round 3 從今年 2019/03/15 開始，在 2019/12/05 (四) 的寒流之下完結了，大家頂著 15 度低溫、加上下著雨，依舊準時出席讀書會，走完這次最後的章節。

有效定義目標與執行、落地 2019/11/19 23:30:00

今年一整年，起了好幾個跨部門、跨組織的任務，在這過程一直在嘗試讓一個成員、或者讓一個團隊可以自主完成任務的方法，過程中踩了很多雷，像七傷拳一樣，常常是還沒發拳自己就先中了內傷，內力不夠深厚打七傷拳才會傷到自己，後來慢慢梳理出一套可以執行的方法，年底也看到成果了。

除了這些大範圍的協作，工作上經常交付任務給團隊執行，交辦的方式會是口頭交辦、公開的指派、正式的賦予權責，交辦的對象則有自己團隊的資深、到資遣成員，協作團隊的成員 … 不管怎樣的交付任務，都需要一個有效的方法來確立目標是可以執行。

這篇整理了一些歷程與土炮方法，分成以下幾個部分：

一、給任務前，管理者的思考
二、情境領導：不同成員的引導
三、執行與落地

Study Notes - CloudFront 2019/11/02 03:30:00

CloudFront 是 AWS 非常重要的服務，用了幾年，斷斷續續有一些心得與想法，這次換個方式整理筆記，先全部用 Q and A 方式記錄學習。

本文整理的 Delivery Method 以 Web 為主

關於軟體測試，一些觀察到的現象 2019/10/30 11:08:00

最近有朋友問我一些測試的問題，問題層面很廣，像是去一家新創 Startup 如何 Build Up QA Team？自動化測試該用哪一套？測試的方法論該怎麼落地？聊到後來我發現問題背後的期待有問題，期待是什麼？

測試想要一步到位

基於這個前提，後來我把觀察到的現象與問題寫下，起筆是 2018/07/03 的隨筆，在不同時間陸陸續續整理以下文章：

2018/07/03: 軟體品質的核心概念
2019/01/19: 關於軟體測試：一些觀察到的現象
2019/10/28: 軟體測試的現實與理想
2021/02/21: 軟體測試管理工具的選擇
文中列舉的問題，我自己親身的經歷參見： Software QA 的職能條件

這篇文章整理上述文章的想法與整合。

本文的思路，後來整理成專文：如何意識到問題的存在
20230523 更新：本文內容部分收錄在共同著作《軟體測試實務》第一冊第一章之中，歡迎大家彭場指導。

從 Jeff Bezos 與 Werner Vogels 學到的 2019/10/24 00:16:00

這幾年工作關係，經常讀一些資料，但有幾篇是經常重複閱讀、重複分享，這幾篇文字影響我很多，整理起來需要分享時比較快 XD

Jeff Bezos - Amazon CEO
Werner Vogels - Amazon Web Services CTO

所有文章標題都是原文連結。

EKS 學習筆記 - 網路規劃與管理篇 2019/10/19 19:41:58

整理 EKS 的 Networking 相關的問題，主要有規劃、管理 … 等觀測，如下：

VPC Consideration: 規劃的考量
VPC-CNI Utilization: VPC IP 的使用狀況
Cluster AutoScaler: Worker Node 的 AutoScale

軟體交付的三體問題 2019/10/17 00:16:00

這段個別剪接出來的三分鐘錄影，是今年 (2019) 四月我在新竹敏捷 (交大) 分享的，我稱為 軟體交付的三體問題。

Updated 2023/07/19: 本文收錄在個人著作《SRE 實踐與開發平台指南》 - 2023/08 上市

EKS 學習筆記 2019/10/13 19:41:58

整理相關 EKS 的學習筆記，包含規劃 (Planning)、建置 (Provisioning)、管理 (Management / Operation) 等。

EKS 學習筆記 - 基礎安裝篇 2019/10/13 19:41:58

上一篇整理了使用 kubeadm 安裝 K8s Cluster / Worker Nodes / CNI … 等，同樣的，本文整理使用 AWS EKS 安裝 K8s v1.14 的筆記，安裝過程則以 AWS CLI 為主，同樣方式也可以使用 eksctl、AWS Console、CloudFormation 執行。

如同之前提及，雖然 EKS 是 Managed Service，但是實際上只有針對 Master Nodes，而 Worker Nodes 還是需要自行管理以及維護的，另外針對 Ingress、使用者權限、Log 蒐集、資源監控、網路 (CNI 相關) … 等，還是需要額外規劃。

筆記內容：

準備: IAM User, IAM Role, VPC Subnets
建置: EKS Master Nodes, ConfigMap, CNI, Worker Nodes
Q and A

系統發生異常時，第一時間如何快速止血？ 2019/10/04 23:43:00

這也是個朋友問的問題，問題截圖如下：

先不管誰有沒有穿褲子，從整體來看，重新整理問題：

系統發生異常時，第一時間如何快速止血？

底下整理我經常在處理分析時的思路。

Updated 2023/07/19: 本文收錄在個人著作《SRE 實踐與開發平台指南》 - 2023/08 上市

如何量測系統的容量？（壓測） 2019/09/20 11:08:00

淺談效能測試整理了關於 Capacity、Reliabilty、Stability 的概念與定義。本文針對如何量測 系統容量 (Capacity)，整理怎麼做的方法論，可以當作 Capacity Plan Guideline。

系統容量是透過 量測 (Measure) 出來的，結果是數據統計的報表，而 測試 的結果通常是 pass or fail，故本文的描述不用 測試 這個動詞。

這篇文章整理的是如何執行的概念，但不包含以下：

介紹工具
環境如何建置
如何設計架構
如何優化架構

20230523 更新: 本文全文收錄在共同著作《軟體測試實務》第二冊第一章之中，歡迎大家彭場指導。

Study Notes - CloudWatch Agent for Linux 2019/09/14 03:30:00

CloudWatch Agent (底下簡稱 CWA) 是 awslogs 的後續版本，提供了更強大的功能與整合能力。整理 CWA 的基本概念、如何安裝與配置、以及常見問題。

本文範例為 地端 (On-Premise) Linux (Ubuntu 16.04) 為例。

體驗
簡介
Q and A

Infra 團隊適合 Scrum？ 2019/09/13 23:43:00

朋友 Scott Liao 問了一個好問題：

底下整理當時在 FB 上的想法。

Updated 2023/07/19: 本文收錄在個人著作《SRE 實踐與開發平台指南》 - 2023/08 上市

談軟體設計：尊重每一個使用者 - 依賴反轉 2019/09/12 22:30:00

幾段隨筆，談 IoC / DI 與管理的想法。

什麼是好軟體？ 2019/09/11 09:50:30

一段在公車上寫的 memo，問題是：

什麼是好軟體？

逆向工程與系統架構 2019/09/09 09:50:30

這段 memo 談的是： 逆向工程與系統架構

Whitepaper - Using AWS for Disaster Recovery 2019/09/09 00:21:00

以下這張照片是 Jan, 2015 在 AWS Virginia Data Center 火災的照片：

圖片來源： Amazon data center on fire in Virginia - CNN

其實災難，不管是個人還是在企業，隨時隨地都有可能發生。當企業成長到一定的規模，災難還原計畫，就越來越重要。但是做災難還原準備工作，本身在公司裡面不是所謂的 產出 任務，他屬於 備援 計畫，而且災難復原在傳統的 IT 架構裡，所需要的預算、人力、資源、時間是相當龐大的，大部份的老闆，對於這件事情是不會支持，或者也不太願意投資的。最多做所謂的 異地備援 就算是很不錯的了。

以下整理 Whitepaper - Using AWS for Disaster Recovery (Oct, 2014) 內容。大部份的圖檔都是文件裡擷取出來。

top 2019/09/08 18:45:00

整理 Linux 效能工具 top 的一些資訊，範例是在 ubuntu 16.04, AWS EC2 c5.large 上的資訊。

會議的普遍現象 2019/08/25 09:33:00

原文是我 03/26 在公車上寫下的 memo，主要是依照開會原則提及的想法，整理看到的問題。

Scaling Infrastructure Engineering at Slack 2019/08/19 22:43:00

簡譯這篇精彩的分享：Scaling Infrastructure Engineering at Slack

才 2.5y ，就可以把整個 Infrastructure Engineering 弄成這樣的規模。她提到的有很多情境，架構、招募、組織 … 很有感 … XD

要聽她說 (她有點激動 XD) 。。。

證照有無用論？ 2019/08/14 21:42:30

這篇也是我在上下班路上，在 Facebook 寫的隨筆。問題如下：

朋友問：要不要去考證照？

這算是老問題。我分成幾個層次來看這件事情：

基本技能
解決問題

Design Async Invocation using API Gateway and SQS 2019/08/10 14:35:00

Using API Gateway as DynamoDB Proxy 一文提及可以透過 API Gateway 直接整合 DynamoDB ，而不一定要透過 Lambda，其實 Lambda 只是大家最常整合的服務而已。同樣的概念，其實 API Gateway 可以直接整合除了 Lambda 之外的很多服務，像是 DynamoDB、SQS、Step Functions、Kinesis、 … 等。

延伸這個應用，我很常被問的一個問題：

發送給 API Gateway 的請求，會不會掉？怎樣避免 Request 遺失？

這個問題很多人都問過我，本文提供一個架構設計的想法。

軟體開發與工廠思維 2019/08/01 00:16:00

這篇的想法是埋藏在心裡很久的，因為工作關係、身份關係，常常需要被灌輸一些觀念，但是每次聽到哪些『說法』怎麼聽，都是覺的怪。

管理工作經常需要量化產能，量化產能經常的會拿工廠生產線來比喻，最後就把軟體開發的管理度量，用生產線的思維來比喻，然後就把軟體開發者、軟體工程師當作產線作業員來管理，荒謬至極的想法。

以下是我下班坐公車時，寫下積累、醞釀的隨筆 (2019/07/09)。

管理必經之路：資遣、解僱、辭呈 2019/07/09 03:21:00

管理工作範圍廣大，人事管理 (People Management) 是其中一個重要的工作範圍，本文整理身為一個管理者必須面對的課題：資遣、解僱、辭呈。

Spotlight 現象 2019/06/08 00:16:00

這段文章原本是寫在 FB 的 memo，放在分類的哲學一文中，獨立成專文。

GitHub Post-Incident Analysis 2019/06/05 12:43:00

2018/10/21 GitHub 發生重大的異常，服務中斷超過 24h。事後官方釋出完整的事件分析報告，包含非常詳盡的事件過程、架構、應變等。這篇是我當時整理在 SRE 社群的簡譯，原始連結。

如同電影 薩利機長，SRE 應該要多閱讀 異常事件報告，從中學習應變的方法與經驗，同時也了解別人的 系統架構 為何如此設計，有什麼問題？

這個事件，讓 Github 整個組織認真思考 Site Reliability Engineering 的重要性。

如何用 G Guite 整合 AWS Single Sign-On 2019/05/30 13:30:00

整理如何設定 AWS SSO 的流程，主要參考： How to Set Up Federated Single Sign-On to AWS Using Google Apps 這篇文章，用 SAML 2.0 (Security Assertion Markup Language) 協議做使用者的 認證管理 (Authentication)，並且延伸管理上實際遇到的問題。