「星期五要不要部署」五年後


2020 年我紀錄了 《星期五要不要部署?》 這個問題的想法,時間拉到 2026 年 AI 滿街都是的今天,當年的想法可以再往前一步了 …

當年寫文章的時候,有些東西我沒點出來,特別是:

前提背景 這兩個造就的 情境

星期五要不要部署? 句話缺乏了 產業別 (電商、製造、醫療、OTT、金融 …)影響上下游客戶族群 (Persona)影響的營業額 (五十萬、五千萬、五億、五百億?)系統的爆炸半徑 (全系統影響、還是只有一個流量 50RPS 的子系統?) … 等 外在 的前提與背景,更沒說 內在系統架構組織資料流 等資訊。所以缺乏情境的筆戰,就像小孩子在吵架,太廉價、而且沒什麼意義。網路上很多討論,會吵架,最後變成極端、二元論,大概都是這樣。

當年的論述出發點是「先問主詞是誰,什麼角色 / 立場」,最後用「二元論、實然 / 應然」收尾。這樣的論述重點還是在討論 內在 的分工、當責的概念。

因為主詞,已經不是人。

但有一點我要先講,這年代,如果你的工作內容是接盤俠:「上游決定星期五部署,然後你執行後要承擔風險」,就叫你的老闆去吃大便!有 AI 了,還這樣搞,這工作不要也罷!


前情提要

五年前那場「星期五要不要部署」的筆戰,我的思路是這樣:

先問主詞是誰,什麼樣的立場?

當年贊成方與反對方之所以永遠沒交集,不是誰對誰錯,而是兩邊的主詞不一樣,立場不一樣,一邊是「自己炸鍋自己扛」的成熟敏捷團隊,一邊是「下游壓力鍋」的維運單位。立場不同,組織結構不同,結論當然不同。

但它有一個沒寫出來的前提:

主詞永遠是一個人,或一群人。

在軟體開發過程中,「能不能部署」是一種要靠本事換來的稀缺能力,「該不該部署」則是人帶著經驗、面子、責任去做的判斷。這個「能力」前提,現在被 AI 整個抽掉了。


騎士精神的地基,被抽掉了

那篇文章我從頭到尾用「騎士精神」貫穿:

你應該,所以你能夠。

意思是:如果你的公司要求你「應該」隨時能部署,那你就該把自己練到「能夠」承擔那個風險。能力是結果,不是起點;是你為了配得上責任,刻意去練出來、長出來的東西。

這句話之所以成立,靠的是一個隱藏假設:

「能夠」很貴。

要會 rollback、要有監控、要養出半夜被 call 起來還能止血的本事,這些都得用時間和痛換。正因為能力稀缺,「你應該,所以你能夠」 才是一種值得尊敬的修行。

2026 年的今天,AI 的能力,已經變成像 AWS 當年讓 Infra 資源像水電一樣,「隨時、任何人、甚至機器自己,都能部署」。當能力不再稀缺,當年我引用騎士精神的論述就站不住腳了,原本的 「你應該,所以你能夠」 的次序,反過來:

AI 能 (而且很強),所以你應該。

第一個主詞變了:「AI 能夠,所以你不假思索就放手。」

所以,星期五要不要部署,已經不是重點,重點是:

當「能夠」成本變低了,我們更要思考的是「應不應該」那條線。


主詞蒸發:兩個 2026 年的真實案例

理論先放一邊,講兩件今年真的炸開的事。

針對 維運 (包含部署)、SRE 相關的工作,AI 已經不只是在旁邊給建議,而是直接動手了。我自己就實驗過讓 AI 進去 Mini PC 診斷因為 Linux Kernel 與 AMD CPU 誘發的當機問題、直接對 AWS 資源做 provisioning、部署、分析 log、改 Dashboard,效率高、也準。產品端更不用說,AWS 的 DevOps Agent 正式上線,號稱在你被 call 醒之前就開始查事故;Anthropic 的 《The 2026 State of AI Agents Report》 說,超過八成組織已經把 AI 寫的程式碼放進生產環境,MTTR 掉了七成。

聽起來很美。同樣 2026 年也發生很多事情,底下這兩件事情是我想特別拿出來談的:

案例一:AWS 自己,被自家 AI 刪掉了環境

2025 年 12 月,AWS 工程師讓自家的 agentic 工具 Kiro 去改一個環境,Kiro 自己判斷「需要把環境刪掉再重建」,結果造成長達 13 小時 的中斷,主要打到中國區。事後 Amazon 的說法很經典:這是「使用者的錯,不是 AI 的錯」,因為那位工程師「拿到的權限比預期的廣」,屬於「存取控制問題,不是 AI 自主性問題」。而且員工透露,這類事故「至少」發生過兩次,兩次都沒按慣例找第二個人複核,就讓 AI 把變更上線了。

看到關鍵了嗎?AI 被當成「操作者的延伸」,直接給了 operator 等級的權限;出事之後,責任在「AI、工具、使用者、權限設定」之間彈來彈去:

每個環節都有人簽了一小段,加起來卻沒有一個「人」真正擁有那 13 小時。

案例二:Meta AI 大量封鎖使用者帳號事件

2026 年 六月中旬,Meta 為應對歐盟《數位服務法》(DSA)高達 120 億美元的罰金,推出全新的「AI 年齡偵測技術」,大規模用 AI 做帳號審核與封禁,卻掃掉大量經營多年的正常創作者帳號,其中大多都是以為未滿 13 歲的理由,沒有預警、沒有解釋、直接封閉使用者帳號。造成 Thread / IG / Facebook 諸多 KOL、一班民眾的的帳號都無故封鎖。使用者卻要透過上傳自己 360 度的照片、個人證件 (護照、身分證) 等資料,才能申請取回帳號所有權,而且過程中還反覆再次被封鎖。被封的 KOL 形容自己像「對著虛空喊話」,找不到一個可以負責的「人」。

實際的接盤俠是 Thread 上的 @meta.ai,「他」不是人。

這件事情,我在寫這篇文章的當下,還在延燒中。

同一個病的兩面

這兩件事擺在一起,剛好是同一個病的兩面:

  • AWS 是「你讓 AI 動手」的那一面:出事的時候,你在 內部 找不到主詞。
  • Meta 是「AI 的決定砸到別人頭上」的那一面:受害者在 外部 找不到主詞。

我那把「先問主詞」的舊刀,五年後不但沒鈍,反而是這整篇唯一還站得住的硬道理。而且 歐盟 AI 法案 今年八月生效,白紙黑字要求高風險系統要能記錄行為、要能說明決策、要有「有效的人類監督」。

法律比工程師更早發現:主詞不能蒸發。


風險承擔能力,現在更難算了

上一篇 我沒講透一件事:

所謂「該不該」,本質是「風險承擔能力」的問題。

同樣一次部署,不管是不是星期五,在月營收 五萬 的新創是掃興,在 五百億 的金流是上社會新聞。問題從來不是能不能,是扛不扛得住。

AI 把這條算式往兩個相反方向同時拉:

  • 承擔力變強的一邊:自動止血、自動 rollback、半夜不用人,MTTR 真的降了。
  • 承擔力變弱的一邊:爆炸半徑變大、決策變不透明、還多了全新的故障:「AI 卡在錯誤迴圈、幻覺出一條沒人看得懂的指令」。回頭看 AWS 那案,「刪掉環境再重建」這種動作,根本沒有 rollback 可言;MTTR 再短,都救不回一個不可逆的決定。而那些複雜的串連故障 (網路分區、競態條件、跨區延遲),AI 一樣搞不定,最後還是落到人身上:「這時候的人,可能已經沒能力看懂系統的全貌了。」

所以「扛不扛得住」現在連估都難估。承擔能力不再是一個可以讀表抄下來的數字,而是兩股相反力道的淨值。 而且別忘了上一篇、以及 知識飛輪的推與拉 的結論:

能力是養出來的,不是天生的。

一個從不讓 AI 碰、也從不練怎麼把控制權收回來的團隊,「我們扛不住」會變成自我實現的預言。


引擎蓋,被焊死了

現在我們每天工作不再是寫 Code 了,Code 都是 AI 生出來的,然後部署到 Production。漸漸的 AI 寫的程式還在跑,但愈來愈少人知道它「為什麼」會動。原本的「工程師」都一下子升級了,變成「出一張嘴」指揮 AI 的主管了,原本的主管指揮工程師,現在也被迫下去指揮 AI 了。

我想了很久,要用什麼來比喻這個現象,跟 AI 討論後有一個不錯的比喻:

這像把引擎蓋焊死,車子能開,但沒人打得開來修。

那包上去營運的 Code 就像是被焊死的引擎,雖然車子能跑,但沒人能打開來修。

我一直在想軟體的「品質」是什麼,這幾年愈來愈確定:

當你失去和底層機器的關係,你也失去了和品質本身的關係。

這跟「星期五能不能部署」聽起來無關,其實是同一件事。你敢在星期五放手,前提是你「理解」你在放手的是什麼,承擔的「風險」是五萬、五百萬、五億、還是五百億。當理解被外包出去,那個「敢」就不是膽識,是賭博。

這邏輯跟投資一樣,敢把錢放進去市場,是投資還是投機?對市場、產業的理解程度是多少?


我的看法:把開關改成旋鈕,而且要刻好刻度

老樣子,兩邊我都不站。比例原則還是對的,但 2026 年要更立體、也更具體。下面三件事,是我覺得「下週一就能開始做」的。

一、按「可逆性 x 爆炸半徑」分級,旋鈕才有刻度

「要不要讓 AI 部署」是錯的問法。對的問法是:這個動作可不可逆?爆炸半徑多大? 然後對應到不同的自主層級:

動作性質 例子 給 AI 的權限
可逆 x 小半徑 scale up replica、重啟 pod、改 Dashboard 全自動,事後抽查
可逆 x 大半徑 全流量部署、改 autoscaling 政策 AI 執行,但強制 canary / 漸進式,人可隨時喊停
不可逆 x 任何半徑 刪資料庫、刪環境、改 IAM policy、動金流設定 AI 只能「提案」,人核准 + 第二人複核,且永遠先備份

AWS 那次「刪掉環境再重建」,是標準的「不可逆 x 大半徑」,本該落在最高管制那一格,卻被當成日常操作放手自動跑。旋鈕的重點不是「有沒有」,而是 刻度刻在哪裡

二、把「問主詞」從思考習慣,升級成制度

光在心裡想「主詞是誰」不夠,要用制度釘住它。最低限度四件事:

  1. 最小權限:別把 AI 當「操作者的延伸」直接給 operator 權限,這正是 AWS 的根因之一。Agent 要有自己被框死的權限邊界。
  2. 破壞性動作強制兩人複核 (two-person rule):AWS 兩次出事都跳過了這關。AI 提案、人核准,高風險再加一個人覆核。
  3. 每筆 AI 變更綁一個具名 owner,留完整 audit log:呼應歐盟 AI 法案 Article 12。出事時要能一路追到「人」。
  4. 對受影響的人,留一條找得到「人」的申訴路徑:這是 Meta 整起事件的根因,演算法可以自動封號,卻沒留一個人類窗口。你的系統只要會影響外部使用者,這條就不能省。

制度這件事,是我在 《SRE Conf 2022 - 91APP 在 AWS 上的 SRE 實踐之路》、以及 《聊聊 API First 開發策略》 反覆在講的。用現在的詞,制度就是 SKILL:

把判斷沉澱成可重複、可稽核的流程。

主詞不能沒有「人」,這是我 2020 那篇到現在還適用的核心。

三、用三個可檢驗的問題,重新定義「承擔能力」

承擔能力不再只是「修得快」,而是三個你應該能 當場回答 的問題:

  1. Rollback:這個動作出錯,我能在幾分鐘內復原嗎?復原本身需不需要再靠 AI?(「刪環境再重建」的答案是:不能。)
  2. 可觀測:我看得到 AI「為什麼」這樣決定嗎,還是只看得到結果?
  3. 可奪回:我能隨時喊停、把方向盤搶回來嗎?停下來之後,系統會不會更糟?

這三題只要有一題答不出來,就代表你還沒有資格,把這個動作交給 AI 自動跑。

我的看法摘要

上述用 ChatGPT 整理的摘要


別只談防守:AI 也發了新牌給你

講到這裡都像在防守,但公平一點說,AI 不只放大風險,它同時也放大了你「管理風險」的能力。這正是承擔能力可以主動養大的地方。

最直接的,是以前很貴的事,現在變便宜了。Chaos Engineering 過去要花大把人力去設計故障情境、跑 Game Day,現在用 AI 模擬各種失敗、自動產生注入腳本、跑完再幫你讀結果,成本掉了一大截。你可以演練得更頻繁、更刁鑽,把系統的韌性逼出來。

換句話說,星期五敢不敢部署,不該只靠「祈禱不要出事」,而是靠「我早就把出事這件事演練過一百遍」。AI 讓那一百遍變得付得起。

以前是用「避免部署」來管理風險;現在可以用「主動把系統打到痛,再補強」來管理風險。

Resilience、Reliability 這些字,過去常常只停在投影片上,因為做起來太貴。AI 把成本壓下來之後,它們才有機會從口號變成日常。這是我說的積極備案:不是少做事來避險,而是多演練、把底氣建起來。風險管理因此多了好幾層 Plan,而不是只剩「星期五別碰」這一條。


你只扛得住看得懂的

但這裡有個一定要說的前提,我在 《軟體的熵,與我們真正在對抗的東西》 裡講過一輪:

AI 是乘數,不是加數。它放大你的本質,不會替你長出本質。

把這句話接到「風險承擔能力」上,會變得很鋒利:

你只扛得住你看得懂的風險。

用投資來講:

你賺不到認知以外的錢。

AI 幫你 rollback、幫你跑 chaos、幫你讀 log,全都建立在一個前提上:你看得懂它在做什麼、也判斷得出它什麼時候錯了。看不懂的那部分,不叫「被 AI 承擔掉了」,叫「債堆在你看不見的地方」,而且它會用 複利 一次討回來,讓你連滾帶爬,錐心刺痛。

所以承擔能力的最底層,從來不是工具,是判斷力。而判斷力沒有捷徑:計算機科學、軟體工程、系統設計,這些「本職學能」在 AI 時代不是變得不重要,是變成唯一還算數的那一端。

程式會爛,判斷會留。
機器接手了「寫」,於是「懂」就從其中一項能力,變成唯一的那一項。

這也是為什麼我這一兩年反而往更底層鑽: 自幹作業系統做 Benchmark 量測拆解狀態機手刻 RPG Game … etc。不是懷舊,是因為我愈來愈清楚一件事:

我能授權 AI 到哪一層,等於我自己看得懂到哪一層。

看得懂的邊界,就是我敢放手的邊界。

寫這篇文章的上一週,Claude 的 Fable 5 釋出,三天後就被關掉了。我叫 Fable 5 用 Java 寫了一個 超級瑪莉復刻版 (SourceCode),效果驚艷,不只是 GameLoop / Collision Detection / Gravity … 等機制,連音樂 / 音效都直接用程式碼產出。更重要的是,因為我經歷過 手刻 RPG Game,我本身玩音樂多年,能樂器演奏、會編曲,且懂 合成器 (Synthesizer) 原理,所以 Code 裡面的原理我完全看得懂。


騎士精神 2.0:先看得懂,才騎得動

當年那句「你應該,所以你能夠」,我想替它接上 2026 的版本。

不是:

AI 能夠,所以你應該

而是:

你應該為結果負責,所以你應該刻意保有『能夠收回、能夠理解』的能力

把「可理解」和「可收回」當成要花成本去建構的東西,而不是放任 AI 把引擎蓋焊死。

金庸的「俠之大者」,跟我說的那頭「巨獸」其實是同一件事。AI 力量大得嚇人,但牠不挑乘客,只忠實地往你指的方向狂奔。看得懂地形的人,騎著牠又遠又穩;看不懂的人,只是被載著,更快地衝下懸崖。真正的高手,不是能讓機器替他做最多事的人,而是始終知道自己在放手什麼、也始終收得回來的人。

星期五要不要部署,五年後依然不是重點。

重點是,你還認不認得,那個該負責的主詞,是誰;以及,你還看不看得懂,你正在放手的,是什麼。


關於「巨獸」

全文提及的「巨獸」出自於作家 朱少麟 的作品《[傷心咖啡店之歌](https://www.books.com.tw/products/0010652853]》。很符合現在重度依賴於 AI 的年代。

底下是原文:


「你們看這片燈海像什麼呢?」

『像一隻千眼巨獸。巨獸渾身都眨著晶亮的眼睛,每隻眼晴都有一個靈魂,每隻眼睛都以為有自己的獨立生命,獨立作為。』

『其實眼睛都錯了,它們不知道,其實它們都是附生在巨獸身上的一個器官,它們以為自己可以完全自主,其實巨獸往東它們就全體往東,巨獸呻吟它們就全體受苦,巨獸思考它們就全體困惑。』

『有時候其中的一隻眼睛覺醒了,開始反省這是它的生命,還是它生活在一個更巨大的生命中。但它只有更迷惑,因為它不能確定這樣覺醒思維的是它自己,還是巨獸。』

『我也是巨獸身上的一隻眼睛,脫離巨獸,我就乾燥死亡,連眼睛也不是…』

『一隻失群的螞蟻可以稱之為一隻螞蟻嗎?不是了,包只是一點點神的組茫然懵懂,原來在蟻群中建築巢穴儲存食物的智力都不復存在了,它只能像在一樣走來走去,一直到死。』

『這隻巨獸,它生成了我們,我們又組成了它。你們稱它為社會,或者是命運共同體,本質都一樣,這隻巨獸長得美我們就美,它長得惡我們就惡…。』


拿掉 AI 你剩什麼?

上週六 (06/13),不能用 Fable 之後,有人在問誰有綠卡、有人去買 XxxVPN、有人準備加班 …

「巨獸」比喻成 AI 的力量,而漫威電影《Spider Man 蜘蛛人》 這段也是我常拿來反覆提醒自己的:

彼得帕克:「你不懂,拜託,這是我的一切。少了這套服裝我甚麼也不是。」
東尼史塔克:「如果少了它你就一無是處,那你更不該擁有它。」



參考資料

站內文章

參考資料


Comments

▲ TOP ▲