近一兩年,許多企業開始導入 AI,從影像檢測、故障預兆預測、智慧排程,到客服、文件處理,對運算資源的需求越來越高。
而同時間,問題也很快就浮現:
「我們要不要自己建一個 AI 機房?還是用外面的機房或雲端就好?」
如果只拿 伺服器和 GPU 的硬體價格 來比,自建往往看起來比較便宜;但一旦把 電力、冷卻、人力、時間與風險 全部算進來,結果常常不一樣。
本文以 AI 機持有成本 (Total Cost of Ownership ; TCO) 做為比較框架,整理出實用的計算方式,協助企業在做 ai 機房「自建 vs 委外」決策時,有一個比較公平的基準。
一、首先要先有「公平的總持有成本 (TCO) 比較」概念
所謂「公平」,指的是:在同樣的時間區間內(例如 3 年或 5 年),將 資本支出 (CAPEX)、營業費用(OPEX)、時間價值、風險成本、算力利用率全部攤開來,對自建與委外用同一套假設來比較。只要其中一塊沒有比齊,很容易得到片面的結論。
多數試算表有幾個常見問題:
- 只算「買硬體」的錢,沒有把 營運成本 算進去
- 自建算 5 年、外包只算 1–3 年,時間區間不一致
- 沒有把 上線時間、停機風險、利用率 這些「隱性成本」放進來
二、AI 機房 TCO 必須看的 5 個面向
1. 資本支出 (Capital Expenditure ; CAPEX):一次性投入的建置成本
- GPU / AI 伺服器
- 一般運算與管理伺服器
- 儲存設備(高速 SSD、檔案系統)
- 機電工程:變壓器、配電盤、機櫃、佈線
- 冷卻系統:氣冷、後門熱交換器 (RDHx)、液冷 (DLC)、CDU
- 建築相關:樓板補強、電力進線、消防、出入口管制
自建時,這些多半要一次性投入;委外機房或雲端,硬體多半反映在租用費或服務費率內。
2. 營業費用 (Operating Expense ; OPEX):日常營運成本
- 電費(伺服器與冷卻)
- 冷卻用水與耗材
- 機房空間租金或自有機房的維護費用
- 網路頻寬、專線與跨區流量
- 維運人力:24/7 監控、維修、備品管理
AI 伺服器的功耗高,營業費用 (OPEX) 在 AI 機房裡通常是非常重要的一塊,如果只看資本支出 (CAPEX),很容易低估總成本。
3. 時間價值:上線速度與延遲成本
- 自建機房:從規劃、設計、採購、施工、驗收,到正式上線,常常需要 6–12 個月
- 委外機房或雲端:若能直接使用既有設施,從簽約到可用可能縮短到 2–3 個月
如果 AI 專案上線後,每個月都能帶來可預期的收益(例如:減少人力成本、提升良率、加快出貨),那麼 每延後一個月上線,就等於少賺一個月的效益。(在總持有成本 (TCO) 模型中,這段「少賺的時間」其實也是成本。)
4. 風險成本:停機、故障與合約風險
包括:
- 突發停機導致的產線中斷、訂單 delay、服務無法提供
- 建置過程預算超支、工期延誤
- 系統設計不良導致的效能瓶頸、散熱問題、降頻
- 合約沒有寫清楚的 SLA、備援與賠償機制
自建時,大部分風險企業自己承擔;委外時,部分風險可以透過 SLA、冗餘設計與供應商責任分攤。
在總持有成本 (TCO) 試算裡,可以用「每年預期停機次數 × 停機一次造成的損失」來估算一個風險成本的範圍。
5. 利用率:算力是否真的有被用滿
AI 伺服器供電和冷卻都不便宜,如果:
- 模型訓練只偶爾進行
- 大量資源在「等資料、等排程」
- 沒有良好的排程與資源管理
就會出現「硬體買很多,但大部分時間空在那裡」的狀況。
委外方案通常可以較有彈性地調整規模(擴容 / 縮容),也較容易用「按量付費」的方式控制利用率帶來的浪費。
自建則需要在一開始就對未來幾年的需求做較長期的預測,一旦預測偏差,就可能多花錢買到用不滿的資源。
三、用案例來分享 – 三年期的簡化對比,時間與風險差異
多數製造業客戶在做設備投資時,習慣看 3 – 5 年回收期,而 AI 機房其實也一樣。
我們假設案例 — 一個 AI 專案之後(例如用 AI 協助檢查產品、優化生產流程,或客服、內部流程等)
預估每月可以:
- 減少人力與誤判成本:100 萬
- 提升良率帶來的毛利:20 萬
→ 每月效益:120 萬
- 方案 A:自建 AI 機房(不計較大小及規格)
- 規劃+建置+驗收:約 9 個月(最快),最長 2 年
- 這表示,比起立即上線會晚 9 個月
→「少賺」了 9 × 120 萬 = 1,080 萬
- 方案 B:委外 AI 機房(共置+代管 / 雲端)
- 使用現成 GPU 機房,從簽約到上線約 3 個月
- 少賺的時間成本就變成 3 個月
→ 3 × 120 萬 = 360 萬
以此案例來看,光是「時間」這個維度,在三年期總持有成本 (TCO) 模型內,兩者就差了 720 萬。
如果試算表裡沒有這一塊,自建看起來一定比較漂亮。若再加上前面提到的停機風險(例如一年內幾次重大停機,每次造成的損失),就可以看得更清楚:
- 自建:風險大多在企業這邊
- 委外:部分風險透過 SLA 與冗餘設計被吸收或轉移
四、什麼情況下「自建」比較有機會划算?
雖然委外有其優勢,但也並不是所有情境都適合委外;以下幾種情況,採自建 AI 機房的優勢會比較明顯:
- 長期、大規模且相對穩定的算力需求
- 已經確定未來 5–7 年都會持續需要大量 GPU
- 算力主要是內部使用,變動不大,外部客戶流量較少
- 自有用地與電力條件良好
- 有適合改裝的廠房空間
- 機房符合液冷降溫設施
- 電力供應相對穩定,與電價條件可預期
- 具備長期投入基礎設施的資本能力
- 資料主權與隔離要求極高
- 例如國防、特殊製程或特定高機密專案
- 不希望任何資料離開特定場域
這樣的前提下,自建可以在長期攤提下取得較低的單位成本,但也代表要承擔較高的前期投資與技術風險。
五、什麼情況下「委外」會更適合?
對多數正在起步或持續實驗階段的 AI 專案來說,委外通常有幾個明顯優勢:
- 先上線、先累積經驗
- 不需要等建置機房,就能先用既有的 AI 設備與機房環境
- 專案團隊可以把心力放在資料、模型與流程優化,而不是機電工程
- 彈性調整規模
- 依照專案階段擴容或縮容
- 避免一開始就買到長期用不滿的資源
- 把部分風險交給專業機房或雲端服務
- 包含機電冗餘設計、日常維運、異地備援等
對於許多製造業與中小企業來說,常見的做法是:
先用委外方案跑 2 – 3 年,期間累積實際的用量曲線、電費支出、維運模式,再回頭評估是否有必要啟動「第二階段」的自建計畫。
六、實際決策時,可以怎麼做?
最後整理一個實際可用的小流程,協助企業做自建 vs 委外的初步判斷:
- 先決定時間區間
- 3 年、5 年或更長,先講清楚
- 列出完整總持有成本 (TCO) 項目
- 資本支出 (CAPEX)、營業費用 (OPEX)、時間價值、風險成本、利用率
- 對自建與委外用同一組假設來試算
- 不同的只是:建置時間、前期投入、風險分攤方式
- 用三種情境來看結果:樂觀 / 基準 / 保守
- 需求高或低、電價變化、利用率不如預期時,分別會發生什麼事?
- 把決策拆成階段,不一定一次決定一輩子
- 可以先用委外啟動,再視情況逐步轉為混合或自建
以實務上的經驗來分享,多數企業更需要的是「快上線、快驗證」,因此先透過專業 AI 機房或雲端跑出成效,再談要不要蓋自己的第二代機房,先讓專業的人幫您把總持有成本 (TCO) 模型與風險設計好,會比自己從零摸索安全許多。
歡迎轉載!請見:轉載原則。
Image by Dee from Pixabay
