TCO

自建還是委外?AI 機房 TCO 要怎麼比才公平?(附對照表)

自建還是委外?AI 機房 TCO 要怎麼比才公平?記得別只比 GPU 價格。把 CAPEX+OPEX+時程價值+風險成本+功率利用率 一次算清楚,才看得到「真實 TCO 」。本文給你採購/業務可直接拿去簡報的對照表、公式範例與評估流程,最後再附上 Cloudmax 的 TCO/ROI 試算模板與混合策略建議(先代管啟動、再評估自建時點)。

1|為什麼不能只比 GPU 價格?

  • 硬體不是全部:電力升級、散熱工程、網路/儲存到位、人力 24/7 班表,都會把「看似便宜的 GPU」變成昂貴的總成本。
  • 上線時程 = 機會成本:每延後 1 個月,模型上線/營收/里程碑就往後推。
  • 事故成本被低估:停機=廣告漏點/訂單流失/研發延宕;沒有把 SLA/罰則/替代方案 寫進合約與模型,帳一定不準。
  • 功率利用率常被忽略:GPU 閒置(排程/散熱不穩/降頻)會直接吃掉 ROI。

2|TCO 要素一次看(採購/業務須知)

  • CAPEX:機電(變壓器、母線槽/配電盤、415/240V 到櫃)、冷卻(RDHx/DLC+CDU)、網通(800G/IB、光纖佈建)、儲存(超高速儲存體)、樓板補強/動線。
  • OPEX:電費、水/冷卻耗損、維運與備件、機櫃/機房租金、專線/頻寬、人力(NOC/SRE/當班值守)。
  • 時程價值:*延後上線月數 × 預估月度收益或內部效益*。
  • 風險成本:*停機機率 × 單次停機損失 × 年發生次數*(含 SLA 罰則)。
  • 功率利用率:GPU 利用率、PUE、降頻比例;利用率差 20% 以上很常見,對 TCO/ROI 影響巨大。

3|怎麼把「時間」與「風險」算進去?

  • 時間價值(舉例)
    • 每延後 1 個月少賺/少省 NT$2,000,000;若自建 9 個月、委外 3 個月,時程差 6 個月 → 時程機會成本 NT$12,000,000。
  • 事故成本(舉例)
    • 估每年重大停機 2 次、每次損失 NT$1,500,000 → 年風險成本 NT$3,000,000。
    • 若委外合約載明 SLA 與罰則、備援座艙(替代資源)→ 風險成本可折減或由供應商吸收部分。

4|功率利用率為何關鍵?(別讓 GPU 在「等風涼」)

  • 綜合 排程效率 × 散熱穩定 × 供電冗餘 × 網儲吞吐。
  • 簡式試算:同樣 8 櫃、名目 70 kW/櫃,A 案(自建)GPU 利用率 62%,B 案(委外)82%,差 20%。若每 % = 年收益 NT$100,000,兩案年差 NT$2,000,000。

5|3–5 年敏感度分析怎麼做?

把 4 個旋鈕拉著試:

1) 電價 ±20%、2) GPU 價格波動 ±15%、3) 上線時程 ±6 個月、4) 利用率 ±15%。

作法:以 3 或 5 年視角,分別計算「樂觀/基準/保守」三案,每案都輸出 NPV 或年總成本曲線,避免被單一假設「騙」進去。


6|TCO 對照表

構面自建(On-prem委外(代管/共置+代管)
上線時程規劃到上線 6–12+ 既有機房可用:2–4 月(既有櫃位更快)
電力變壓器、母線槽、415/240V 到櫃既有容量共享,按櫃/按區計價
冷卻RDHx/DLC 工程、CFD、CDURDHx 庫存、既有水路與 SOP
網路800G 交換器、光纖、RoCE/IB成熟骨幹、黑白網分區
儲存BeeGFS/Lustre+GDS 上線範本化 PoC→量產流程
人力24/7 NOC+SRE 班表交由代管,月報與 RCA
風險交期延誤、超支、停機SLA 約束、罰則與替代方案
現金流高 CAPEX、折舊攤提OPEX 為主、彈性擴縮

公平比較小抄:把 時程價值、事故成本、功率利用率 一併納入,再做 3–5 年敏感度分析。


7|一步一步的採購評估流程(可照抄你的 RFP

  1. 定義效益與時程:上線目標日、每月效益(營收/成本節省/研發里程碑)。
  2. 盤 CAPEX/OPEX:供電、散熱、網路、儲存、樓板/動線、人力/維保、頻寬與電費參數。
  3. 要求供應商提交:
    • SLA 條款(可用度、賠償、切換流程)、替代方案/備援、實測報告(功率/熱/降頻)。
    • 擴縮計畫(櫃位/電力/水路彈性)、解約/搬遷成本(避免被鎖死)。
  4. 試算與敏感度:用相同假設灌進模板,輸出 3/5 年曲線圖。
  5. PoC 驗證:上機 2–4 週進行 階梯負載(25/50/75/100%)、故障演練(泵/電/冷卻切換)、降頻監測。
  6. 決策:若時程/現金流壓力大,優先選「委外快速啟動」;待產能穩定、需求確定,再評估 自建臨界點。

8|常見地雷(採購角度)

  • 合約只有「機櫃租賃」,沒有寫清 SLA、罰則、備援與 RTO/RPO
  • 只看「機櫃價」沒算 電價/水路/帶寬/跨區流量/人力當班
  • 供應商沒有提供 降頻/熱斑/露點 監測證據,PoC 只跑空機或短測。
  • 擴容/縮容 需要重新拉管或停機大施工,期中成本被低估

9|Cloudmax 怎麼幫(把決策做成「連續選擇權」)

  • TCO/ROI 模型與試算模板:同時納入 CAPEX/OPEX、時程價值、事故成本、功率利用率,可做 3–5 年敏感度分析。
  • 混合策略:先以代管/共置+代管啟動(2–4 月上線),等需求曲線與利用率穩定,再協助評估 自建臨界點(電價、規模、折舊與資金成本)。
  • PoC 到量產 SOP:RDHx/DLC/415V 到櫃、CDU 與露點/漏液偵測一體化;提供 階梯負載+失效演練 測試腳本與報告。
  • 營運保證:24/7 NOC、DCIM 監控、月報+RCA、擴縮與搬遷計畫、跨區備援設計

FAQ 延伸問答(採購/業務最常問)

Q1. 3 年還是 5 年視角?
A:
若產品迭代快、硬體折價高,建議 3 年主試算+5 年敏感度。長約要把電價調整與擴縮條款寫進去。

Q2. 委外會被綁死嗎?
A:
在合約加入 解約/搬遷費用上限、資料/設備可攜性、標準化接頭與監控介面;並規劃 雙供應商或跨區備援。

Q3. 電價上漲怎麼辦?
A:
模型中放 電價 ±20% 的敏感度,並評估 BESS/尖離峰調度 的節費空間(委外通常已有機制可共享)。

Q4. 要怎麼驗證「不降頻」?
A:
要求 PoC 階梯負載+故障演練 報告,檢視 GPU Telemetry(降頻事件)、RDHx/DLC 的供回水/露點/壓差曲線,並把觸發條件寫進 SLA。

Q5. 委外真的比較快嗎?
A:
既有水電網路/庫存與 SOP 可加速到 2–4 月;若還要客製水路/專線,須在合約寫清交期與延誤賠償。

Q6. 何時值得自建?
A:
當 規模穩定、電價可議、資金成本低、跨期利用率高 時,自建可在 3–5 年拉平甚至更優;Cloudmax 模型會給出 臨界點。


Takeaways 你可以直接帶走的重點

  1. 不只比 GPU,請把 CAPEX/OPEX+時程+風險+利用率 一起算。
  2. 用 3–5 年敏感度 避免單一假設錯判。
  3. 先委外快啟動、再看自建臨界點,把決策變成 連續選擇權。

需要表單化模板與圖表?Cloudmax 可提供 TCO/ROI 試算表+PoC 測試腳本,讓你的 RFP 與簡報一次到位。

歡迎轉載!請見:轉載原則

Image by AI-generated via ChatGPT