AI 機櫃

為什麼 AI 機櫃會暴衝到 40–100 kW?超高電壓佈署、RDHx、DLC 的實作順序與驗收清單

為什麼 AI 機櫃會暴衝到 40–100 kW 呢?高電壓三相電、RDHx(Rear-Door Heat Exchanger)、DLC(Direct-to-Chip我該怎麼排進專案?相信是許多人的疑惑,AI 訓練讓單櫃功率密度從 5–15 kW 跨到 40–100 kW,解法在「供電升級× 混合散熱 × 機構動線」,本文將解析工程並提供驗收清單。以下內容提供工程順序、選型原則與可驗證的驗收指標。

1. 為何密度暴衝(先釐清成因再設計)

  • 硬體:高 TDP GPU、NVLink/NVSwitch 叢集、單機到整櫃級整合。
  • 工作負載:長時滿載訓練+頻繁 checkpoint,熱通量長時間居高不下。
  • 典型誤區:沿用 208V/單純大風量思維,導致降頻、不穩定與 PUE 惡化。

2. 供配電:先把電「安全有效」送進去

  1. 自上而下容量回推:以「目標每櫃 60–100 kW × 櫃數」回推變壓器、母線槽(Busway)與配電盤容量。
  2. 電壓等級:櫃端統一 高電壓三相電,降低線電流與銅耗,改善相平衡空間。
  3. 智慧 PDU:分路電流量測、相平衡、遙測/告警,資料納入 DCIM/NOC。
  4. 冗餘策略:訓練區可 N+1;控制面(排程、儲存、目錄服務)宜 2N。明確定義 A/B 路。
  5. 儲能:UPS 優先鋰電(Li-ion);視電價與韌性需求,評估與 **BESS(Battery Energy Storage System)**的尖離峰/備援分工。

註:實際容量需依電力公司、進線條件與建物電房條件修正。


3. 散熱:三階散熱路線圖(依密度與時程滾動升級)

  • 第 0 階:空冷優化(撿「便宜瓦數」)
    封閉冷/熱通道(CAC/HAC)、擋板、風道整流、洞口封堵;常見回收幅度可顯著,但適用於 <~20–30 kW/
  • 第 1 階:RDHx(Rear-Door Heat Exchanger 後門熱交換器)
    被動型約 20–30 kW/;主動型(內建泵/微回路)可接近 ~50 kW/(依機型而異)。適合過渡或與 DLC 混用。
  • 第 2 階:DLC(Direct-to-Chip 直接晶片液冷)+CDU(Coolant Distribution Unit
    以 CDU 隔離 IT 迴路與設施一次側;控供回液溫/壓差/流量與露點;單櫃上限常見 60–100 kW+(依板水設計與液路效率而異)。
    露點控制關鍵:供液溫須高於室內露點 +3~5°C 安全邊界;必設結露/漏液偵測與聯動降載策略。

4. 機構與動線:別讓硬體卡在門口

  • 載重:整櫃級超算 1.3–1.5 噸/ 量級;檢核樓板載重、樑跨、地坪平整度。
  • 搬運:貨梯尺寸/承重、轉角半徑、通道淨高淨寬;到位工法與防震。
  • 管線分層:水管(上走/下走)與光/電纜橋架隔離;快接、滴盤、漏液織帶與集水路徑。
  • 維保空間:前後門開啟角度、抽換長卡/整機空間;CDU 可達性與旁通。

5. 驗收與持續監控(能量、熱、IT 三層聯動)

  • 電力:A/B 路電壓/電流、相不平衡率、分路負載歷程、突波/諧波。
  • 熱工:供回液溫、壓差、流量、露點;RDHx 進出水ΔT;空間熱像+CFD 校驗熱斑。
  • IT 指標:GPU 利用率、降頻事件、節點熱斑、訓練/推論吞吐。
  • 實測手法
    • 階梯負載測試(25%→50%→75%→100%),觀察穩態/過渡行為。
    • 失效演練(泵/電源/冷卻支路切換),驗證 N+1/2N 目標是否達標。

6. 常見地雷(實務歸納)

  • 只換 RDHx 不動配電與相平衡 → 主幹過載
  • 上 DLC 卻沒做露點/結露控制 → 凝結水風險
  • 水質/材料相容未定義(銅/鋁/不鏽鋼/墊片) → 腐蝕/汙堵
  • 維保動線未規劃 → 停機時間放大、MTTR 失控。

7. Cloudmax 的做法(從健檢到營運)

  • AI-Ready 健檢:電/熱/載重/動線盤點與報告。
  • 供電升級:415/240V +到櫃、母線槽與智慧 PDU 規劃與施工。
  • 散熱導入:RDHx 快速部署、CDU+DLC 液路工程、露點/漏液偵測整合。
  • 水質與 SOP:抑腐/抑菌、過濾等級與維護週期。
  • 24/7 NOC:DCIM/監測告警與降載策略聯動,確保訓練不降頻、推論不閃崩。

每個專案會因為預算、規模、條件要求、關鍵因素、見解數值與上限,都會依機型/環境/供應鏈條件有差,Cloudmax 會依上述給出不同的意見。

FAQ 延伸問答:

Q1: AI 機房 40–100 kW/櫃,要先做配電還是先做散熱?
A:
先做容量回推與 415/240V+ 到櫃、母線槽與智慧 PDU;再依密度與時程走「空冷優化 → RDHx → DLC」的三階路線,避免散熱上線後主幹配電過載。

Q2:RDHx 與 DLC 有何差異?什麼時候該換到 DLC?
A:RDHx 快速導入、被動約 20–30 kW、主動可近 ~50 kW;>50–60 kW 長時滿載或整櫃級超算,改 DLC+CDU 更穩(實際依機型/環境而異)。

Q3:415/240V+ 相比 208V 對線電流與效率影響?
A:同功率下線電流可約降近一半,銅耗與壓降更好、相平衡空間更大(仍視佈線、功率因數與現場條件而定)。

Q4:DLC 的露點風險怎麼控?供回液溫抓多少?
A:供液溫維持高於室內露點 +3~5°C,配置露點感測、結露告警與降載聯動;CDU 管控流量/壓差/過濾等級。

Q5:母線槽(Busway)還是電纜好?
A:高密度/可擴充場景優先母線槽,利於模組化擴容與相平衡;小規模或短期可用電纜,但需嚴控載流與散熱。

Q6:GPU 降頻如何做驗收?
A:階梯負載(25→50→75→100%)+失效演練(泵/電源/支路切換),同時觀測 GPU Telemetry、降頻事件與 RDHx/DLC 參數。

Q7:單櫃 RDHx 能帶幾 kW?
A:被動型約 20–30 kW,主動型可近 ~50 kW;實值取決於機型、一次側溫差與現場條件。

Q8:樓板載重與搬運動線要怎審?
A:整櫃 1.3–1.5 噸級載重、貨梯承重/尺寸、轉角半徑、淨高淨寬;水管與光電纜分層、滴盤/漏液偵測與快接,並預留維保空間。

Q9:CDU 選型看什麼指標?
A:換熱能力、流量/壓差、過濾等級、水質與材質相容、旁通設計、維保可達性與監控介面。

Q10:Cloudmax 的 AI-Ready 健檢包含什麼?
A:電/熱/載重/動線盤點→高電壓三相電佈署與母線槽升級→RDHx 或 CDU+DLC 導入→水質與漏液 SOP→24/7 NOC 監控,確保訓練不降頻、推論不閃崩。(每個專案會因為預算、規模、條件要求、關鍵因素的值,給出不同的意見及見解。)

歡迎轉載!請見:轉載原則

Image by AI-generated via ChatGPT