Duolingo 把 500+ 後端服務遷上 Amazon EKS,核心做法包括 GitOps + Argo CD、IPv6-only Pods 同 cellular architecture。本文集中整理對 DevOps、platform team 同雲端架構師最值得直接借鏡的三個部署訊號。
Read More »Continuous Batching|點樣減少 idle GPUs、壓低 AI inference 成本?
Continuous Batching 的重點,是把零散推理請求持續塞進正在運行的 batch,減少 idle GPUs,並同時壓低 AI inference latency 與成本。本文集中拆解它跟傳統 batching 差在哪,對 vLLM、SGLang 這類 LLM 推理框架有咩實際意義。
Read More »
機智情報站