学习路线
本路线面向已经具备 Kubernetes / Linux 基础,希望成长为 AI Infrastructure 工程师的读者。
阶段一:夯实基础(4~8 周)
目标:建立 AI 基础设施所需的底层知识。
- Linux 系统调优与性能分析
- 计算机网络(TCP/IP、RDMA、NCCL 网络拓扑)
- 存储系统(本地存储、对象存储、并行文件系统)
- GPU 架构与 CUDA 基础
- 分布式系统基础(一致性、容错、通信)
阶段二:掌握云原生(4~6 周)
目标:能够在 Kubernetes 上构建和运维平台。
- Docker 与容器运行时
- Kubernetes 核心资源与调度
- Helm 与 Operator
- CRI、CNI、CSI
- GPU 在 Kubernetes 上的调度(NVIDIA Device Plugin、GPU Operator)
阶段三:AI 平台与 LLMOps(6~10 周)
目标:理解模型训练、推理、服务的完整链路。
- Kubeflow / Ray / MLflow
- 模型服务与推理优化
- vLLM(已上线)
- SGLang(已上线)
- TensorRT-LLM(已上线)
- Triton Inference Server(已上线)
- LLM Gateway(已上线)
阶段四:Agent 与 RAG(4~6 周)
目标:理解大模型应用的基础设施需求。
- Agent Runtime(已上线)
- Memory(已上线)
- Multi-Agent(已上线)
- Reflection(已上线)
- MCP(已上线)
- Planning(已上线)
- Tool Use(已上线)
- Embedding、Retriever、Hybrid Search
- GraphRAG 与评估体系
阶段五:AI SRE 与安全(持续)
目标:让 AI 系统在生产环境中稳定、安全、可观测。
- OpenTelemetry 与可观测性
- SLO / Error Budget
- AIOps 与事件响应
- IAM、Secrets、Zero Trust
- 合规(SOC2、HIPAA、GDPR)
推荐学习顺序
如果你时间有限,建议按以下优先级:
- vLLM — 理解 LLM 推理的核心挑战
- SGLang — 理解 LLM Program、RadixAttention 与结构化生成
- TensorRT-LLM — 理解 NVIDIA 编译型推理引擎与生产部署
- Kubernetes 与 GPU 调度 — 理解 AI 平台的底座
- Ray — 理解分布式 AI 计算
- OpenTelemetry — 理解 AI 系统可观测性
- LLM Gateway — 理解多供应商/多引擎的统一接入层
- Agent Runtime — 理解 Agent 时代的执行容器与 ReAct 循环
- Memory — 理解 Agent 的记忆系统与长期上下文管理
- Multi-Agent — 理解多 Agent 协作、角色定义与协调调度
- Reflection — 理解 Agent 自我反思、批判与质量提升闭环
- MCP — 理解 Agent 协议、工具发现与跨模型能力复用
- Planning — 理解 Agent 任务分解、计划表示与动态重规划
- Tool Use — 理解 Agent 工具调用、Schema、解析、执行与可观测
- RAG — 理解外部知识检索
面试准备
参考 面试指南。