Skip to content

AI Infra Handbook

Main Navigation 首页阅读指南学习路线

Triton Inference Server

主题

Sidebar Navigation

开始

首页

阅读指南

01. 基础

概述

02. 云原生

概述

03. AI 平台

概述

04. LLMOps

概述

vLLM

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

SGLang

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

TensorRT-LLM

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Triton Inference Server

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

LLM Gateway

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

05. Agent

概述

Agent Runtime

总览

1. 背景

2. 核心思想

3. 架构设计

4. Runtime 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Memory

总览

1. 背景

2. 核心思想

3. 架构设计

4. 记忆生命周期

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Multi-Agent

总览

1. 背景

2. 核心思想

3. 架构设计

4. 协作模式

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Reflection

总览

1. 背景

2. 核心思想

3. 架构设计

4. 反思循环

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

MCP

总览

1. 背景

2. 核心思想

3. 架构设计

4. 协议工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Planning

总览

1. 背景

2. 核心思想

3. 架构设计

4. 规划循环

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

Tool Use

总览

1. 背景

2. 核心思想

3. 架构设计

4. Tool-Use 工作流程

5. 核心模块

6. 源码分析

7. 工程实践

8. 企业生产实践

9. 最佳实践

10. 面试题

11. 延伸阅读

06. RAG

概述

07. AI SRE

概述

08. 安全

概述

09. 案例研究

概述

10. 路线与资源

概述

学习路线

面试指南

目录

RAG 篇

本章节覆盖检索增强生成的技术与工程实现。

计划中主题

Embedding
Retriever
Hybrid Search
GraphRAG
Evaluation

一句话理解

RAG 让大模型能够基于私有、实时、结构化的外部知识进行推理，基础设施要解决的是检索质量、延迟与成本的平衡。

本章节正在建设中，敬请期待。

在 GitHub 上编辑此页

最后更新:

Pager

上一篇11. 延伸阅读

下一篇概述

Released under CC-BY-SA-4.0 License.

Copyright © 2026-present AI Infra Handbook Contributors