ENZH

AI Infrastructure Optimizations for Agentic LLM Workflows

A Comprehensive Survey — 系統研究論文視覺化導覽
涵蓋 2023–2026 年頂會論文,7 大問題領域, 篇論文

OSDI / SOSP / ISCA / FAST MLSys / NeurIPS / ICML EuroSys / ASPLOS / SIGCOMM

Survey 總覽

LLM 驅動的自主 agent 系統暴露了現有 LLM serving 基礎設施與 agentic 工作負載之間的根本不匹配。本 survey 將 2023–2026 年的系統研究組織為 7 個問題領域,重點深入 KV cache 管理、保留策略和排程。

AI Infra Basics: 一個 Request 的一生
深入 vLLM V1、SGLang、LMCache、NVIDIA Dynamo、Vidur 原始碼級解析。
進入深度解析 →

Agentic 工作負載的五大特徵

1
多輪深度
50–200+ 次推理 vs 傳統 1–3 輪
2
工具暫停
Tool call 碎片化 GPU 利用率
3
Context 增長
單調遞增壓力 KV cache
4
重複 Prefill
跨輪次 / 跨 agent 冗餘
5
CPU 延遲
工具執行遠超 LLM 推理

標籤圖例

OSDI'24 會議
2511.02230 arXiv
repo 開源
★ Best Paper
Agentic ✓ 專為 Agent
Agentic ~ 部分
PD Disagg P/D 分離
Distributed
載入論文資料中...