学途智助
首页
分类
标签
关于网站
登录
eeettt
2026-04-04
8
作者编辑
论文 index
**DualPath** 是 DeepSeek 联合北大、清华于 2026 年 2 月提出的大模型推理系统,核心是解决 Agentic AI 场景下的 I/O 瓶颈。你可以把它理解成一个 **“让闲置网卡帮忙搬数据”** 的优化方案,以下是帮你回忆的索引: ### 🎯 核心痛点 - **场景**:AI Agent(如编码助手、Claude Code)进行多轮、长上下文的推理。 - **问题**:此类场景需频繁读取历史记忆(KV-Cache),导致负责读取的**预填充引擎网卡堵死**,而负责生成的**解码引擎网卡却在“摸鱼”**,造成严重资源浪费。 ### 💡 解决方案:双路径加载 打破传统“存储→预填充”的单一路径,新增“存储→解码→预填充”路径: - **传统路**:存储直接读给预填充引擎(太堵)。 - **新 路**:先让闲置的解码引擎把数据从存储读上来,再用高速计算网络(RDMA)传给预填充引擎(分流减压)。 ### 🛠️ 关键技术 - **流量隔离**:区分“数据传输”与“模型计算”的优先级,防止抄近道时撞车。 - **智能调度**:全局统筹,动态决定哪些数据走老路、哪些走新路。 ### 📊 效果与局限 - **效果**:在 660B 大模型上,离线吞吐量提升 **1.87倍**,在线服务吞吐量平均提升 **1.96倍**。 - **局限**:对小模型或短上下文场景增益不明显,额外传输开销可能抵消收益。 ### 🔗 论文溯源 - **标题**:*DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference* - **链接**:[arXiv:2602.21548](https://arxiv.org/abs/2602.21548) 希望这份索引能帮你快速回忆起论文的脉络。如果对某个技术细节(比如RDMA传输或调度算法)需要更深入的回忆,随时告诉我。
Python
赞
博客信息
作者
eeettt
发布日期
2026-04-04
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦