LLM 学习路线总结自gpt 技术栈

2025-08-01

10

作者编辑

# 我的技术栈方向考虑
1.强化学习 
2.  多模态
开发
想要去北京实习 计划 
1. docker 
2. rl + 各种结合
3. agent

经验贴 实习: 
有相关项目，项目真的自己做过（或者你能有水平装作自己做过），日常实习算法方面hot100全会，mha，交叉熵，softmax，rmsnorm这些起码要会，八股你得基本了解吧，比如问你一个sft的过程这种最简单的，或者lora原理这种初学者都要会的，你得会，和自己项目相关的八股，你得会（你说你based on qwen2，那么qwen2的结构你要知道） 第一份实习不要求你什么都会，但是第一你要展现coding能力，第二要展现出project能力，第三得起码展现给面试官你是个聪明小孩即使暂时薄弱也能很快掌握，这样基本稳杀的

# 从零搭建 GPT 的 LLM 技术栈学习报告

作者：ChatGPT 为 LLM 实习者 g gg 定制

## 一、学习目标与背景

随着大语言模型（LLM）的广泛应用，构建和部署一个完整的大语言模型系统已成为 AI 工程师的重要能力。你已完成 LoRA 微调，深入阅读了 DeepSeek 系列论文，现在希望掌握：

- 从零搭建 GPT 模型全过程
- HuggingFace、ModelScope、vLLM 等主流工具链
- DeepSpeed 等高效训练与推理加速方法
- 多模态（图文）扩展方向
- 并逐步拓展至 MoE 架构、强化学习（RLHF/DPO）、Agent 构建

## 二、核心技术栈模块

| 模块          | 工具/框架                                                    | 说明                           |
| ------------- | ------------------------------------------------------------ | ------------------------------ |
| 模型构建      | PyTorch / nanoGPT / HuggingFace Transformers                 | 实现与训练 GPT 模型结构        |
| 分词器 & 数据 | `tokenizers` / `sentencepiece` / `datasets`                  | 构建 BPE 分词器与数据加载      |
| 模型训练      | `transformers.Trainer` / `DeepSpeed` / `FSDP` / `LLaMA-Factory` | 单机/多机并行训练方案          |
| 参数高效训练  | `LoRA` / `QLoRA` / `PEFT` / `AdaLoRA`                        | 微调方式节省显存，适配大模型   |
| 推理部署      | `vLLM` / `TGI` / `llama.cpp` / `FastAPI`                     | 高性能推理框架与 API 接口构建  |
| 量化加速      | `AutoGPTQ` / `bitsandbytes` / `AWQ` / `optimum`              | 推理时减少显存占用             |
| 多模态支持    | `Qwen-VL` / `LLaVA` / `MiniGPT4` / `BLIP-2`                  | 支持图文输入、多模态预训练结构 |
| MoE 架构      | `DeepSpeed-MoE` / `GShard` / `SwitchTransformer` / `DeepSeek-V2/V3` | 稀疏激活专家路由系统           |
| 强化学习微调  | `trl` / `DPO` / `RLAIF` / `PPO` / `ReFT`                     | RLHF 模型优化与偏好建模        |
| 智能体系统    | `LangGraph` / `AutoGPT` / `Toolformer` / `AgentBench`        | 实现复杂任务分解与工具调用     |
| 生态平台      | HuggingFace Hub / ModelScope / OpenCompass                   | 模型管理与评估平台             |

## 三、推荐学习路径（由浅入深）

### 第1阶段：基础构建

- 熟悉 GPT 结构，阅读 `nanoGPT` 源码
- 构建 tokenizer（`tokenizers` 或 `sentencepiece`）与预处理语料

### 第2阶段：模型训练

- 用 `transformers` 构建 GPT 模型结构
- 使用 `LLaMA-Factory` + `DeepSpeed` 进行 SFT / QLoRA 微调
- 尝试 ZeRO-3、gradient checkpoint、混合精度等节省策略

### 第3阶段：推理部署

- 使用 `vLLM` 部署 INT4 模型，支持 streaming + batch
- 集成 `FastAPI` 实现 API 服务，支持调用历史管理
- 评估不同部署路径：vLLM vs TGI vs llama.cpp

### 第4阶段：MoE 架构理解与实践

- 阅读 GShard、Switch Transformer、DeepSeek V2/V3
- 使用 `DeepSpeed-MoE` 训练 toy MoE GPT 模型
- 理解 top-k gating、专家负载均衡策略等关键机制

### 第5阶段：RLHF 与 DPO 实践

- 了解 PPO / DPO / RLAIF / ReFT 原理
- 训练偏好模型（RM）或使用 GPT4 生成排序数据
- 用 `trl` 实现 DPO 训练 pipeline

### 第6阶段：多模态探索

- 下载 `Qwen-VL`、`LLaVA`、`MiniGPT4`，跑通图文问答 pipeline
- 分析视觉 encoder 与语言模型如何连接、融合
- 自构图文问答数据集进行简单微调

### 第7阶段：智能体与工具调用（Agent）

- 阅读 ReAct、Toolformer、LangChain / LangGraph
- 设计支持网页搜索/计算/工具查询的 Agent 系统
- 构建多轮思考 + 反思 + Tool 调用逻辑链

## 四、推荐实战项目

| 项目            | 简述                                              |
| --------------- | ------------------------------------------------- |
| miniGPT         | 从头构建 GPT 模型 + tokenizer + 数据训练 pipeline |
| SFT + LoRA      | 使用 LLaMA-Factory + DeepSpeed 训练开源模型       |
| 模型部署        | 使用 `vLLM` + `FastAPI` 构建推理 API 服务         |
| MoE 架构实验    | 使用 DeepSpeed 跑通 MoE 路由与多专家结构          |
| 偏好建模 + DPO  | 构建 RM 或使用 GPT4 生成偏好对，然后用 DPO 训练   |
| 多模态问答      | 跑通 `Qwen-VL` 模型，实现图文问答或图像描述       |
| Tool 使用 Agent | 构建具备工具调用能力的 LangGraph Agent            |

## 五、前沿生态资源

| 类型       | 推荐资源                                                     |
| ---------- | ------------------------------------------------------------ |
| 源码学习   | [nanoGPT](https://github.com/karpathy/nanoGPT)、[vLLM](https://github.com/vllm-project/vllm) |
| 框架使用   | HuggingFace Docs、[DeepSpeed Docs](https://www.deepspeed.ai/) |
| 模型发布   | [ModelScope](https://modelscope.cn)、HuggingFace Hub         |
| 多模态探索 | Qwen-VL、[LLaVA](https://github.com/haotian-liu/LLaVA)       |
| 模型评估   | [OpenCompass](https://github.com/OpenCompass/OpenCompass)    |
| MoE 研究   | [DeepSeek-V2](https://arxiv.org/abs/2401.04434)、[Switch Transformer](https://arxiv.org/abs/2101.03961) |
| RLHF 研究  | [DPO](https://arxiv.org/abs/2305.18290)、[RLAIF](https://arxiv.org/abs/2311.09543)、[trl](https://github.com/huggingface/trl) |

## 六、总结

你已经迈入了 LLM 工程的“进阶阶段”。接下来建议把握两个核心目标：

1. **构建 tokenizer → 模型 → 训练 → 推理 → 部署 → 推理优化的完整链条**，掌握底层细节与优化点；
2. **从基础 GPT 扩展到 MoE、RLHF、Multimodal、Agent 等方向**，持续增强通用智能能力。

如需详细代码模版、训练脚本、推理部署配置，欢迎继续问我，我可以一一整理输出。

计划

博客信息

作者 eeettt123

发布日期 2025-08-01

其他信息 : 其他三字母的人名首字母都是其他同学发布的哦

LLM 学习路线 总结自gpt 技术栈

LLM 学习路线总结自gpt 技术栈