学途智助
首页
分类
标签
关于网站
登录
eeettt123
2025-06-18
1
作者编辑
LLM 学习路线 总结自gpt 技术栈
# 我的技术栈方向考虑 1.强化学习 2. 多模态 开发 想要去北京实习 计划 1. docker 2. rl + 各种结合 3. agent # 从零搭建 GPT 的 LLM 技术栈学习报告 作者:ChatGPT 为 LLM 实习者 g gg 定制 ## 一、学习目标与背景 随着大语言模型(LLM)的广泛应用,构建和部署一个完整的大语言模型系统已成为 AI 工程师的重要能力。你已完成 LoRA 微调,深入阅读了 DeepSeek 系列论文,现在希望掌握: - 从零搭建 GPT 模型全过程 - HuggingFace、ModelScope、vLLM 等主流工具链 - DeepSpeed 等高效训练与推理加速方法 - 多模态(图文)扩展方向 - 并逐步拓展至 MoE 架构、强化学习(RLHF/DPO)、Agent 构建 ## 二、核心技术栈模块 | 模块 | 工具/框架 | 说明 | | ------------- | ------------------------------------------------------------ | ------------------------------ | | 模型构建 | PyTorch / nanoGPT / HuggingFace Transformers | 实现与训练 GPT 模型结构 | | 分词器 & 数据 | `tokenizers` / `sentencepiece` / `datasets` | 构建 BPE 分词器与数据加载 | | 模型训练 | `transformers.Trainer` / `DeepSpeed` / `FSDP` / `LLaMA-Factory` | 单机/多机并行训练方案 | | 参数高效训练 | `LoRA` / `QLoRA` / `PEFT` / `AdaLoRA` | 微调方式节省显存,适配大模型 | | 推理部署 | `vLLM` / `TGI` / `llama.cpp` / `FastAPI` | 高性能推理框架与 API 接口构建 | | 量化加速 | `AutoGPTQ` / `bitsandbytes` / `AWQ` / `optimum` | 推理时减少显存占用 | | 多模态支持 | `Qwen-VL` / `LLaVA` / `MiniGPT4` / `BLIP-2` | 支持图文输入、多模态预训练结构 | | MoE 架构 | `DeepSpeed-MoE` / `GShard` / `SwitchTransformer` / `DeepSeek-V2/V3` | 稀疏激活专家路由系统 | | 强化学习微调 | `trl` / `DPO` / `RLAIF` / `PPO` / `ReFT` | RLHF 模型优化与偏好建模 | | 智能体系统 | `LangGraph` / `AutoGPT` / `Toolformer` / `AgentBench` | 实现复杂任务分解与工具调用 | | 生态平台 | HuggingFace Hub / ModelScope / OpenCompass | 模型管理与评估平台 | ## 三、推荐学习路径(由浅入深) ### 第1阶段:基础构建 - 熟悉 GPT 结构,阅读 `nanoGPT` 源码 - 构建 tokenizer(`tokenizers` 或 `sentencepiece`)与预处理语料 ### 第2阶段:模型训练 - 用 `transformers` 构建 GPT 模型结构 - 使用 `LLaMA-Factory` + `DeepSpeed` 进行 SFT / QLoRA 微调 - 尝试 ZeRO-3、gradient checkpoint、混合精度等节省策略 ### 第3阶段:推理部署 - 使用 `vLLM` 部署 INT4 模型,支持 streaming + batch - 集成 `FastAPI` 实现 API 服务,支持调用历史管理 - 评估不同部署路径:vLLM vs TGI vs llama.cpp ### 第4阶段:MoE 架构理解与实践 - 阅读 GShard、Switch Transformer、DeepSeek V2/V3 - 使用 `DeepSpeed-MoE` 训练 toy MoE GPT 模型 - 理解 top-k gating、专家负载均衡策略等关键机制 ### 第5阶段:RLHF 与 DPO 实践 - 了解 PPO / DPO / RLAIF / ReFT 原理 - 训练偏好模型(RM)或使用 GPT4 生成排序数据 - 用 `trl` 实现 DPO 训练 pipeline ### 第6阶段:多模态探索 - 下载 `Qwen-VL`、`LLaVA`、`MiniGPT4`,跑通图文问答 pipeline - 分析视觉 encoder 与语言模型如何连接、融合 - 自构图文问答数据集进行简单微调 ### 第7阶段:智能体与工具调用(Agent) - 阅读 ReAct、Toolformer、LangChain / LangGraph - 设计支持网页搜索/计算/工具查询的 Agent 系统 - 构建多轮思考 + 反思 + Tool 调用逻辑链 ## 四、推荐实战项目 | 项目 | 简述 | | --------------- | ------------------------------------------------- | | miniGPT | 从头构建 GPT 模型 + tokenizer + 数据训练 pipeline | | SFT + LoRA | 使用 LLaMA-Factory + DeepSpeed 训练开源模型 | | 模型部署 | 使用 `vLLM` + `FastAPI` 构建推理 API 服务 | | MoE 架构实验 | 使用 DeepSpeed 跑通 MoE 路由与多专家结构 | | 偏好建模 + DPO | 构建 RM 或使用 GPT4 生成偏好对,然后用 DPO 训练 | | 多模态问答 | 跑通 `Qwen-VL` 模型,实现图文问答或图像描述 | | Tool 使用 Agent | 构建具备工具调用能力的 LangGraph Agent | ## 五、前沿生态资源 | 类型 | 推荐资源 | | ---------- | ------------------------------------------------------------ | | 源码学习 | [nanoGPT](https://github.com/karpathy/nanoGPT)、[vLLM](https://github.com/vllm-project/vllm) | | 框架使用 | HuggingFace Docs、[DeepSpeed Docs](https://www.deepspeed.ai/) | | 模型发布 | [ModelScope](https://modelscope.cn)、HuggingFace Hub | | 多模态探索 | Qwen-VL、[LLaVA](https://github.com/haotian-liu/LLaVA) | | 模型评估 | [OpenCompass](https://github.com/OpenCompass/OpenCompass) | | MoE 研究 | [DeepSeek-V2](https://arxiv.org/abs/2401.04434)、[Switch Transformer](https://arxiv.org/abs/2101.03961) | | RLHF 研究 | [DPO](https://arxiv.org/abs/2305.18290)、[RLAIF](https://arxiv.org/abs/2311.09543)、[trl](https://github.com/huggingface/trl) | ## 六、总结 你已经迈入了 LLM 工程的“进阶阶段”。接下来建议把握两个核心目标: 1. **构建 tokenizer → 模型 → 训练 → 推理 → 部署 → 推理优化的完整链条**,掌握底层细节与优化点; 2. **从基础 GPT 扩展到 MoE、RLHF、Multimodal、Agent 等方向**,持续增强通用智能能力。 如需详细代码模版、训练脚本、推理部署配置,欢迎继续问我,我可以一一整理输出。
计划
赞
博客信息
作者
eeettt123
发布日期
2025-06-18
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦