llm 学习实习计划思考学习路线

2025-09-11

4

作者编辑

2025-08-06 14:50
1.强化学习后训练 (继续预训练 sft会了 但是不知道怎么加强）
 rl
 verl 
 openrlhf
 2.加速硬件
 cuda 
 megatron 
 deepspeed 这个差不多了解了
 
 3.
 多模态

4.cuda
 5.agentic

我思考一下  大模型 中主观部分的 评估标准有点多 
可能需要做到的大模型你和拟合实际数据的过程 。

# cs336作业
作业 1（使基本流程正常运行）：实现 BPE 分词器、Transformer 架构、Adam 优化器，并在 TinyStories 和 OpenWebText 上训练模型。只允许使用 PyTorch 原语（不能直接调用 torch. nn. Transformer 或 torch. nn. Linear）。

作业 2（让 GPU 运行起来）：在 Triton 中实现 Flash Attention 2、分布式数据并行 + 优化器分片。

作业 3（Scaling Law）：使用 IsoFLOP 拟合 Scaling Law。为了模拟训练运行的高风险，学生会获得一个训练 API [超参数→损失] 和一个固定的计算预算，并且必须选择提交哪些运行来收集数据点。在后台，训练 API 是通过在一系列预先计算的运行之间进行插值来支持的。

作业 4（数据）：将 Common Crawl HTML 转换为文本，过滤（质量、有害内容、PII），删除重复数据。这是一项苦差事，却没有得到足够的重视。

作业 5（对齐）：实现监督微调、专家迭代、GRPO 和变体，在 Qwen 2.5 Math 1.5B 上运行 RL 以提升在 MATH 上的指标。我们也曾考虑过让学生自己实现推理（inference），但决定（可能是明智的）让人们使用 vllm。

# 8月计划
1. 做项目 中船   rl 没了，只有dl啊我去，我好想要做rl啊
2. llm的workflow/agent项目 这玩意 终止了 我去，要找个代替 ，
3.

4. leetcode hot100 
5. 刷题 科目1 练车科目2 科目3
6. 学习 cs336的课程 要会手写 flash attention 等五个作业  work1 
7.  cpp等编程技巧 
8. 看完minimind的学习文档 帮助大 done 看完之后我头疼 
看完flashattention了分块，加特殊处理softmax 减少访存

做完  2 6 4  找实习

#  今日计划 明日也有
1. 学习 提示词工程加强 还是从ai来吧  看到trae agent的提示词发现也不是很复杂
2. 数据清洗工程  加强！！！
3. baby agent / trae agent
4.    leetcode 刷题

## 时间分配来自GPT5 
50% 时间 → 项目（中船 RL + LLM workflow，产出能上简历）

20% 时间 → 算法题（Leetcode + 总结）

15% 时间 → CS336 重点作业（FlashAttention 优化）

10% 时间 → 驾照

5% 时间 → 补缺（QLoRA 实践、PPO 手算、检索优化）

# LLM 技术欠缺点
llm 继续预训练 Megatron 理论
 PPO  不会手算， 几乎整个rl 不会手算
 
 
 推荐系统项目怎么弄？
 
 
 
 1. 你的技能盘点
✅ 已掌握（可直接写进简历的）
LLM 系统 & 工具链
Dify 全流程
LangChain（单机应用开发）
vLLM 部署与并行化
FastAPI 封装推理服务
训练 / 微调
SFT（Alpaca 格式）
RLHF 理论（DPO、RL 理论）
RAG 理论
数据库接入（理论）
HuggingFace 使用
Prompt 工程
基本提示词编写（但非精通）
评测

手写过评测代码

❌ 缺口（影响大厂 LLM 岗竞争力）
训练进阶
 Prompt  提示词 高阶
QLoRA 实践
LLM 继续预训练（domain adaptation）
Megatron-LM 分布式训练实践
RLHF 实操
PPO 手算推导
TRL 框架使用（trl库）
多模态能力LLaVA、MiniGPT-4 这种多模态模型
检索优化rerank、query rewrite 等优化手段
结构化推理 / Few-shot CoT / Self-consistency 提示工程
工程扩展
RAG + 工具调用的综合 pipeline（端到端）

会
 dify的全流程
 SFT 只做过 Alpaca 格式
 dpo等理论会 rl理论会
 fastapi
 vllm 部署 并行化
 langchain 
 其中数据库的rag 很明显理论会实操应该很简单
 检索优化不会
 手动写过评测代码
 huggingface会
 prompt提示词肯定是会写 但是不是大师不是精通      
 不会
 多模态
  PPO  不会手算， 几乎整个rl 不会手算
 trl
 QLoRA 知道理论但是实践不会
llm 继续预训练实践
Megatron 理论

Python

博客信息

作者 eeettt123

发布日期 2025-09-11

其他信息 : 其他三字母的人名首字母都是其他同学发布的哦

llm 学习 实习计划 思考 学习路线

llm 学习实习计划思考学习路线