学途智助
首页
分类
标签
关于网站
登录
eeettt123
2025-09-11
4
作者编辑
llm 学习 实习计划 思考 学习路线
2025-08-06 14:50 1.强化学习后训练 (继续预训练 sft会了 但是不知道怎么加强) rl verl openrlhf 2.加速硬件 cuda megatron deepspeed 这个差不多了解了 3. 多模态 4.cuda 5.agentic 我思考一下 大模型 中主观部分的 评估标准有点多 可能需要做到的大模型你和拟合实际数据的过程 。 # cs336作业 作业 1(使基本流程正常运行):实现 BPE 分词器、Transformer 架构、Adam 优化器,并在 TinyStories 和 OpenWebText 上训练模型。只允许使用 PyTorch 原语(不能直接调用 torch. nn. Transformer 或 torch. nn. Linear)。 作业 2(让 GPU 运行起来):在 Triton 中实现 Flash Attention 2、分布式数据并行 + 优化器分片。 作业 3(Scaling Law):使用 IsoFLOP 拟合 Scaling Law。为了模拟训练运行的高风险,学生会获得一个训练 API [超参数→损失] 和一个固定的计算预算,并且必须选择提交哪些运行来收集数据点。在后台,训练 API 是通过在一系列预先计算的运行之间进行插值来支持的。 作业 4(数据):将 Common Crawl HTML 转换为文本,过滤(质量、有害内容、PII),删除重复数据。这是一项苦差事,却没有得到足够的重视。 作业 5(对齐):实现监督微调、专家迭代、GRPO 和变体,在 Qwen 2.5 Math 1.5B 上运行 RL 以提升在 MATH 上的指标。我们也曾考虑过让学生自己实现推理(inference),但决定(可能是明智的)让人们使用 vllm。 # 8月计划 1. 做项目 中船 rl 没了,只有dl啊我去,我好想要做rl啊 2. llm的workflow/agent项目 这玩意 终止了 我去,要找个代替 , 3. 4. leetcode hot100 5. 刷题 科目1 练车科目2 科目3 6. 学习 cs336的课程 要会手写 flash attention 等五个作业 work1 7. cpp等编程技巧 8. 看完minimind的学习文档 帮助大 done 看完之后我头疼 看完flashattention了分块,加特殊处理softmax 减少访存 做完 2 6 4 找实习 # 今日计划 明日也有 1. 学习 提示词工程加强 还是从ai来吧 看到trae agent的提示词发现也不是很复杂 2. 数据清洗工程 加强!!! 3. baby agent / trae agent 4. leetcode 刷题 ## 时间分配来自GPT5 50% 时间 → 项目(中船 RL + LLM workflow,产出能上简历) 20% 时间 → 算法题(Leetcode + 总结) 15% 时间 → CS336 重点作业(FlashAttention 优化) 10% 时间 → 驾照 5% 时间 → 补缺(QLoRA 实践、PPO 手算、检索优化) # LLM 技术欠缺点 llm 继续预训练 Megatron 理论 PPO 不会手算, 几乎整个rl 不会手算 推荐系统项目怎么弄? 1. 你的技能盘点 ✅ 已掌握(可直接写进简历的) LLM 系统 & 工具链 Dify 全流程 LangChain(单机应用开发) vLLM 部署与并行化 FastAPI 封装推理服务 训练 / 微调 SFT(Alpaca 格式) RLHF 理论(DPO、RL 理论) RAG 理论 数据库接入(理论) HuggingFace 使用 Prompt 工程 基本提示词编写(但非精通) 评测 手写过评测代码 ❌ 缺口(影响大厂 LLM 岗竞争力) 训练进阶 Prompt 提示词 高阶 QLoRA 实践 LLM 继续预训练(domain adaptation) Megatron-LM 分布式训练实践 RLHF 实操 PPO 手算推导 TRL 框架使用(trl库) 多模态能力LLaVA、MiniGPT-4 这种多模态模型 检索优化rerank、query rewrite 等优化手段 结构化推理 / Few-shot CoT / Self-consistency 提示工程 工程扩展 RAG + 工具调用的综合 pipeline(端到端) 会 dify的全流程 SFT 只做过 Alpaca 格式 dpo等理论会 rl理论会 fastapi vllm 部署 并行化 langchain 其中数据库的rag 很明显理论会实操应该很简单 检索优化不会 手动写过评测代码 huggingface会 prompt提示词肯定是会写 但是不是大师不是精通 不会 多模态 PPO 不会手算, 几乎整个rl 不会手算 trl QLoRA 知道理论但是实践不会 llm 继续预训练实践 Megatron 理论
Python
赞
博客信息
作者
eeettt123
发布日期
2025-09-11
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦