学途智助
首页
分类
标签
关于网站
登录
eeettt123
2025-06-05
7
作者编辑
flora
## 🎯 主要结论总结(来自 Theorem 2.1 推导) ### ✅ 第三项梯度项很小,可以忽略: 定理 2.1 推导出: $$ \|f_A(t)\| \leq \frac{\eta L^2 (1 - (\eta^2 L^2)^t)}{1 - \eta^2 L^2} $$ 当学习率 \( \eta \ll \frac{1}{L} \) 时,该项迅速衰减趋近于 0,在实际训练中可忽略。 --- ### ✅ 冻结 A,仅更新 B 简化计算: 由于 B 的变化主导最终更新,推导得: $$ W_{\text{new}} \approx W - \eta \sum_t \left[ \left( \nabla_W \mathcal{L}_t \right) A_0^\top A_0 \right] $$ 这简化了训练过程,仅需要更新 B,降低内存与计算开销。 --- ### ✅ LoRA 实质是梯度的随机投影: 更新过程等价于: 1. 使用 \( A_0^\top \) 将梯度进行下投影(压缩); 2. 使用 \( A_0 \) 上投影(恢复); 3. 整体形成一个低秩近似。 因此,LoRA 实现了低成本、高效率的梯度近似更新。 在 FLORA 论文的第 2.2 节,作者通过定理 2.1 的结论,推导出 **只更新 B、冻结 A 时的近似更新公式**。其关键推导步骤如下: 1. **观察**:B 的更新主导了整个权重的变化,因此只保留对 B 的更新,简化了原始的 LoRA 表达式。 2. **代数推导**:用 Taylor 展开和矩阵乘法展开后,保留主要项,近似为一个关于 B 的更新项乘以 A0⊤A0A_0^\top A_0A0⊤A0。 3. **结合定理 2.1**,推导出该项实质是多个梯度在低秩空间中的投影和。 ### Lemma 2.3(随机投影矩阵性质) 假设 $$ A_0 \in \mathbb{R}^{r \times d} $$ 是一个满足一定正交性条件的随机矩阵,比如: $$ A_0 A_0^\top = I_r $$ (这里 $$I_r$$ 是 $$r \times r$$ 的单位矩阵,说明 $$A_0$$ 的行是正交的) 对于任意的矩阵 $$X \in \mathbb{R}^{d \times m}$$,有如下不等式成立: $$ \| X - A_0^\top A_0 X \|_F \leq \epsilon \| X \|_F $$ 其中,$$ \|\cdot\|_F $$ 是矩阵的 Frobenius 范数,$$\epsilon$$ 是一个很小的误差(依赖于投影秩 $$r$$ 和输入维度 $$d$$ 等参数)。 这说明: - 经过 $$A_0^\top A_0$$ 的“投影-还原”操作后,矩阵 $$X$$ 的误差很小; - 换句话说,$$A_0^\top A_0$$ 近似是矩阵 $$X$$ 在低秩子空间的**良好近似**投影。 --- ### 这对 LoRA 的意义: LoRA 的权重更新本质上是通过低秩矩阵 $$A_0$$ 进行投影和还原,这个引理保证了: - 低秩更新没有丢失太多梯度信息; - 低秩梯度近似是合理且有效的。
Python
赞
博客信息
作者
eeettt123
发布日期
2025-06-05
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦