Lora

在机器学习中,我们通常使用一个矩阵来表示一个全连接层,但是这个全连接层往往是过参数化的,这意味着我们可以通过计算这个矩阵的秩来确定哪些特征是重要和相关的。换句话说,我们试图找到原始特征空间(或矩阵)中少数维度的(线性)组合,能够捕捉数据集中大部分的信息且一旦我们找到了足够解决问题的参数空间,再增加这个参数空间的大小并不会显著提升模型的性能。所以只要调整这一部分的参数可以达到调整所有参数同样的效果同时减少GPU使用量

原理图

原理:

在大模型的矩阵WRd×kW\in R^{d\times k}旁插入多一个ΔW\Delta W但是由于可以低秩分解于是可以分解成AB=ΔWAB=\Delta W ,其中ARd×rA \in R^{d \times r} ,BRr×kB \in R^{r \times k} ,然后我们只要训练AABB即可最后把ABAB加到WW中即可。

AA使用高斯初始化,BB使用零矩阵进行初始化,这样当数据第一次通过网络时和与训练结果是一致的,从而保证了模型在初始阶段便有一个不错的效果。但是这带来了不对称问题,其实我们也可以使用两个非全0矩阵进行初始化,但是需要事先将预训练权重减去初始化的值,即:

W=W0B0A0+BAW=W_0-B_0A_0+BA

Transformer 中的LoRA

最好的方式是在所有的权值矩阵WqW_q ,WkW_k ,WvW_v,WoW_o都加上LoRALoRA因为这样有利于模型捕捉到所有矩阵的关键信息.(实际操作中,应当将可微调参数分配到多种类型权重矩阵中,而不应该用更大的秩单独微调某种类型的权重矩阵.)

秩的大小(r=1,2,4,8,64)

多任务的学习对于LoRA来说比较困难,除非把它们当成同一个任务。 其余学习资料

最后更新于