Lora 相关概念名词解释汇总

2023-08-10 22:17:10 来源:哔哩哔哩

打印 放大 缩小

最新更新时间:2023/8/10

名词解释

lora

lora是大模型的路标,是字典的书签。AI将提示词对应的底模特征与训练集中的特征进行对比,将两者的差异进行对比并将差异储存,这就是lora。

AI在训练集学习时,先识别训练集中特征,并将此特征与最符合的提示词进行绑定。所以当提示词中没有合适的对象时,则绑定到了触发词中。

当AI识别的特征过于复杂时,难以识别其属于哪种提示词,也无法精确地绑定到对应地提示词,并污染solo等高度概括词。这种情况在鬼怪类由为严重,需要专门裁切来强化训练,否则即便将复杂特征都赋予到触发词上,也会过拟合无法使用。


(资料图片仅供参考)

在使用lora时,AI会优先从lora中查询提示词对应的特征。

底模

含义:训练lora时使用的大模型。

底模与训练lora的画风越贴近,在训练时,更容易将特征进行匹配并记录差异。许多新的大模型都是基于最初的大模型,将各种提示词对应的特征进行了优化,使之能出图更加符合美感。但是这意味着这些特征已经是被改造过的,如果魔化严重,在此底模训练出的lora在其他大模型上就难以使用,效果不佳。所以训练时,也推荐直接使用进行lora训练。

loss率

含义:训练模型与实际样本之间的偏差值,存在局部最优以及全局最优,

不同作者作者:

1、loss降低保证了更多的细节得到学习,训练图片特征融合率更高(画风、划痕、光影、色彩、材质)

2、不同的图片数量和特征差异所对应的最优化的loss出现在不同训练步数区间

3、好的loss率至少应该在以下,不同优化器的最佳loss不同

4、实践上,同类对比下loss越低lora的效果越好,当loss在后半段的波动越稳定,效果越好。

学习率

含义:寻找最优模型时的训练跨度,学习率的数值影响全局最优的寻找路径

泛化

含义:模型在训练集以外的数据上的拟合程度。

在使用其他提示词和特征时,lora的特征仍能正确地被还原和使用。

梯度下降

含义:指导AI学习策略

拟合

过拟合:只会盲目照搬训练集里的图,而不总结规律

过拟合特征

Tag 失效,无法调用

画面物体/人物出现诡异细节

画面线条变粗

欠拟合:还原度太差,与训练集不相像

拟合成功:lora的目标对象能成功还原出训练集中的特征

收敛

研究函数的重要工具,指学习结果会聚于一点,向某一值靠近

鲁棒性

在异常和危险情况下系统生存的能力,面对各种异常情况时仍能保持相对稳定的性能。

即模型的稳定性、坚韧性。

表现

在不同的大模型下都能有不错的发挥。

还原性

含义:与训练图集特征的相似度

LyCORIS

特征:在画风结合效果上更好

官方:/KohakuBlueleaf/

正则化

含义:先验知识,在AI训练lora前提前认知元素之间的相对位置。

作用1:提高lora的泛化能力,在炼制功能性和画风lora中必不可少。在物品lora中,使AI认知物品的位置关系。

作用2:给某一提示词提供不同的特征,从而降低此提示词的权重,提高lora的泛化性,和突出目标特征的还原性

官方网址:/kohya-ss/sd-scripts/blob/main/docs/train_

不同作者建议:

1、数量推荐:训练集(10~30);正则训练集(80~100),至少大于等于训练集数量。训练次数:6_ 训练集,1_ 正则训练集。

2、不用打标和预处理

3、不适用角色lora

4、用于数据增强:在人型lora训练集中放入风格和姿态各异的无脸果图来假装角色对象的裸体形象,从而泛化其画风和动作,适用于训练集数量过少的情况。(对此方法的还原性存疑,以及训练步数参数未知)

先验知识

先验知识是指在进行学习、推理或决策之前已经具备的关于特定领域的知识和概念。

在机器学习中,先验知识可以用来指导模型的学习过程,帮助模型更快、更准确地进行训练和推理。

先验知识可以帮助我们从大量的信息中筛选出重要的内容,减少冗余和无关信息的干扰

打标类型与对比

提示词分类:

唤起(触发词、高度概括词1girl、solo)

人物特征(发型、发色、眼睛颜色、脸型)

衣服(上中下)

配件(服饰配件武器)

姿势(表情)

背景(特效视角表达形式)

负面词

打全标:中庸

不删除任何词(包括重复的词汇,仅删除错误词)

删特征:还原与泛化不错

人物特征词被删除

仅唤起:过拟合

人物特征词被删除,衣服保留高度概括词(shoes、uniform )

不同打标方法效果对比

判断逻辑:只有需要的特征得到充分还原便是好,不需要的特征越充分还原就越不受控。

过拟合:仅唤起

泛化性(换装能力):正则化>全标=删特征> 仅唤起

过拟合风险(崩坏概率):仅唤起> 删特征>全标>正则化

学习速度:全标=仅唤起=删特征> 正则化

还原性:训练时间减少的正则对象还原性变差

易调用性: 仅唤起 > 删特征 > 全标> 正则化

结论

1、当需要发表lora给予他人使用时,选择删特征+正则

2、当不需要换装自用时,选择打全标

3、当需要降低特征污染、提高还原性时,要增加训练时间

4、当需要增强泛化能力时,则增加正则化训练,提高正则化权重

声明:很多内容都是从不同作者的教学视频和文章中摘抄并加之个人总结来的,涉及之多很难再一一找到出处,只能在此为所有教学奉献的老师致以感谢。

关键词:

责任编辑:ERM523

相关阅读