article cover

📘 Model Master Bootcamp · Mentorship Notes (No.2)

日本語>>

Theme: Masterclass in Parameter Settings and Training Control

Welcome back to the [Model Master Bootcamp] Mentorship Notes.

In this edition, Mentors @grayman and @shishu will guide you through the technical labyrinth of learning rates, steps, and loss curves. Whether you are aiming for a "cost-effective" quick build or a "competition-grade" masterpiece, these insights will help you find that perfect balance for your model's convergence.

III. Parameter Settings and Training Control

Q1: Can you provide separate parameter suggestions for "Low-cost/Practical" vs. "Competition-grade/High-quality"? — PPC

Mentor @grayman:

These are standarts settings, they can be failed time by time depending on your project so don't take these as "The most accurate parameters for every training". I just show you a starting point, you should learn what these parameters mean and what they effect to, so you can train more succesfully. I tried to explain some of them, that's why answer is a little bit long. But you still need to do some research.

Total Steps Formula:

Here is parameters which is considered to be safest way to train in general and SeaArt

1500-3000 steps in total for Character LoRAs

3000-6000 steps in total for Style LoRAs

Formula of Steps: (Image count)×(Repeat)×(Epoch)÷(Batch Size)=(Total Steps)

Example: 40 image×(Repeat)×10 Epoch÷2 Batch=4000 Steps (Let's say this step is our aim)

Then Repeat Should be 2 per image.

If total steps were 2000, repeat would be 1.

4 Epoch or 8 Epoch could be good for testing.

Mixed Precision: There is 2 option. bf16 and fp16. bf16 requires better Hardware (Rtx30/40/50+ series) and fp16 is suitable for most GPU's.

bf16 has much better stability. If your hardware is enough, overall bf16 is better choice. I don't know what SeaArt uses but it's usually recommended to use fp16 in online training websites, it's worse compared to bf16 but if hardware is not suitable, it's also bad for you.

Dataset Config Parameters:

Enable ARB Bucketing:ON

Bucket Reso Steps:64

Min. Bucket Reso:512

Max. Bucket Reso:1024 (Can be selected as 1536 for IL1.0 and later versions, dataset images must also be 1536px based. It would improve LoRA quality by 10%)

Color Augmentation: OFF

Flip Augmentation: If you train a style LoRA, it can be selected as ON. If you are training a character LoRA, it's recommended to have it OFF because most of anime characters has asymmetrical features. However if your character is perfectly symmetrical, you can keep it ON. It's best to have it OFF for characters though.

Save Settings: Save each Epoch, it's better so you have more option to test at the end.

bf16 is recommended as before but still, if you have old hardware or use online training websites, fp16 can be selected because hardware should be suitable for bf16.

Learning Rate for Character LoRAs

U-Net Learning Rate: 1e-4 (0.0001) or 2e-4

Text Encoder Learning Rate: 1e-5 (0.00001) or 5e-5

Ideal Ratio: 10:1 (U-Net should be 10x stronger than Text Encoder)

(If Text encoder Learning Rate is so high, you will get tag bleeding and every generated image will look like your uploaded images for training. If you have this issue, you can decrease the rates)

Learning Rate for Style LoRAs

Safest way: 8e-5 For U-net and 0 for Text Encoder. Much slower but it's really hard to overtrain the LoRA with this settings, it's better to use this with subtle styles. (1:10 ratio still can be used)

Agressive Style: 4e-4 U-Net and 4e-5 for Text Encoder. This would push AI model to adopt the style way faster but be careful to not overtrain the LoRA.

Learning Rate Warmup: You can start from 5% for Character and 10% for Style. 5% is standart recommended value. But it can be increased for styles. If style is Illustration focused, it can be selected lower than 5% such as flat art and spesific digital arts. It's best to start from 5% and change rate by experimenting and find best value for yourself i guess. But 5% is standart as i said.

Select Train U-Net Only if you select 0 for Text Encoder.

Learning Rate Scheduler: cosine (constant can cause artifacts since learning rate doesn't slow down at the near end of training.

Optimizer: AdamW8Bit is effecient and well-known option for Illustrious XL. But some people prefer Adafactor or Prodigy for better details. It's up to you. Do experiment and find the most suitable one for your work.

Lr scheduler num cycles (Restart times): 3 works good with cosine

Min. SNR Gamma: If you are using prodigy, you can use it as 5. 5 is usually standart recommended value for it. You can push it back to 3 if you feel LoRA is weak and you need AI to collect more details from training dataset. 0 can also be used but usually not recommended. 10 or 20 can be used for watercolor, pastel like styles that doesn't need much detail. Basically if you want to decrease contrast of images and have soft style, it can be increased. Do experiment to find suitable rate for your needs.

Network Rank (Dim):

32 to 64 for a Character LoRA

128 can be used for styles but you can prefer 32 to 64 range for style too. It would keep files lightweight and training more stable.

Start from 32 and experiment to find suitable one for yourself. For styles, you can also start from 64.

Network Alpha:

For character LoRAs, use half of Network Rank. Alwasy try to have 1:2 ratio.

For style LoRAs, 1:2 ratio still can be used or you can take risk and use 1:1 ratio. This would apply style more agressive but it can also cause saturated colors, burned images, so sharp and heavy lines etc. You can try both to see results. If you want to apply heavy style to LoRA, 1:1 ratio is good. But comes with risk.

Dropout Rate:

0 0.05 for character LoRA

0.05 to 0.10 for Style LoRA

If dataset is small (10-20 image), Network Rank is high (128 to 256) or LoRA doesn't change the hair color like details even if you prompt, use Dropout rate.

If dataset is large (+100 image), Network Rank is low (16 to 32)

Tagging Settings:

Shuffle caption: If you open it, AI will don't care about order of tags. If you close, AI will take order of tags to consideration. You can use it as on.

Weighted Tokens: OFF (Don't add any prompt weightings to training captions like "(yellow hair:1.2)". It would cause bad results.

keep N Tokens: If you have a trigger word for LoRA, use it at 1 and you have to write your trigger word in front of captions in each dataset image. It will keep your trigger word in front and won't add it to shuffle.

Max Token lenght: 225

Caption Dropout Rate: This is rate of how much AI will ignore your captions.

0.0 to 0.05 for character LoRA

0.05 to 0.1 for Style LoRA

Dropout Every N Epochs: 0

Noise Settings:

Noise Offset: AI struggle to generate black and white since it's trained on noise, this setting allows AI to learn much deeper shadows and bright lights.

0.03 to 0.05 for character

0.05 to 0.10 for Style

Multires Noise Iterations: Noise is pixels, this setting allow AI to have a look at image with different scales from tiny details to big shapes.

0 for character

6 to 10 for style

Multires Noise Discount: This controls how much "power" the noise has as it moves from large shapes to small details.

0 for character

0.3 for style

Clip Skip must be 2 for Illustrious XL.

Sample Settings is just generation settings so AI will generate an image for you to check. Just use standart Illustrious settings and prompting style, also add your trigger word to prompt if you have one.

If you ask my settings, it changes depending on project and i can't tell them to you because only difference between creators is Parameters and Dataset Quality.

Mentor @shishu:

I rarely train directly on the SeaArt platform. Since there are differences between platforms even with the same materials/parameters—and a gap between local and online training—I recommend prioritizing the platform's default recommended parameters.

Q2: Is there a fixed/ideal range for the Learning Rate? If so, what is it? — DirtyMocha67

Mentor @grayman: 

Send Answer 1 to user. Because it already includes all information he needs and more.

Mentor @shishu:

  • General Range: 1e-5 to 1e-3. Adjust based on the base model, dataset size, and training goals.
  • Empirical Advice:
    • SD 1.5: 1e-4 (Standard) to 5e-5 (Fine).
    • SDXL: 5e-5 (Standard) to 1e-5 (High Quality).
    • Flux.1: 1e-5 to 5e-6 (Requires smaller steps due to large parameter count).
  • Pro Tip: Start with a higher rate (e.g., 1e-4) for rapid convergence, then drop to 1e-5 to fine-tune details.

Q3: How do I know exactly when to stop the training? — takaidobooks

Mentor @grayman: 

Loss Curve Graph The Drop: At the start, the loss will drop sharply. This is the AI learning the basics. The Plateau: Eventually, the curve will flatten out. This is convergence. The Stop Sign: If the loss suddenly spikes upward or starts oscillating wildly, you have likely pushed the learning rate too high or the model has broken. Stable loss between 0.08 and 0.12 is typically where the best results exist. Test that Epochs. After testing: Blurry/inconsistent means it still needs training. Deep-fried images and High contrast mean it's overtrained. Use earlier Epoch. Same pose, details and composition in every image means it's overfitted. Increase Dropout rate. If it's accurate and Flexible, that's your final LoRA or checkpoint.

Mentor @shishu: 

Loss Curve: Stop when the loss stops dropping significantly and plateaus.

Q4: How can I shorten the training time? — VeeFactorial

Mentor @grayman: 

Use Optimizer. Have better GPU with more Vram and increase batch size. These are the methods.

Mentor @shishu: 

You can speed up convergence by reducing the Batch Size, lowering the dimensions (Rank/Dim), using a higher Learning Rate, or reducing the number of images in the dataset.

Q5: What's the fundamental difference in quality between "All-in-one Training" and "Multiple Retraining"? — PPC

Mentor @grayman: 

For starters, train it all at once is better option since it's faster, smoother and more cohesive. Unless you are trying to fix a spesific issue, retraining is not that good option. Especially for beginners. You can also use hybrid method: Train all at once for about 80% of your target steps (for example 2000 steps). Test the checkpoints. If the character is 90% there but lacks a specific detail (like a tattoo or a specific hat), resume training for a final 200–500 steps at a very low learning rate (1e-5) with a focused dataset. If you want the highest artistic quality and prompt adherence, train it all at once. Retraining multiple times is a "repair" strategy.

Mentor @shishu:

  • All-in-one Training: Results in a more unified style and smoother overall feel. However, it has lower fault tolerance—if the training "breaks," it’s hard to save.
  • Multiple/Incremental Training: You can train structure first, then details, then style. This offers much higher controllability and is suitable for high-demand characters or complex styles. The quality ceiling is usually higher, but it requires significant experience.

*Mentor grayman's answers are mostly based on IL 0.1 and IL 1.0.

📢 Live Now: [Model Master Bootcamp] Practical Training Phase! 

Check details & tasks: [Activity Link] 

Real-time Mentor Q&A: [Discord Channel Link]

160
0 comment
61
17
160
0
0/1000