article cover

📘 Model Master Bootcamp · Mentorship Notes (No.1)

日本語>>

Theme: Core Guide to Dataset Collection, Pre processing, and Tagging Logic

Welcome to the first edition of the [Model Master Bootcamp] Mentorship Notes. During the registration and preparation phase, we collected many in-depth questions regarding material preparation and tagging logic. To help everyone start strong in the "Anime Track," we’ve summarized practical advice from our top mentors, @shishu and @grayman. Key Q&As from our Discord channel are also compiled here for your reference.

I. Dataset Quality and Quantity

Q1: What is the minimum number of images needed? What are the specific requirements for quality (composition, resolution)?

Mentor @grayman: 

It's a subject to change by model but I will assume it's Illustrious models since you guys train anime LoRAs.

  • For a Character LoRA: 30-40 images are enough.
  • For a Style LoRA: Usually 70-80 images are needed to capture all details of style. These numbers can be increased or decreased, but starting from these points is safest for beginners. Regarding Composition, it can be anything, but for a character LoRA, ensure your character is the main subject. Using various images for both style and character LoRAs allows the AI to learn the subject across different compositions. Images must be sharp; do not use blurry images. You can test this by zooming in to check if it's pixelated or still sharp. For Illustrious 0.1, 1024px based resolutions are recommended. For 1.0 or later versions, you can prefer 1536px based resolutions.

Mentor @shishu:

  • Quantity:
    • Character LoRA: 30–80 images (50–60 is the "sweet spot" if resources are limited).
    • Style LoRA: 50–200 images (70+ is more stable).
    • High-End Refined Models: 100–300 images is the safest bet.
    • Note: Fewer than 20 images leads to overfitting and poor generalization. Adjust the count based on your base model.
  • Quality Requirements:
    • Resolution: Should not be too low. 1024px or higher is ideal depending on the base model.
    • Composition: For character LoRAs, ensure diverse angles (front, side, high/low angles) and avoid having only close-up headshots.
    • Clarity: No heavy compression or large obscured areas. Avoid blurry images.
    • Consistency: Maintain uniform lighting and line art styles for the same character or style.

Q2: Where can I find high-quality, free-for-commercial-use materials?

Mentor @grayman: 

Danbooru, Pinterest, and similar websites. Basically the internet. 

Mentor @shishu: 

Telegram and X (Twitter) often have expert-shared materials. Other great sources include Pixiv, Pexels, Anime Pictures and Wallpapers, Unsplash, and Pixabay.

Q3: What tools do mentors use for image processing?

Mentor @grayman: 

I use WD14. If you prefer the Kohya_ss GUI, it has a built-in WD14 tagging feature. If your dataset is between 20-100 images, I advise you to quickly check images one by one to ensure accuracy.

Mentor @shishu: 

I use Photoshop (PS). Modern model training doesn't strictly require background removal—in fact, high-quality backgrounds can be beneficial, so I recommend minimal processing. While batch cropping software is fast, manual processing is safer for inconsistent results. For tagging, use the platform's tools and manually edit if the quality feels off.

Q4: How to effectively  background interference?

Mentor @grayman: 

Basic option. Or you can use the A1111 ABG extension or a ComfyUI workflow. Alternatively, use a rembg-based website for a hassle-free experience.

Mentor @shishu: 

Prioritize solid/white/ background materials. Instead of complex masking, manually add detailed background tags (e.g., white backgroundsimple background) to strengthen decoupling. Avoid complex backgrounds taking up too much space, or the model will "memorize" the background instead of the subject.

II. Tagging Logic

Q1: How detailed should the tags be?

Mentor @grayman: 

You can use WD14 tagging for speed. Do not use underscores (_); use spaces instead.

  • Character LoRA: Write the character's name and details like background/action. Character-specific traits (hair color, etc.) should be omitted from the tags because that is what we are trying to teach the AI. If you want clothing flexibility, describe the clothes so the AI views them as "changeable details" rather than part of the character.
  • Style LoRA: Simply describe the image content without adding specific style-related details.
  • The Self-Test: If you give these tags to the base model (without your LoRA), could it generate this image? If yes, your tagging is sufficient.

Mentor @shishu: 

Core Principle: Broad tags define the style; fine tags control the details. Essential Hierarchy:

  1. Style/Quality tags (masterpiecebest quality)
  2. Subject (1girlsolo)
  3. Core features (Hair style, eye color, clothing)
  4. Secondary details (Expression, pose) Aim for 15–40 words for the best balance. New users should use the platform's tagging tools based on their selected base model.

Q2: How many trigger words should I set?

Mentor @grayman: 

Usually one. If a character has two outfits (e.g., 30 images each), you could set 2-3 triggers, but a single core trigger word usually yields better results.

Mentor @shishu: 

Trigger words aren't strictly necessary during training, but adding high-frequency words afterward helps. For character LoRAs, trigger words are highly recommended.

Q3: What are the specific effects of having too many or too few tags/trigger words?

Mentor @grayman: 

Without tags, the AI assumes everything not prompted is part of the trigger word. Describing elements outside your subject improves LoRA accuracy. Stick to one trigger word for best performance.

Mentor @shishu:

  • Too few tags: Strong generalization but uncontrollable; features easily lost or drifted.
  • Too few trigger words: Low "activation"; requires higher weights to see the effect.
  • Too many tags: The model learns "fragmented" data; results become chaotic and hard to blend.
  • Too many trigger words: Scattered memory; individual word effectiveness is weakened.

Miscellaneous

Q: Can I do this on mobile, or is PC required? 

A: Since training happens in the cloud, it isn't dependent on your local hardware. Mobile works, but you might encounter UI layout issues. If you can see and click all the functional buttons, you're good to go. However, a PC is recommended for the best experience.

📢 Live Now: [Model Master Bootcamp] Practical Training Phase! 

Check details & tasks: [Activity Link] 

Real-time Mentor Q&A: [Discord Channel Link]

376
0 comment
66
25
376
0
0/1000